WO2022019157A1 - 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 - Google Patents

議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 Download PDF

Info

Publication number
WO2022019157A1
WO2022019157A1 PCT/JP2021/026077 JP2021026077W WO2022019157A1 WO 2022019157 A1 WO2022019157 A1 WO 2022019157A1 JP 2021026077 W JP2021026077 W JP 2021026077W WO 2022019157 A1 WO2022019157 A1 WO 2022019157A1
Authority
WO
WIPO (PCT)
Prior art keywords
minutes
speaker
data
service
information
Prior art date
Application number
PCT/JP2021/026077
Other languages
English (en)
French (fr)
Inventor
智 高橋
響子 大田和
國泰 兵江
Original Assignee
ラトナ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ラトナ株式会社 filed Critical ラトナ株式会社
Publication of WO2022019157A1 publication Critical patent/WO2022019157A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • the present invention relates to a minutes generator, a control method of the minutes generator, a computer program used to control the minutes generator, and a recording medium thereof.
  • JP2008-225191A discloses a minutes preparation system using a voice recognition technology and a machine translation technology.
  • microservice architectures that design one system as a set of small units that are independent of each other are attracting attention. According to the microservice architecture, merits such as improvement of processing speed and facilitation of change for each component can be obtained.
  • the microservice architecture may be implemented using container orchestration technology such as kubernates.
  • the user downloads the minutes creation software in advance, starts the software before the meeting, connects the computer to a microphone, a display, etc., and further. , It was necessary to keep running the software on the computer during the meeting.
  • the present invention has been made to solve the above-mentioned problems, and the object thereof is that the present invention can be easily used without hassle, does not occupy the personal computer or the like of the conference participants, and is a speaker.
  • the purpose is to provide a system that can generate minutes with advanced processing such as recognition.
  • the minutes generation device is connected to a communication means for communicating with a predetermined network and a first connection means for acquiring voice information by being connected to an external voice input means. It is provided with a minutes data generation unit that generates minutes data based on voice information, and a second connection means that is connected to an external output means and outputs the minutes data to the external output means.
  • the minutes data generation unit uses the text conversion process provided via the network to convert the voice information into text and generate the corresponding character data.
  • the character data generation unit and the story provided via the network.
  • An integrated process that uses the speaker recognition process to recognize the speaker included in the voice information and generate speaker information, and the speaker recognition unit and the minutes data based on the character data and speaker information. It has a department.
  • the minutes generation device outputs the minutes data to the first connection means for acquiring voice information from the external voice input means (mic) and the external output means (display).
  • the second connection means it includes a minutes data generation unit that generates minutes data from the acquired voice information. Since the external voice input means and the external output means are not provided as described above, the hardware configuration of the minutes generation device can be simplified. In addition, since the minutes generation device generates minutes data based on voice information and outputs it to an external output means, it is possible to occupy some resources of the personal computer of the conference participants during the conference. No.
  • the minutes data generation unit character data and speaker information are generated by the character data generation unit and the speaker recognition unit using the processing provided via the network, and the integrated processing unit generates the character data and the speaker information. Integrate speaker information. Therefore, since processing such as character data generation and speaker recognition is performed via a network, the minutes generation device does not perform high-load processing.
  • the minutes generation device that does not perform high-load processing, the device cost is reduced and the introduction of the minutes generation device becomes easy. Further, it is possible to provide a system or the like that does not occupy the personal computer or the like of the conference participants and can generate minutes with advanced processing such as speaker recognition.
  • FIG. 1 is a perspective view of a system including the minutes generation device of the present embodiment.
  • FIG. 2 is a block diagram showing a system configuration related to the minutes generator.
  • FIG. 3 is a hardware configuration diagram of the minutes generator.
  • FIG. 4 is a diagram showing a general program structure.
  • FIG. 5 is a diagram showing a program configuration of the present embodiment.
  • FIG. 6 is a flowchart showing network setting control.
  • FIG. 7 is a flowchart showing the connection control of the microphone.
  • FIG. 8 is a flowchart showing the connection control of the display.
  • FIG. 9 is a flowchart showing speaker setting control.
  • FIG. 10 is a diagram showing an example of a speaker table.
  • FIG. 11 is a flowchart showing the generation control of minutes data.
  • FIG. 12 is a diagram showing an example of a voice analysis table.
  • FIG. 13 is a flowchart showing additional processing for the minutes data.
  • FIG. 14 is a flowchart showing the generation control of the minutes data in the modified example.
  • FIG. 15A is a diagram showing an example of a character data table.
  • FIG. 15B is a diagram showing an example of an identification ID table.
  • FIG. 15C is a diagram showing another example of the character data table.
  • FIG. 16 is a diagram showing an example of the display format of the minutes data.
  • FIG. 17 is a diagram showing another example of the display format of the minutes data.
  • FIG. 18 is a block diagram showing a system configuration related to the minutes generator in another embodiment.
  • FIG. 1 is a perspective view showing a system including the minutes generation device of the present embodiment. Further, FIG. 2 is a block diagram showing a configuration of a system related to the minutes generation device.
  • the minutes generation device 11 arranged in the local environment 10 such as a conference room is a device that analyzes the acquired voice and generates the minutes.
  • the minutes generation device 11 is configured to be able to communicate with the outside of the local environment 10 via a wirelessly connected LAN 12.
  • the minutes generation device 11 is connected to a microphone 13 and a display 14 which are external devices.
  • the microphone 13 may be integrated with the speaker.
  • the connection between the minutes generator 11 and the microphone 13 and the display 14 may be connected not only by wire but also via wireless, and the connection via wire is highly stable and is via wireless. The connection is highly convenient for the user.
  • the minutes generation device 11 is connected to the input device 15.
  • the input device 15 is a device that accepts user input and is a keyboard in the illustrated example, but as another example, it may be a mouse or a controller, or may have various forms.
  • the minutes generation device 11 can make settings based on the input information from the input device 15, for example, at the time of initial setting.
  • the LAN 12 provided in the local environment 10 is connected to the WAN 20 outside the local environment 10.
  • the minutes generation device 11 is configured to be able to access the server 21 on the cloud via the LAN 12 and the WAN 20.
  • the minutes generation device 11 analyzes the voice data acquired by the microphone 13 and creates (transcribes) the character data by using the process provided by the server 21. As described above, the high-load processing and the like are performed using the resources of the server 21 instead of the minutes generation device 11.
  • the minutes generation device 11 has an extremely simple configuration in which the microphone 13, the display 14, and the input device 15 are externally attached, and the server 21 performs high-load processing.
  • the minutes generation device 11 may be connected to the microphone 13, the display 14, and the input device 15 by various methods such as HDMI (registered trademark), USB, WiFi, and Bluetooth.
  • FIG. 3 is a hardware configuration diagram of the minutes generator 11.
  • the minutes generation device 11 has a control unit 31 composed of a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit) that control the whole, a ROM (Read Only Memory), a RAM (Random Access Memory), and / or.
  • Inputs include a storage unit 32 that is composed of a hard disk and the like and stores programs and various data, an input / output port 33 that inputs and outputs data to and from an external device, and a communication unit 34 that communicates via LAN 12 and the like. It includes an input unit 35 that receives input from the device 15.
  • the control unit 31, the storage unit 32, the input / output port 33, the communication unit 34, and the input unit 35 are configured to be able to communicate with each other by a bus connection. In the example shown in FIG.
  • the microphone 13 and the display 14 can exchange data with the minutes generation device 11 by being connected to the input / output port 33, but these devices can be exchanged with each other. Is logically connected to the virtually configured input / output port 33 even when the is connected via radio.
  • FIGS. 4 and 5 are software configuration diagrams of the minutes generation device 11.
  • each application is containerized by the container technology, and hardware resources are managed by the orchestration tool.
  • FIG. 4 shows a general program configuration in such a configuration.
  • FIG. 5 shows a specific program configuration of the present embodiment. It should be noted that these software configurations are realized by storing the program in the storage unit 32 of the minutes generation device 11.
  • the operating system (OS) 41 is installed in the minutes generator 11. Further, the OS 41 is provided with a container engine 42 for constructing a container environment and executing an application in the container environment, and an orchestration tool 43 for managing hardware resources of the container environment.
  • a container engine 42 for constructing a container environment and executing an application in the container environment
  • an orchestration tool 43 for managing hardware resources of the container environment.
  • the container engine 42 forms a logical container area by virtualizing hardware resources and the like.
  • the application is configured integrally with the library used for operation in the container environment. As a result, the containerized application runs in the container area.
  • containerization the integrated configuration of such an application and library may be referred to as containerization.
  • containerized applications are sometimes referred to simply as containers.
  • the container environment is constructed by introducing the container engine 42, and the containerized application can be executed in this container environment.
  • the orchestration tool 43 manages (orchestrates) the hardware resources virtualized by the container engine 42.
  • the orchestration tool 43 constructs a logical area called a cluster 44 as an environment in which a containerized application is executed.
  • the cluster 44 is provided with a master 45 that manages the entire cluster 44 and a node 46 that is an application execution environment.
  • the master 45 manages the hardware resources of the node 46, which is the execution environment of the container 47.
  • a container 47 in which the application is integrated with the library is provided, and one or more containers 47 (two containers 47 in FIG. 4) are managed in units called pods 48.
  • the pod 48 is composed of one or more containers 47.
  • the pod 48 is managed by the pod management block 49 within the node 46.
  • the pod management block 49 manages resources at the node 46 according to the instruction from the master 45.
  • the containerized application is managed in units of the pod 48. Then, the pod 48 is executed at the node 46 in the cluster 44.
  • the non-containerized application (not shown in FIG. 4) may be operated without using the resources of the cluster 44. Such a non-containerized application can communicate bidirectionally with the pod 48 in the cluster 44.
  • a plurality of nodes 46 may be provided in the cluster 44.
  • FIG. 5 is a diagram showing details of the software configuration in the present embodiment.
  • an external device detection service 51 As a pod 48 having a predetermined function in the node 46, an external device detection service 51, a voice input service 52, a video output service 53, a setting service 54, a character data generation service 55, and a speaker identification service 56 , An integrated service 57, a natural language processing service 58, and an emotion analysis service 59.
  • the external device detection service 51 to the emotion analysis service 59 are units of applications provided in an environment in which a container 47 is executed while being orchestrated as shown in FIG. 4, and may be referred to as a microservice. ..
  • the program related to machine learning is provided outside the cluster 44.
  • the neural network library 60 is arranged on the OS 41 without being containerized, and can communicate with the containerized external device detection service 51 to the emotion analysis service 59.
  • the character data generation service 55, the speaker identification service 56, the natural language processing service 58, and the emotion analysis service 59 shall perform the processing using the engine in the server 21.
  • the external device detection service 51 lists and stores external devices that can be connected to the input / output port 33 in advance. Then, when the external device detection service 51 identifies the device connected to the input / output port 33, it determines the type of the connected device, that is, whether or not it is a voice input device and a display device. Then, the external device detection service 51 determines that the microphone 13 is connected when the connected device is an audio input device, and determines that the display 14 is connected when the connected device is a video output device. judge.
  • the voice input service 52 determines the type and performance of the microphone 13 when it is determined by the external device detection service 51 that the microphone 13 is connected. Then, the voice input service 52 selects and sets an appropriate driver software from the list of driver software stored in advance, and accepts the input of voice data from the connected microphone 13. The voice input service 52 may detect the sample rate according to the type of the microphone 13.
  • the video output service 53 determines the type, performance, and the like of the display 14 when it is determined by the external device detection service 51 that the display 14 is connected. Then, the video output service 53 selects an appropriate driver software from the list of driver software stored in advance, and outputs the video data to the connected display 14.
  • the setting service 54 performs initial settings when the minutes generation device 11 is started. Specifically, the setting service 54 prompts the user for initial setting, and performs the initial setting of the minutes generation device 11 in response to the input from the input device 15.
  • the character data generation service 55 generates character data for the voice data acquired from the microphone 13 by using the voice analysis engine in the server 21.
  • the speaker identification service 56 generates speaker information for the voice data acquired from the microphone 13 by using the voice analysis engine in the server 21.
  • the character data generation service 55 and the speaker identification service 56 work together to cause the voice processing engine of the server 21 to perform processing, thereby reducing the amount of communication between the minutes generation device 11 and the server 21. Can be planned.
  • the integrated service 57 creates minutes data by integrating the processing results of the voice analysis engine of the server 21 by the character data generation service 55 and the speaker identification service 56.
  • the details of the processing of the character data generation service 55, the speaker identification service 56, and the integrated service 57 will be described later with reference to FIGS. 11 and 14.
  • the natural language processing service 58 generates the final minutes data by performing natural language processing on the server 21 with respect to the minutes data generated by the integrated service 57.
  • natural language processing errors are corrected and prohibited words are deleted in the minutes data generated by the integrated service 57.
  • the emotion analysis service 59 generates an emotion analysis result by performing an emotion analysis process on the server 21 with respect to the final minutes data generated by the natural language processing service 58.
  • the processing accuracy of emotion analysis differs depending on the language, translation processing may be intervened. For example, even if the minutes are generated in Japanese, if the processing accuracy of emotion analysis is higher in English than in Japanese, the emotion analysis service 59 will translate the final minutes data into English.
  • the emotion analysis result is obtained by transmitting to the server 21 and retranslating the English emotion analysis result obtained by the server 21 into Japanese.
  • the emotion analysis result can be used, for example, for planning a sales strategy. Since the emotion analysis result is recorded in the local environment 10 without being stored on the network, problems of security and privacy are unlikely to occur.
  • the minutes generation device 11 is configured so that various processes can be executed by the containerized microservice. Further, in the situation where the execution environment of the container 47 is managed by the orchestration tool 43, the minutes can be arbitrarily downloaded (deployed) from the server 21 at the time of initial setting or system update. A predetermined microservice can be arranged in the generator 11. Therefore, the minutes generation device 11 can be easily configured with a simple hardware configuration.
  • a voice analysis engine that generates character data and identifies a speaker on the server 21 will be described. Since voice analysis using this engine can perform both character data generation and speaker identification processing, the minutes generation device 11 is desired together with voice data transmission to the server 21. You may instruct the processing of.
  • the voice data received from the minutes generation device 11 is analyzed, a processing identifier (identification ID) is assigned based on the characteristics such as the frequency, tone, and tone, and the minutes generation device 11 is given a processing identifier (identification ID). And send the identification ID.
  • the character data shown in the voice data received from the minutes generation device 11 is created. For example, if the number of participants in the conference is limited and the number of speakers included in the voice data is limited, the speed of the voice analysis process should be increased by limiting the processing to a specific identification ID. Can be done.
  • the output from the server 21 to the minutes generator 11 includes the generated character data and / or the speaker identification ID together with the time information. Details will be described later with reference to FIG. 12 and the like.
  • FIG. 6 is a flowchart showing network setting control at the time of initial setting of the minutes generation device 11.
  • step S601 the setting service 54 starts the network setting (wireless LAN setting) as one of the settings at the time of the first startup.
  • the minutes generation device 11 is connected to the LAN 12 and can communicate with the server 21 via the WAN 20.
  • the setting service 54 may start network setting according to the input from the input device 15.
  • step S602 the setting service 54 transmits the setting screen data to the video output service 53.
  • step S603 the video output service 53 displays the setting screen on the display 14 according to the input setting screen data.
  • the setting screen indicates that the user is prompted to input information such as a password required for connecting to the LAN 12 via wireless.
  • step S604 when the input unit 35 receives the operation information of the input device 15 by the user, the input information (for example, a password) shown in the received operation information is output to the setting service 54. By doing so, the information necessary for connecting to the wireless LAN input by the user is input to the setting service 54.
  • the input information for example, a password
  • step S605 the setting service 54 completes the connection setting to the LAN 12 via the communication unit 34 using the input setting information. Then, in step S606, the setting service 54 transmits the setting completion screen data to the video output service 53. In step S607, the video output service 53 displays the setting completion screen on the display 14 according to the input setting end screen data. As a result, the network setting control of the minutes generation device 11 is completed.
  • FIG. 7 is a flowchart showing the connection control of the microphone 13.
  • step S701 when the minutes generator 11 autonomously detects the surrounding microphone 13 via Bluetooth or the like, the minutes generation device 11 establishes a connection between the microphone 13 and the input / output port 33.
  • the microphone 13 may be connected to the input / output port 33 by wire to the minutes generator 11.
  • step S702 when the input / output port 33 detects the connection of the microphone 13, the connection notification is transmitted to the external device detection service 51.
  • This connection notification includes information on operating specifications such as a sample rate in addition to the type of microphone 13.
  • the external device detection service 51 acquires information on the external device (microphone 13) with reference to the connection notification.
  • the external device detection service 51 determines whether or not the connection state of the external device is correct by referring to the connection notification. For example, the external device detection service 51 determines that the connection state is not correct when a sample rate that cannot be set is indicated in the connection notification.
  • step S705 is performed next to determine the type of the connected device. If it is not determined that the connection state of the external device is correct (S704: No), the process of step S712 is performed next to notify the error. In step S712, the external device detection service 51 can notify the user of an error because the connection state of the microphone 13 is not correct, and request the user to reconnect.
  • step S705 the external device detection service 51 determines whether or not the external device is a microphone 13 capable of accepting voice input. When it is determined that the external device is the microphone 13 (S705: Yes), in step S706, the external device detection service 51 transmits a registration request for the connected external device to the voice input service 52.
  • the registration request includes the information of the microphone 13 acquired in step S702.
  • the connection control is terminated.
  • the voice input service 52 acquires the device name of the microphone 13 by using the connection information of the microphone 13 included in the received registration request.
  • the voice input service 52 has a table in which the device name and the performance of the microphone 13 are associated with each other in advance, and can perform processing according to the connected microphone 13 with reference to the table.
  • step S708 the voice input service 52 detects a driver corresponding to the acquired device of the microphone 13 from the list of drivers stored in advance, and sets the microphone 13 to operate using the driver.
  • step S709 the voice input service 52 acquires the sample rate of the microphone 13.
  • the voice input service 52 makes settings according to a predetermined sample rate, and voice data can be acquired from the microphone 13.
  • step S710 the voice input service 52 finishes the connection completion process. and.
  • step S711 the input / output port 33 is notified of the completion of the connection. As a result, the connection process of the microphone 13 to the minutes generation device 11 is completed.
  • the minutes generation device 11 can accept the input of the voice data from the connected microphone 13.
  • FIG. 8 is a flowchart showing the connection control of the display 14. Since the processing of steps S802 to S805 in this control is the same as the processing of steps S702 to S705 in the connection control of the microphone 13 shown in FIG. 7, the description is simplified. Further, the processing of steps S806 to S812 is equivalent to the processing of steps S705 to S711 in the connection control of the microphone 13 shown in FIG.
  • step S801 when the minutes generator 11 autonomously detects the display 14 in the vicinity via Bluetooth or the like, the minutes generation device 11 establishes a connection between the display 14 and the input / output port 33.
  • the display 14 may be connected to the input / output port 33 by wire to the minutes generator 11.
  • step S802 when the input / output port 33 detects the connection of the display 14, the connection notification is transmitted to the external device detection service 51.
  • the connection notification includes information on operating specifications such as a drive rate indicating a refresh cycle at the time of display.
  • step S803 the external device detection service 51 acquires information on the external device (display 14) with reference to the connection notification.
  • the external device detection service 51 determines whether or not the connection state of the external device is correct by referring to the connection notification. For example, the external device detection service 51 determines that the connection state is not correct when a drive rate that cannot be set is indicated in the connection notification.
  • step S805 is performed next to determine the type of the connected device. If it is not determined that the connection state of the external device (display 14) is incorrect (S804: No), the process of step S813 is performed next to notify the error. In step S813, the external device detection service 51 gives an error notification because the connection state of the display 14 is incorrect.
  • step S805 the external device detection service 51 determines whether or not the external device is the microphone 13, and in step S806, the external device detection service 51 determines whether or not the external device is the display 14.
  • step S807 the external device detection service 51 transmits a registration request to the video output service 53. do.
  • the registration request includes the information of the display 14 acquired in step S802.
  • the connection control is terminated.
  • step S808 the video output service 53 acquires the device name of the display 14 by using the connection information of the display 14 included in the received registration request.
  • the video output service 53 has a table in which the device name and the performance of the display 14 are associated with each other in advance, and can perform processing according to the connected display 14 with reference to the table.
  • step S809 the video output service 53 detects a driver corresponding to the acquired device of the display 14, and sets the display 14 to be operable by using the driver.
  • step S810 the video output service 53 acquires the drive rate of the display 14.
  • the video output service 53 makes settings according to a predetermined drive rate, and audio data can be acquired from the microphone 13.
  • step S811 the video output service 53 completes the connection. and.
  • step S812 the input / output port 33 is notified of the completion of the connection. As a result, the display 14 detects the completion of the connection to the minutes generation device 11.
  • the minutes generator 11 can output an image to the connected display 14.
  • the present invention is not limited to this.
  • a plurality of microphones 13 may be connected, or a plurality of displays 14 may be connected.
  • the external device detection service 51 can manage the connection of a plurality of devices and make optimum settings for those devices.
  • FIG. 9 is a flowchart showing speaker setting control.
  • step S901 the speaker identification service 56 starts setting the first speaker.
  • step S902 the speaker identification service 56 causes the video output service 53 to display the setting screen of the first speaker, so that the user can utter the first speaker and input the display name in the minutes. To urge.
  • step S903 the speaker identification service 56 accepts the input of the name of the first speaker from the input unit 35.
  • the speaker identification service 56 may accept the department to which the first speaker belongs from the input unit 35 and store the department and the name in association with each other.
  • step S904 the voice input of the first speaker is received from the voice input service 52.
  • step S905 the speaker identification service 56 instructs the server 21 to transmit the voice data of the first speaker and to perform the speaker identification process.
  • step S906 when the server 21 receives the input of the voice data of the first speaker, it analyzes the voice data and starts the setting of the first speaker. In this analysis process, only the speaker identification process is performed without performing the character data creation process in response to the instruction from the speaker identification service 56.
  • the server 21 analyzes the voice data of the first speaker, extracts features such as its frequency, tone, and timbre, and assigns an identification ID used for processing specialized for the first speaker. Then, in step S907, the server 21 transmits the assigned identification ID to the speaker identification service 56.
  • the speaker identification service 56 has a speaker table in which the name of the first speaker received from the input unit 35 in step S903 and the identification ID received in step S906 are associated with each other and has a speaker table.
  • the speaker table is updated by associating the input of the above and the identification ID received from the server 21.
  • step S909 the speaker identification service 56 causes the video output service 53 to display the end screen of the registration of the first speaker.
  • step S910 the speaker identification service 56 indicates to the video output service 53 whether or not the speaker registration needs to be continued, that is, whether or not to perform the next speaker registration, and the user is informed. Prompt for continuation / end input.
  • step S911 the speaker identification service 56 accepts the input of continuation / termination of speaker registration from the input unit 35. After that, when the speaker identification service 56 accepts the input for continuing the speaker registration, the process of steps S901 to S909 is repeated in order to register the second speaker, and the input for ending the speaker registration is accepted. If so, the speaker registration is terminated.
  • FIG. 10 is an example of a table stored in the speaker identification service 56.
  • the speaker name and its affiliation input by the user and the identification ID given by the speaker identification process of the server 21 are stored in association with each other.
  • personal information is not stored in the server 21, so that security can be improved.
  • FIG. 11 is a flowchart showing the generation control of minutes data.
  • the services used for controlling the generation of minutes data that is, the character data generation service 55, the speaker identification service 56, and the integrated service 57 are assumed to operate in cooperation with each other, and the minutes data are collectively used. It shall be referred to as a generator.
  • step S1101 the speaker identification service 56 confirms the participants of the conference. Such confirmation shall be performed by the speaker participating in the conference using the input device 15 by selecting the user name displayed on the display 14. Then, in step S1102, the speaker identification service 56 refers to the speaker table and transmits the identification ID of the member participating in the conference confirmed in step S1101 to the server 21, and in step S1103, the voice of the server 21 is transmitted.
  • the analysis engine registers the received identification ID as a conference participant. At the same time, in step S1104, the speaker identification service 56 transmits the speaker table associated with the participants in the conference to the integrated service 57.
  • the voice input service 52 acquires voice data in step S1105
  • the acquired voice data is transmitted to the character data generation service 55 in step S1106.
  • the speaker identification service 56 divides the received voice data into predetermined time intervals (for example, every 10 seconds) to generate divided voice data
  • the character data generation service 55 divides the received voice data.
  • the voice data is transmitted to the voice analysis engine of the server 21.
  • the character data generation service 55 instructs the server 21 to both generate character data and identify the speaker to the voice analysis engine.
  • step S1107 corrections such as noise removal and sampling rate adjustment may be performed on the acquired voice data. By doing so, the accuracy of voice analysis can be improved. Further, in the division process of step S1107, margins overlapping with the preceding and following divided audio data may be provided at the first and last portions of the divided audio data. By providing such a margin, the voice before and after the timing at which the voice data is divided is recorded in both of the adjacent divided voice data, so that the generation accuracy of the character data due to the division is lowered. Can be suppressed. Since the divided voice data is associated with the time information, the margin portion can be deleted in the integration process described later.
  • step S1109 the server 21 performs voice analysis on the received divided voice data.
  • the server 21 receives the participant's identification ID in step S1102, and preferentially gives priority to the characteristics such as frequency, tone, and tone extracted when the identification ID is given in step S906 of FIG. Voice analysis is performed using.
  • step S1110 the server 21 transmits the voice analysis result of the received divided voice data to the integrated service 57.
  • FIG. 12 shows an example of a voice analysis table generated by the voice analysis engine of the server 21.
  • the voice analysis table the time zone and the character data are combined and shown for each time zone.
  • the speaker of the 3F2D identification ID from 09:10:00 to 03 seconds remarks ⁇
  • the speaker of the 2A80 identification ID from 09:10:03 to 07 seconds.
  • the remarks of ⁇ by the speaker and the remarks of ⁇ by the speaker of the 3F2D identification ID from 09:10:07 to 10 seconds are shown. ..
  • step S1111 the integrated service 57 integrates a plurality of voice analysis tables received from the server 21. Since there is a time overlap in the divided voice data adjacent to the front and back, there is also a time overlap in the voice analysis result. Therefore, when the integrated service 57 integrates a plurality of voice analysis tables, the integrated service 57 deletes the overlap time portion with the adjacent voice analysis tables and generates one voice analysis result.
  • step S1112 the integrated service 57 converts the identification ID in the generated voice analysis result into the registered speaker name using the speaker table received in step S1104. In this way, in step S1113, the integrated service 57 finally generates the minutes data.
  • the identification ID was transmitted in advance in step S1102, but the present invention is not limited to this.
  • the participant identification ID may be transmitted together with the divided voice data each time.
  • FIG. 13 is a flowchart showing additional processing for the generated minutes data.
  • step S1301 the integrated service 57 generates minutes data. This process corresponds to the process of step S1113 in FIG. Then, in step S1302, the generated minutes data is transmitted to the natural language processing service 58.
  • step S1303 the natural language processing service 58 generates the final minutes data by performing natural language processing on the input minutes data.
  • the processing of steps S13031 to S13036, which is the details of the processing of step S1303, is as follows.
  • step S13031 the natural language processing service 58 divides the minutes data input from the integrated service 57 for each speaker and generates the divided minutes data.
  • the minutes data may be further divided into clauses in addition to each speaker.
  • step S13032 the natural language processing service 58 transmits the divided minutes data generated in step S13031 to the server 21.
  • the server 21 performs natural language processing on the divided minutes data by the natural language processing engine.
  • the natural language processing service 58 transmits the divided minutes data that has been processed in natural language to the natural language processing service 58.
  • step S13035 the natural language processing service 58 integrates the natural language processed divided minutes data received from the server 21. Then, in step S13036, the natural language processing service 58 generates the minutes data modified by the natural language processing.
  • step S1304 the natural language processing service 58 outputs the generated final minutes data to the emotion analysis service 59 and the video output service 53.
  • the video output service 53 displays the information shown in the final minutes data on the display 14 using a user interface in the format as shown in FIG. 16 or FIG. 17 described later.
  • step S1305 the emotion analysis service 59 performs emotion analysis on the input final minutes data and generates an emotion analysis result.
  • the processing of steps S13051 to S13057, which is the details of the processing of step S1305, is as follows.
  • the emotion analysis process may be selectively performed in a specific application situation, for example, when the minutes generation device 11 is used at a retail site such as a department store.
  • step S13051 the emotion analysis service 59 divides the minutes data input from the integrated service 57 for each speaker and generates the divided minutes data.
  • the minutes data may be further divided into clauses in addition to each speaker.
  • step S13052 the divided final minutes data is translated into another language.
  • the accuracy of emotion analysis may differ depending on the type of language. For example, when the accuracy of emotion analysis is higher in English than in Japanese, the emotion analysis service 59 translates the final minutes data into English and then sends it to the server 21. The translation may be performed by the server 21.
  • step S13053 the emotion analysis service 59 transmits the translation data generated in step S13052 to the server 21.
  • step S13054 the server 21 performs emotion analysis processing on the translated data, generates emotion analysis data, and in step S13055, transmits the emotion analysis data to the emotion analysis service 59.
  • step S13056 the emotion analysis service 59 retranslates the emotion analysis result received from the server 21. This is because the emotion analysis result is generated by the language transmitted to the server 21 in step S13053, so that the translation into Japanese is required again. Then, in step S13057, the emotion analysis service 59 can show the emotion analysis result for each speaker by generating the emotion analysis result.
  • the emotion analysis result can be positively used. That is, by generating the minutes data transcribed for the conversation between the clerk and the customer and performing emotion analysis on the minutes data, it is possible to grasp whether the customer's reaction is positive or not. It is possible to improve customer service.
  • the emotion analysis service 59 may transmit the generated emotion analysis result to the video output service 53 and output the emotion analysis result to the display 14.
  • the emotion analysis service 59 may perform emotion analysis on the minutes data generated by the integrated service 57 instead of the final minutes data output from the natural language processing service 58. By doing so, the time required to generate the emotion analysis result can be shortened by the processing time of the natural language.
  • the video output service 53 receives the final minutes data and the emotion analysis result, the information indicated by those data is displayed on the display 14.
  • the final minutes data and the sentiment analysis result may be stored in the storage in the minutes generation device 11 or in the server 21 on the network.
  • the character data generation service 55 and the speaker identification service 56 perform character data creation and speaker identification, respectively, and the character data generation and speaker identification are separate first servers 21A.
  • An example performed in the second server 21B will be described. In the following, it is assumed that the first server 21A is provided with a character data generation engine and the second server 21B is provided with a speaker identification engine.
  • FIG. 14 is a flowchart showing the generation control of the minutes data in the modified example.
  • step S1401 the speaker identification service 56 confirms the participants of the conference. Then, in step S1402, the speaker identification service 56 refers to the speaker table and transmits the identification ID of the participating member of the conference confirmed in step S1401 to the first server 21A and the second server 21B. do.
  • step S1403 the character data generation engine of the first server 21A registers the received identification ID as a conference participant, and in step S1404, the speaker identification engine of the second server 21B registers the received identification ID as a conference participant. Register as.
  • step S1405 When the voice input service 52 acquires voice data in step S1405, the acquired voice data is transmitted to the character data generation service 55 and the speaker identification service 56 in step S1406. Then, character data generation control is performed in step S1407, and speaker identification control is performed in step S1408.
  • step S14071 the character data generation service 55 divides the received voice data at predetermined time intervals to generate divided voice data
  • step S14072 the character data generation service 55 divides the divided voice data into the first server 21A. It is sent to the character data generation engine of. It should be noted that the divided voice data may be provided with a margin so that there is a time overlap with the adjacent divided voice data.
  • step S14073 the character data generation engine of the first server 21A analyzes the received divided voice data to generate character data, and in step S14074, the first server 21A transfers the generated character data table to the character data generation service 55. And send.
  • FIG. 15A shows an example of a character data table generated by the character data generation engine of the server 21.
  • character data is shown for each time zone. For details, the remarks of ⁇ from 09:10:00 to 03 seconds, the remarks of ⁇ from 09:10:03 to 07 seconds, and 09:10. Character data indicating the remarks of ⁇ from 07 seconds to 10 seconds is shown.
  • step S14075 the character data generation service 55 creates a character data join table by temporally joining a plurality of received character data tables. In this join process, the overlapping time portion in the tables adjacent to each other in time is deleted. Then, in step S14076, the character data generation service 55 transmits the generated character data join table to the integration service 57. In this way, character data is generated by character data generation control.
  • step S14081 the speaker identification service 56 divides the received voice data at predetermined time intervals to generate divided voice data
  • step S14082 the speaker identification service 56 divides the divided voice data into the second server 21B. Send to the speaker identification engine.
  • the divided voice data may be provided with a margin so that there is a time overlap with the adjacent divided voice data.
  • step S14083 the speaker identification engine of the second server 21B analyzes the received divided voice data to generate a speaker ID table, and in step S14084, the first server 21A identifies the generated speaker ID table as a speaker. Send to service 56.
  • FIG. 15B shows an example of an identification ID table generated by the speaker identification engine of the second server 21B.
  • the identification ID table the identification ID of the speaker is shown for each time zone. For details, the speaker's remarks on the 3F2D identification ID from 09:10:00 to 03 seconds, the remarks by the speaker on the 2A80 identification ID from 09:10:03 to 07 seconds, and 09:10. It is shown that there was a statement by the speaker of the 3F2D identification ID from 07 seconds to 10 seconds.
  • step S14085 the character data generation service 55 creates an identification ID join table by joining a plurality of received identification ID tables. In this join process, the overlap time portion in the adjacent table is deleted. Then, in step S14086, the speaker table is used to convert the identification ID in the generated identification ID join table into the registered speaker name. In step S14087, the character data generation service 55 transmits the identification ID join table to the integrated service 57. In this way, speaker data is generated by speaker identification control.
  • step S1409 the integrated service 57 integrates the character data join table and the speaker data join table in association with each other using time information. ..
  • step S1410 the integrated service 57 finally generates the minutes data after converting the identification ID into the speaker name.
  • the character data table generated by the character data generation control in step S1407 may contain only the character data together with the time information regardless of the speaker. Even in such a character data table, if the identification ID is described together with the time information in the identification ID table, the integrated service 57 can use the time information to integrate the character data table and the identification ID table. , It is possible to generate minutes data showing the content of remarks for each identification ID (speaker).
  • 16 and 17 are diagrams showing an example of the display format of the minutes data output by the video output service 53 to the display 14.
  • the speaker and the content of the statement are displayed correspondingly based on the final minutes data that has undergone natural language processing.
  • the name of the speaker registered in advance can be displayed. For example, as shown in the figure, when two speakers, Taro Tanaka and Hanako Sato, are registered as speakers, the content of their remarks is displayed together with the registered names. On the other hand, the content of the unregistered speaker C's remark is displayed without specifying the speaker name. Later, when C is registered as a speaker, the name of C is described in the display format of the final minutes data.
  • two speakers (Taro Tanaka and Hanako Sato) are shown on the left and right, and the content of the statement is shown in the frame of the balloon from one of them. May be good.
  • the user interface for displaying these minutes data is generated by the video output service 53.
  • a voice input service 52 is provided for each microphone 13, and voice data is collected from each voice input service 52 together with time data in the minutes data generation unit. Is entered in.
  • the minutes data generation unit integrates the voice data input using the time information, and transmits the combined voice data to the server 21.
  • the speaker table can be updated at any time. For example, if there is a speaker whose name is not registered after the final minutes data is generated, a new speaker registration is performed. By updating the performer table, it can be converted to the speaker name in the minutes data.
  • the server 21 may be provided in the local environment 10 and may be connected to the minutes generation device 11 via the LAN 12. With such a configuration, the minutes generation device 11 can be operated even in an environment where there is no connection with the WAN 20.
  • the minutes generation device 11 may perform a part or all of the processing performed in the server 21 in the device.
  • the speaker identification service 56 may be responsible for part or all of the speaker identification processing performed on the server 21.
  • the minutes generation device 11 of the present embodiment includes a LAN 12 which is a communication means for communicating with a network, a voice input service 52 which is connected to a microphone 13 which is an external voice input means and acquires voice data, and a voice.
  • the minutes data generation unit character data generation service 55, speaker identification service 56, and integrated service 57
  • the minutes data generation unit that generates minutes data based on information is connected to the display 14 which is an external output means to the display 14. It is provided with a video output service 53 that outputs minutes data.
  • the character data generation service 55 uses the character data generation process provided via the network to convert voice information into text and generate the corresponding character data, and the speaker identification service 56. Recognizes the speaker included in the voice information and generates the speaker information by using the speaker recognition process provided via the network. Then, the integrated service 57 generates the minutes data based on the character data and the speaker information.
  • the minutes generation device 11 includes a voice input service 52 that can be connected to the microphone 13 that is an external voice input means, and a video output service 53 that can be connected to the display 14 that is an external output means.
  • the recording generation device 11 itself has a simple configuration without an input / output device.
  • the character data generation service 55 and the speaker identification service 56 use the functions provided by the server 21 on the network to provide character data and talk. Person information is generated. Then, in the integrated service 57, the minutes information is generated by integrating the character data and the speaker information. In this way, the processing load on the minutes generation device 11 is reduced.
  • the minutes generation device 11 having a simple structure, not only can the minutes be easily generated without hassle, but also the minutes data can be generated with advanced processing such as speaker recognition. ..
  • the connection between the audio input service 52 and the microphone 13 is autonomously established, and the connection between the video output service 53 and the display 14 is autonomously established.
  • the connection process by the user can be omitted, so that the convenience of the minutes generation device 11 can be improved.
  • the speaker identification service 56 has a speaker table for storing the identification ID for each speaker used in the speaker recognition process, and has a speaker table in the vicinity of the minutes generation device 11.
  • the identification ID corresponding to the speaker existing in the speaker 13 and the voice can be input by the microphone 13 is transmitted to the server 21.
  • the voice analysis process (character data generation / speaker identification) on the server 21 can be limited to the process according to a specific speaker, so that the accuracy and speed of the voice analysis process on the server 21 can be limited. It can be improved.
  • the speaker identification service 56 has a speaker table for storing the identification ID for each speaker used in the speaker recognition process, and has a speaker table in the vicinity of the minutes generation device 11.
  • the identification ID corresponding to the speaker existing in the speaker 13 and the voice can be input by the microphone 13 is transmitted to the server 21.
  • the voice analysis process (character data generation / speaker identification) on the server 21 can be limited to the process according to a specific speaker, so that the accuracy and speed of the voice analysis process on the server 21 can be limited. It can be improved.
  • the server 21 performs processing using the identification ID, and the integrated service 57 of the minutes generation device 11 converts the identification ID into the speaker name. Generate minutes data. By doing so, since the speaker name is not transmitted to the server 21, privacy and security functions can be improved.
  • the speaker identification service 56 performs an initial setting process for storing voice information for each speaker used in the speaker recognition process in advance. In this way, by recording the voice information for each speaker in the initial setting, the identification rate in the speaker identification process can be improved, and the speaker can record the minutes data finally generated. Therefore, convenience can be improved.
  • the voice input service 52 corrects the acquired voice data such as removing noise and adjusting the sampling rate, and the corrected voice data is a character data generation service. It is processed by 55 and the speaker identification service 56. As described above, the accuracy of the processing result can be improved by correcting the voice data in the stage before the processing performed on the server 21.
  • the natural language processing service 58 is further provided, and the natural language processing service 58 performs natural language processing on the minutes data generated by the integrated service 57.
  • natural language processing it is possible to correct errors that may occur in character recognition processing, so it is possible to improve the accuracy of minutes data.
  • the emotion analysis service 59 is further provided, and the emotion analysis service 59 performs an emotion analysis performed on the server 21 with respect to the minutes data generated by the integrated service 57. I do.
  • the emotion analysis is performed based on the conversation between the customer and the clerk. Therefore, it can be used for product sales strategies.
  • the voice input service 52 acquires the operation specifications such as the sampling rate of the microphone 13 connected to the input / output port 33, and corresponds to the operation specifications stored in advance. Audio data is acquired using the settings of the microphone 13. In this way, by operating the microphone 13 according to its operating specifications, the accuracy of the voice data acquired by the microphone 13 can be improved, so that the accuracy of the final minutes data can be improved. Can be done.
  • the video output service 53 acquires the operation specifications such as the display rate of the display 14 connected to the input / output port 33, and corresponds to the operation specifications stored in advance.
  • the video is output using the settings of the display 14. In this way, by operating the display 14 according to its operating specifications, the accuracy of the video output by the display 14 can be improved.
  • the external device detection service 51 can determine whether or not the connection of the microphone 13 or the display 14 connected to the input / output port 33 is correct. By including such a determination process, if the connection is incorrect, the user can be requested to reconnect.
  • the voice input service 52 is configured to be connectable to one or a plurality of microphones 13. For example, when the voice input service 52 is connected to a plurality of microphones 13, subsequent voice analysis can be performed by integrating the voice data acquired by the plurality of microphones 13 based on the time information. By using the plurality of microphones 13 in this way, it is possible to improve the quality of the input voice data.
  • the microservice is containerized in the container environment in which the container engine 42 is introduced, and the hardware resources of the container environment are managed by the orchestration tool 43.
  • the processing speed of the minutes generation device 11 can be increased, so that even if each processing uses the function provided by the server 21, there is a delay. Minutes can be generated without.
  • the containerized microservice is acquired from the network at the time of initial setting of the minutes generation device 11 or at the time of system update and is stored in the minutes generation device 11. Will be deployed. With such a configuration, it is possible to easily perform the initial setting and system update of the minutes generation device 11.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

議事録生成装置は、所定のネットワークと接続して通信を行う、通信手段と、外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、音声情報に基づき議事録データを生成する、議事録データ生成部と、外部出力手段と接続され、外部出力手段へと議事録データを出力する、第2の接続手段と、を備える。議事録データ生成部は、ネットワークを介して提供されるテキスト化処理を利用して、音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、文字データと話者情報に基づいて議事録データを生成する、統合処理部と、を備える。

Description

議事録生成装置、方法、コンピュータプログラム、及び、記録媒体
 本発明は、議事録生成装置、議事録生成装置の制御方法、議事録生成装置の制御に用いるコンピュータプログラム、及び、その記録媒体に関する。
 近年の音声解析技術の向上に伴って、会議において議事録を自動的に作成するための機器やソフトウェアが開発されている。さらに、議事録作成の関連技術の開発も進んでおり、例えば、JP2008-225191Aには、音声認識技術と機械翻訳技術とを用いた議事録作成システムが開示されている。
 また、近年、一つのシステムを互いに独立な小単位のコンポーネントの集合として設計するマイクロサービスアーキテクチャが注目を集めつつある。マイクロサービスアーキテクチャによれば、処理速度の向上や各コンポーネント単位での変更の容易化等のメリットが得られる。なお、マイクロサービスアーキテクチャは、例えばkubernates等のコンテナオーケストレーション技術を利用して実装されることがある。
 しかしながら、JP2008-225191Aに開示された議事録作成システムによれば、専用機器や専用ソフトを動作させるパソコン等の環境が必要であり、これらのシステム負荷が高く、簡易に利用することが難しかった。
 そのため、従来の議事録作成システムを会議において利用しようとする場合、利用者は、予め議事録作成ソフトウェアをダウンロードし、会議前に当該ソフトウェアを起動すると共にパソコンをマイクやディスプレイ等に接続し、さらに、会議中に当該ソフトウェアをパソコン上で実行し続ける必要があった。
 しかしながら、この一連の工程は、議事録作成システムの利用者にとって手間であり、また、一定の情報技術に対する知識を要求するため、場合によっては導入の妨げの一因となっていた。また、参加者のパソコンの一部資源を会議の間占有することもあり、参加者のパソコンへの一定の負荷となっていた。特に、音声に対して話者認識処理や高度の自然言語処理等を行う高度な議事録生成処理を行う場合には、この負荷は軽視できないものであった。
 本発明は、上述の課題を解決するためになされたものであり、その目的とするところは、手間なく容易に利用することができ、会議参加者のパソコン等を占有せず、かつ、話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することにある。
 上述の課題は、以下の構成を有する議事録生成装置等により解決することができる。
 すなわち、本発明の一態様に係る議事録生成装置は、所定のネットワークと接続して通信を行う、通信手段と、外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、音声情報に基づき議事録データを生成する、議事録データ生成部と、外部出力手段と接続され、外部出力手段へと議事録データを出力する、第2の接続手段と、を備える。議事録データ生成部は、ネットワークを介して提供されるテキスト化処理を利用して、音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、文字データと話者情報に基づいて議事録データを生成する、統合処理部と、を備える。
 本発明の一態様によれば、議事録生成装置は、外部音声入力手段(マイク)から音声情報を取得する第1の接続手段、及び、外部出力手段(ディスプレイ)へと議事録データを出力する第2の接続手段に加えて、取得された音声情報から議事録データを生成する議事録データ生成部を備える。このように外部音声入力手段や外部出力手段を備えないため、議事録生成装置のハードウェア構成を簡略化することができる。また、議事録生成装置が、音声情報に基づいて議事録データを生成し外部出力手段へと出力するまでを行うことから、会議参加者のパソコンの一部資源等を会議の間占有することがない。
 さらに、議事録データ生成部においては、ネットワークを介して提供される処理を用いた文字データ生成部及び話者認識部によって、文字データ及び話者情報が生成され、統合処理部は、文字データ及び話者情報の統合を行う。そのため、文字データ生成や話者認識のような処理はネットワークを介した処理により行われるため、議事録生成装置において負荷の高い処理は行われない。
 したがって、ハードウェア構成が簡略化されているのに加えて、負荷の高い処理が行われない議事録生成装置を用いることによって、装置コストが下がり、議事録生成装置の導入が容易となる。また、会議参加者のパソコン等を占有せず、かつ、話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することができる。
図1は、本実施形態の議事録生成装置を備えるシステムの斜視図である。 図2は、議事録生成装置に関連するシステム構成を示すブロック図である。 図3は、議事録生成装置のハードウェア構成図である。 図4は、一般的なプログラム構成を示す図である。 図5は、本実施形態のプログラム構成を示す図である。 図6は、ネットワークの設定制御を示すフローチャートである。 図7は、マイクの接続制御を示すフローチャートである。 図8は、ディスプレイの接続制御を示すフローチャートである。 図9は、話者設定制御を示すフローチャートである。 図10は、話者テーブルの一例を示す図である。 図11は、議事録データの生成制御を示すフローチャートである。 図12は、音声解析テーブルの一例を示す図である。 図13は、議事録データに対する追加処理を示すフローチャートである。 図14は、変形例における議事録データの生成制御を示すフローチャートである。 図15Aは、文字データテーブルの一例を示す図である。 図15Bは、識別IDテーブルの一例を示す図である。 図15Cは、文字データテーブルの他の一例を示す図である。 図16は、議事録データの表示形式の例を示す図である。 図17は、議事録データの表示形式の他の例を示す図である。 図18は、他の実施形態における議事録生成装置に関連するシステム構成を示すブロック図である。
 以下、図面を参照して、本発明の実施形態について説明する。
 図1は、本実施形態の議事録生成装置を備えるシステムを示す斜視図である。また、図2は、議事録生成装置に関連するシステムの構成を示すブロック図である。
 図1に示されるように、会議室などのローカル環境10に配置された議事録生成装置11は、取得した音声を解析して議事録を生成する機器である。議事録生成装置11は、無線で接続されたLAN12を介してローカル環境10の外部と通信可能に構成される。また、議事録生成装置11は、外部機器であるマイク13及びディスプレイ14と接続されている。なお、マイク13は、スピーカーと一体となったものであってもよい。また、議事録生成装置11と、マイク13、及び、ディスプレイ14との接続は、有線に限らず無線を介して接続されてもよく、有線を介した接続は安定性が高く、無線を介した接続はユーザの利便性が高い。
 さらに、議事録生成装置11は、入力機器15と接続されている。入力機器15は、ユーザの入力を受け付ける機器であって、図示された例においてはキーボードであるが、他の例として、マウスやコントローラであってもよく、種々の形態であってもよい。議事録生成装置11は、例えば、初期設定時等において入力機器15からの入力情報に基づいた設定を行うことができる。
 図2に示されるように、ローカル環境10に設けられるLAN12はローカル環境10外のWAN20と接続されている。これにより、議事録生成装置11は、LAN12及びWAN20を介してクラウド上のサーバ21にアクセス可能に構成されている。
 議事録生成装置11は、サーバ21により提供される処理を用いて、マイク13により取得される音声データを解析して文字データの作成(文字起し)を行う。このように、負荷の高い処理等は、議事録生成装置11ではなくサーバ21の資源を用いて行われる。
 議事録生成装置11は、マイク13、ディスプレイ14及び入力機器15が外付けされるとともに、負荷の高い処理をサーバ21にて行う極めて簡易な構成である。なお、議事録生成装置11と、マイク13、ディスプレイ14及び入力機器15との接続は、HDMI(登録商標)、USB、WiFi、Bluetooth等の種々の方式によって接続されてもよい。
 図3は、議事録生成装置11のハードウェア構成図である。
 議事録生成装置11は、全体を制御するCPU(Central Processing Unit)及びGPU(Graphics Processing Unit)により構成される制御部31と、ROM(Read Only Memory)、RAM(Random Access Memory)、及び/又はハードディスク等により構成され、プログラムや各種のデータ等を記憶する記憶部32と、外部機器とのデータの入出力を行う入出力ポート33と、LAN12等を介して通信を行う通信部34と、入力機器15からの入力を受け付ける入力部35と、を備える。制御部31、記憶部32、入出力ポート33、通信部34、及び、入力部35は、バス接続により互いに通信可能に構成されている。なお、図1に示される例では、マイク13及びディスプレイ14は、入出力ポート33と接続されることで、議事録生成装置11との間でデータのやりとりを行うことができるが、これらの機器が無線を介して接続される場合でも仮想的に構成される入出力ポート33と論理的に接続される。
 図4、5は、議事録生成装置11のソフトウェア構成図である。本実施形態においては、コンテナ技術によりそれぞれのアプリケーションがコンテナ化されるとともに、オーケストレーションツールによりハードウェアリソースの管理がされている。図4には、このような構成における一般的なプログラム構成が示されている。図5には、本実施形態の具体的なプログラム構成が示されている。なお、これらのソフトウェア構成は、議事録生成装置11の記憶部32にプログラムが記憶されることで、実現されている。
 図4に示されるように、議事録生成装置11には、オペレーションシステム(OS)41がインストールされている。さらに、OS41には、コンテナ環境の構築及びコンテナ環境におけるアプリケーションの実行を行うコンテナエンジン42、及び、コンテナ環境のハードウェアリソースを管理するオーケストレーションツール43が設けられている。
 コンテナエンジン42は、ハードウェアリソース等を仮想化することで論理的なコンテナ領域を形成する。そして、アプリケーションは、コンテナ環境での動作に用いるライブラリと一体的に構成されている。その結果、コンテナ化されたアプリケーションは、コンテナ領域で動作する。
 なお、このようなアプリケーションとライブラリとを一体的に構成することを、コンテナ化と称することがある。また、コンテナ化されたアプリケーションは、単にコンテナと称されることもある。このように、コンテナエンジン42を導入することでコンテナ環境が構築され、このコンテナ環境においてコンテナ化されたアプリケーションの実行が可能となる。
 オーケストレーションツール43は、コンテナエンジン42によって仮想化されたハードウェアリソースを管理(オーケストレーション)する。
 詳細には、オーケストレーションツール43は、コンテナ化されたアプリケーションが実行される環境として、クラスタ44と称される論理領域を構築する。クラスタ44には、クラスタ44の全体を管理するマスタ45と、アプリケーションの実行環境であるノード46とが設けられる。マスタ45は、コンテナ47の実行環境であるノード46のハードウェアリソースの管理を行う。
 ノード46においては、アプリケーションがライブラリと一体となって構成されるコンテナ47が設けられ、1以上のコンテナ47(図4においては2つのコンテナ47)が、ポッド48という単位で管理されている。なお、ポッド48は、1または2以上のコンテナ47により構成される。ポッド48は、ノード46内においてポッド管理ブロック49によって管理される。なお、ポッド管理ブロック49は、マスタ45からの指示に従って、ノード46におけるリソース管理を行う。
 このように、コンテナエンジン42及びオーケストレーションツール43が導入された環境においては、コンテナ化されたアプリケーションはポッド48の単位で管理される。そして、ポッド48は、クラスタ44内のノード46において実行される。なお、コンテナ化されていないアプリケーション(図4において不図示)は、クラスタ44のリソースを用いずに動作されてもよい。このようなコンテナ化されていないアプリケーションは、クラスタ44内のポッド48と双方向に通信することができる。なお、本実施形態においては、クラスタ44内に1つのノード46が設けられる例について説明したが、これに限らない。クラスタ44内に複数のノード46が設けられてもよい。
 図5は、本実施形態におけるソフトウェア構成の詳細を示す図である。
 この図においては、ノード46内に、所定の機能を有するポッド48として、外部機器検出サービス51、音声入力サービス52、映像出力サービス53、設定サービス54、文字データ生成サービス55、話者識別サービス56、統合サービス57、自然言語処理サービス58、及び、感情解析サービス59が設けられている。外部機器検出サービス51~感情解析サービス59は、図4に示されるようなコンテナ47がオーケストレーションされながら実行する環境において、提供されるアプリケーションの単位であって、マイクロサービスと称されることもある。
 また、機械学習に関するプログラムは、クラスタ44の外に設けられる。詳細には、ニューラルネットワークライブラリ60は、コンテナ化されずにOS41上に配置されて、コンテナ化された外部機器検出サービス51~感情解析サービス59と相互に通信することができる。
 以下では、外部機器検出サービス51~感情解析サービス59の詳細な構成について説明する。なお、これらの処理において、文字データ生成サービス55、話者識別サービス56、自然言語処理サービス58、及び、感情解析サービス59は、その処理をサーバ21におけるエンジンを用いて行うものとする。
 外部機器検出サービス51は、予め入出力ポート33と接続されうる外部機器をリスト化して記憶している。そして、外部機器検出サービス51は、入出力ポート33に接続された機器を識別すると、接続された機器の種類、すなわち、音声入力デバイス、及び、表示デバイスであるか否かを判定する。そして、外部機器検出サービス51は、接続された機器が音声入力デバイスである場合にはマイク13が接続されたと判定し、接続された機器が映像出力デバイスである場合にはディスプレイ14が接続されたと判定する。
 音声入力サービス52は、外部機器検出サービス51によってマイク13が接続されたと判定された場合に、マイク13の種類や性能等の判定を行う。そして、音声入力サービス52は、予め記憶されているドライバソフトの一覧から適切なドライバソフトを選択して設定し、接続されたマイク13からの音声データの入力を受け付ける。なお、音声入力サービス52は、マイク13の種類に応じてサンプルレートの検出を行ってもよい。
 映像出力サービス53は、外部機器検出サービス51によってディスプレイ14が接続されたと判定された場合に、ディスプレイ14の種類や性能等の判定を行う。そして、映像出力サービス53は、予め記憶されているドライバソフトの一覧から適切なドライバソフトを選択し、接続されたディスプレイ14へと映像データを出力する。
 設定サービス54は、議事録生成装置11の起動時に初期設定を行う。詳細には、設定サービス54は、ユーザに対して初期設定を促し、入力機器15からの入力に応じて議事録生成装置11の初期設定を行う。
 文字データ生成サービス55は、マイク13から取得した音声データに対して、サーバ21における音声解析エンジンを用いて、文字データを生成する。
 話者識別サービス56は、マイク13から取得した音声データに対して、サーバ21における音声解析エンジンンを用いて、話者情報を生成する。なお、文字データ生成サービス55及び話者識別サービス56は、協働してサーバ21の音声処理エンジンに処理を行わせることにより、議事録生成装置11とサーバ21との間の通信量の低減を図ることができる。
 統合サービス57は、文字データ生成サービス55及び話者識別サービス56によりサーバ21の音声解析エンジンによる処理結果を統合することで、議事録データを作成する。なお、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57の処理の詳細は、後に、図11、14を用いて説明する。
 自然言語処理サービス58は、統合サービス57により生成された議事録データに対して、サーバ21における自然言語処理を行うことによって、最終議事録データを生成する。自然言語処理によって、統合サービス57において生成された議事録データにおける誤りの修正や禁止ワードの削除が行われる。
 感情解析サービス59は、自然言語処理サービス58により生成された最終議事録データに対して、サーバ21における感情解析処理を行うことによって、感情解析結果を生成する。
 なお、言語により感情解析の処理精度が異なる等の場合には、翻訳処理を介在させてもよい。例えば、日本語で議事録が生成される場合であっても、日本語よりも英語の方が感情解析の処理精度が高い場合には、感情解析サービス59は、最終議事録データを英訳した後にサーバ21に送信し、サーバ21によって得られる英語の感情解析結果を日本語に再翻訳することで、感情解析結果を得る。
 また、議事録生成装置11を店頭などに配置し店員と顧客との間の会話を収集することにより、感情解析結果を、例えば、販売戦略の立案等に用いることができる。なお、感情解析結果はネットワーク上には保存されずに、ローカル環境10において記録されるため、セキュリティやプライバシーの問題が発生しにくい。
 このように、議事録生成装置11においては、コンテナ化されたマイクロサービスによって種々の処理が実行可能なように構成されている。さらに、オーケストレーションツール43によってコンテナ47の実行環境が管理されている状況においては、初期設定時やシステム更新時などにおいて、マイクロサービスを任意にサーバ21からダウンロードする(デプロイする)ことによって、議事録生成装置11に所定のマイクロサービスを配置することができる。そのため、簡易なハードウェア構成で、議事録生成装置11を容易に構成することができる。
 ここで、サーバ21において文字データ生成及び話者識別を行う音声解析エンジンについて説明する。このエンジンを用いた音声解析によって、文字データ生成及び話者識別の両者または一方の処理を行うことができるため、議事録生成装置11は、サーバ21に対して、音声データの送信とあわせて所望の処理を指示してもよい。
 話者識別処理においては、議事録生成装置11から受け付けた音声データを解析し、その周波数、声調、音色などの特徴に基づいて処理識別子(識別ID)を付与し、議事録生成装置11に対して識別IDを送信する。
 文字データ作成処理においては、議事録生成装置11から受け付けた音声データに示される文字データを作成する。例えば、会議の参加者が限られており、音声データに含まれる話者が限定される場合には、特定の識別IDに限定して処理を行うことで、音声解析処理の高速化を図ることができる。
 サーバ21から議事録生成装置11への出力には、時間情報とともに、生成された文字データ及び/または話者の識別IDが含まれる。詳細については、後に図12等を用いて説明する。
 以下、図6~図13を用いて、議事録生成装置11内の外部機器検出サービス51~感情解析サービス59の処理について説明する。
 図6は、議事録生成装置11の初期設定時のネットワーク設定制御を示すフローチャートである。
 ステップS601において、設定サービス54は、初回起動時における設定の一つとして、ネットワーク設定(無線LAN設定)を開始する。この初期設定処理により、議事録生成装置11はLAN12と接続されて、WAN20を介してサーバ21と通信することができる。なお、設定サービス54は、入力機器15からの入力に応じてネットワーク設定を開始してもよい。
 ステップS602において、設定サービス54は映像出力サービス53に対して設定画面データを送信する。ステップS603において、映像出力サービス53は、入力された設定画面データに応じてディスプレイ14に設定画面を表示する。設定画面にはユーザに対して無線を介したLAN12との接続に必要なパスワード等の情報の入力を促す旨が示される。
 ステップS604において、入力部35はユーザによる入力機器15の操作情報を受け付けると、受け付けた操作情報に示される入力情報(例えば、パスワード)を設定サービス54へ出力する。このようにすることで、ユーザにより入力された無線LANへの接続に必要な情報が設定サービス54へと入力される。
 ステップS605において、設定サービス54は、入力された設定情報を用いて通信部34を介したLAN12への接続設定を完了させる。そして、ステップS606において、設定サービス54は映像出力サービス53に対して設定完了画面データを送信する。ステップS607において、映像出力サービス53は、入力された設定終了画面データに応じた、設定完了の画面をディスプレイ14に表示する。これにより、議事録生成装置11のネットワーク設定制御が完了される。
 次に、図7は、マイク13の接続制御を示すフローチャートである。
 ステップS701において、議事録生成装置11は、自律的にBluetooth等を介して周辺にあるマイク13を検出すると、マイク13と入出力ポート33との間の接続を確立する。議事録生成装置11に対して有線でマイク13が入出力ポート33に接続されてもよい。そして、ステップS702において、入出力ポート33はマイク13の接続を検出すると、接続通知を外部機器検出サービス51へと送信する。この接続通知には、マイク13の種類に加えてサンプルレート等の動作仕様に関する情報が含まれる。
 ステップS703において、外部機器検出サービス51は、接続通知を参照して外部機器(マイク13)の情報を取得する。ステップS704において、外部機器検出サービス51は、接続通知を参照して外部機器の接続状態が正しいか否かを判定する。例えば、外部機器検出サービス51は、接続通知において設定不能なサンプルレートが示されている場合などには、接続状態が正しくないと判定する。
 外部機器(マイク13)の接続状態が正しいと判定される場合には(S704:Yes)、接続機器の種類を判定するため、次にステップS705の処理が行われる。外部機器の接続状態が正しいと判定されない場合には(S704:No)、エラー通知をするために次にステップS712の処理が行われる。ステップS712において、外部機器検出サービス51は、マイク13の接続状態が正しくないためエラー通知を行い、ユーザに対して再接続を求めることができる。
 ステップS705において、外部機器検出サービス51は、外部機器が音声入力を受け付け可能なマイク13であるか否かを判定する。外部機器がマイク13であると判定されると(S705:Yes)、ステップS706において、外部機器検出サービス51は、音声入力サービス52に対して接続された外部機器の登録要求を送信する。登録要求には、ステップS702において取得したマイク13の情報が含まれる。なお、外部機器がマイク13でないと判定されると(S705:No)、接続制御が終了される。
 ステップS707において、音声入力サービス52は、受信した登録要求に含まれるマイク13の接続情報を用いて、マイク13の機器名称を取得する。音声入力サービス52は、予め、機器名称とマイク13の性能とを対応付けたテーブルを有しており、テーブルを参照して接続されたマイク13に応じた処理を行うことができる。
 ステップS708において、音声入力サービス52は、予め記憶しているドライバの一覧から、取得したマイク13の機器に対応するドライバを検出し、そのドライバを用いてマイク13が動作するように設定する。
 ステップS709において、音声入力サービス52は、マイク13のサンプルレートを取得する。これにより、音声入力サービス52は、所定のサンプルレートに応じた設定を行い、マイク13から音声データが取得可能となる。
 ステップS710において、音声入力サービス52は、接続完了処理を終える。そして。ステップS711において、入出力ポート33に対して接続完了を通知する。これにより、マイク13の議事録生成装置11への接続処理が終了する。
 このようなマイク13の接続制御によって、議事録生成装置11は接続されたマイク13からの音声データの入力を受け付けることができる。
 次に、図8は、ディスプレイ14の接続制御を示すフローチャートである。なお、この制御のうちのステップS802~S805の処理は、図7に示されたマイク13の接続制御におけるステップS702~S705の処理と同じであるため、説明を簡略化する。また、ステップS806~S812の処理は、図7に示されたマイク13の接続制御におけるステップS705~S711の処理と同等である。
 ステップS801において、議事録生成装置11は、自律的にBluetooth等を介して周辺にあるディスプレイ14を検出すると、ディスプレイ14と入出力ポート33との間の接続を確立する。議事録生成装置11に対して有線でディスプレイ14が入出力ポート33に接続されてもよい。そして、ステップS802において、入出力ポート33はディスプレイ14の接続を検出すると、接続通知を外部機器検出サービス51へと送信する。この接続通知には、ディスプレイ14の種類に加えて表示の際のリフレッシュ周期を示す駆動レート等の動作仕様に関する情報が含まれる。
 ステップS803において、外部機器検出サービス51は、接続通知を参照して外部機器(ディスプレイ14)の情報を取得する。ステップS804において、外部機器検出サービス51は、接続通知を参照して外部機器の接続状態が正しいか否かを判定する。例えば、外部機器検出サービス51は、接続通知において設定不能な駆動レートが示されている場合などには、接続状態が正しくないと判定する。
 外部機器の接続状態が正しいと判定される場合には(S804:Yes)、接続機器の種類を判定するため、次にステップS805の処理が行われる。外部機器(ディスプレイ14)の接続状態が正しくないと判定されない場合には(S804:No)、エラー通知をするために次にステップS813の処理が行われる。ステップS813において、外部機器検出サービス51は、ディスプレイ14の接続状態が正しくないためエラー通知を行う。
 ステップS805において、外部機器検出サービス51は外部機器がマイク13であるか否かを判定し、ステップS806において外部機器検出サービス51は外部機器がディスプレイ14であるか否かを判定する。外部機器はマイク13ではなく(S805:No)、ディスプレイ14である(S806:Yes)ことが判定さると、ステップS807において、外部機器検出サービス51は、映像出力サービス53に対して登録要求を送信する。登録要求には、ステップS802において取得したディスプレイ14の情報が含まれる。なお、外部機器がディスプレイ14でないと判定されると(S806:No)、接続制御が終了される。
 ステップS808において、映像出力サービス53は、受信した登録要求に含まれるディスプレイ14の接続情報を用いて、ディスプレイ14の機器名称を取得する。映像出力サービス53は、予め、機器名称とディスプレイ14との性能とを対応付けたテーブルを有しており、テーブルを参照して接続されたディスプレイ14に応じた処理を行うことができる。
 ステップS809において、映像出力サービス53は、取得したディスプレイ14の機器に対応するドライバを検出し、そのドライバを用いてディスプレイ14を動作可能なように設定する。
 ステップS810において、映像出力サービス53は、ディスプレイ14の駆動レートを取得する。これにより、映像出力サービス53は、所定の駆動レートに応じた設定を行い、マイク13から音声データが取得可能となる。
 ステップS811において、映像出力サービス53は、接続完了を終える。そして。ステップS812において、入出力ポート33に対して接続完了を通知する。これにより、ディスプレイ14は議事録生成装置11への接続完了を検出する。
 このようにして、議事録生成装置11は接続されたディスプレイ14に対して映像を出力することができる。
 なお、本実施形態においては、議事録生成装置11に対して1つのマイク13及び1つのディスプレイ14が接続される例を用いたが、これに限らない。複数のマイク13が接続されてもよいし、複数のディスプレイ14が接続されてもよい。外部機器検出サービス51は、複数のデバイスの接続を管理して、それらのデバイスに対して最適な設定を行うことができる。
 図9は、話者設定制御を示すフローチャートである。話者設定制御において予め複数の話者の音声データを話者情報として設定しておくことで、最終的に生成される議事録において発言内容と対応する発言者を示すことができる。
 ステップS901において、話者識別サービス56は、第1話者の設定を開始する。ステップS902において、話者識別サービス56は、映像出力サービス53に対して、第1話者の設定画面を表示させることで、ユーザに対して第1話者の発声と議事録における表示氏名の入力を促す。そして、ステップS903において、話者識別サービス56は、入力部35から第1話者の名称の入力を受け付ける。なお、話者識別サービス56は、入力部35から第1話者の所属部署を受け付けて、所属部署と名称とを対応付けて記憶してもよい。そして、ステップS904において、音声入力サービス52から第1話者の音声の入力を受け付ける。ステップS905において、話者識別サービス56は、サーバ21に対して、第1話者の音声データを送信するとともに、話者識別処理を行うように指示する。
 ステップS906において、サーバ21は、第1話者の音声データの入力を受け付けると、音声データを解析して第1話者設定を開始する。なお、この解析処理において、話者識別サービス56からの指示に応じて、文字データ作成処理は行わず話者識別処理のみを行う。サーバ21は、第1話者の音声データを解析し、その周波数、声調、音色などの特徴を抽出して、第1話者に特化した処理に用いる識別IDを付与する。そして、ステップS907において、サーバ21は、付与した識別IDを話者識別サービス56へ送信する。
 ステップS908において、話者識別サービス56は、ステップS903において入力部35から受け付けた第1話者の名称と、ステップS906において受信した識別IDとを対応付けて話者テーブルを有しており、ユーザの入力及びサーバ21から受信する識別IDを対応付けて話者テーブルを更新する。
 そして、ステップS909において、話者識別サービス56は、映像出力サービス53に対して、第1話者の登録の終了画面を表示させる。同時に、ステップS910において、話者識別サービス56は、映像出力サービス53に対して、話者登録の継続の要否、すなわち、次の話者登録を行うか否かを表示し、ユーザに対して継続/終了の入力を促す。そして、ステップS911において、話者識別サービス56は、入力部35からの話者登録の継続/終了の入力を受け付ける。以降、話者識別サービス56は、話者登録を継続する入力を受け付けた場合は第2話者の登録を行うためにステップS901~S909の処理を繰り返し行い、話者登録を終了する入力を受け付けた場合は、話者登録を終了する。
 図10は、話者識別サービス56で記憶しているテーブルの一例である。この例によれば、ユーザにより入力される話者名及びその所属と、サーバ21の話者識別処理によって付与される識別IDとが対応付けて記憶されている。このようなテーブルを議事録生成装置11側に備えることによって、サーバ21に個人情報が記憶されないためセキュリティの向上を図ることができる。
 図11は、議事録データの生成制御を示すフローチャートである。なお、本フローチャートにおいて議事録データの生成制御に用いられるサービス、すなわち、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57は互いに連携しで動作するものとし、まとめて議事録データ生成部と称するものとする。
 ステップS1101において、話者識別サービス56は、会議の参加者の確認を行う。このような確認は、入力機器15を用いて会議に参加中の話者がディスプレイ14に表示されているユーザ名を選択することによって行われるものとする。そして、ステップS1102において、話者識別サービス56は、話者テーブルを参照してステップS1101において確認された会議参加中のメンバーの識別IDをサーバ21へと送信すると、ステップS1103において、サーバ21の音声解析エンジンは、受信した識別IDを会議参加者として登録する。同時に、ステップS1104において、話者識別サービス56は、会議の参加者に関連する話者テーブルを統合サービス57へと送信する。
 ステップS1105において、音声入力サービス52が音声データを取得すると、ステップS1106において、取得された音声データが文字データ生成サービス55へと送信される。ステップS1107において、話者識別サービス56は、受信した音声データを所定の時間毎(例えば、10秒毎)に分割して分割音声データを生成し、ステップS1108において、文字データ生成サービス55は、分割音声データをサーバ21の音声解析エンジンへと送信する。同時に、文字データ生成サービス55は、音声解析エンジンに対して文字データ生成、及び、話者識別の両者を行うようにサーバ21に指示する。
 なお、ステップS1107の分割処理の前段において、取得した音声データに対して雑音の除去やサンプリングレートの調整等の補正を行ってもよい。このようにすることで、音声解析の精度を向上させることができる。また、ステップS1107の分割処理において、分割音声データにおいて最初と最後の部分に前後の分割音声データと重複するマージンが設けられてもよい。このようなマージンが設けられることにより、音声データが分割されるタイミングの前後の音声は、隣接する分割音声データの両者に記録されることとなるため、分割に起因する文字データの生成精度の低下を抑制できる。分割音声データは、時刻情報と対応付けられているので、後述の統合処理においてマージン箇所の削除を行うことができる。
 ステップS1109において、サーバ21は、受信した分割音声データに対して音声解析を行う。ここで、サーバ21は、ステップS1102において参加者の識別IDを受信しており、図9のステップS906において識別IDが付与される際に抽出された周波数、声調、音色などの特徴を優先的に用いて音声解析が行われる。そして、ステップS1110において、サーバ21は、受信した分割音声データの音声解析結果を統合サービス57に送信する。
 図12には、サーバ21の音声解析エンジンによって生成される音声解析テーブルの一例が示されている。音声解析テーブルにおいては、時間帯、及び、文字データが組み合わされて時間帯毎に示されている。詳細には、09時10分00秒~03秒の3F2Dの識別IDの話者による〇〇〇〇〇〇〇〇〇の発言、09時10分03秒~07秒の2A80の識別IDの話者による△△△△△△の発言、及び、09時10分07秒~10秒の3F2Dの識別IDの話者による××××××××××××の発言が示されている。
 再び、図11を参照すれば、ステップS1111において、統合サービス57は、サーバ21から受信した複数の音声解析テーブルを統合する。なお、前後に隣接する分割音声データに時間的重なりがあるため、音声解析結果にも時間的重なりが存在する。そこで、統合サービス57は複数の音声解析テーブルを統合する際に、隣接する音声解析テーブルとの重複時間部分を削除して、1つの音声解析結果を生成する。
 ステップS1112において、統合サービス57は、ステップS1104において受信した話者テーブルを用いて、生成した音声解析結果における識別IDを登録されている話者名称に変換する。このようにして、ステップS1113において、最終的に、統合サービス57は議事録データを生成する。
 なお、図11の例においては、識別IDをステップS1102において予め送信したが、これに限らない。ステップS1108において、都度、分割音声データとともに参加者の識別IDを送信してもよい。
 図13は、生成された議事録データに対する追加処理を示すフローチャートである。
 ステップS1301において、統合サービス57は議事録データを生成する。なお、この処理は、図11のステップS1113の処理に相当する。そして、ステップS1302において、生成した議事録データを自然言語処理サービス58へと送信する。
 ステップS1303において、自然言語処理サービス58は、入力された議事録データに対して自然言語処理を行うことで最終議事録データを生成する。なお、ステップS1303の処理の詳細であるステップS13031~S13036の処理は以下の通りである。
 ステップS13031において、自然言語処理サービス58は、統合サービス57から入力された議事録データを話者毎に分割して分割議事録データを生成する。なお、議事録データは、話者毎に加えて、さらに、文節毎に分割されてもよい。
 ステップS13032において、自然言語処理サービス58は、ステップS13031において生成した分割議事録データをサーバ21に送信する。ステップS13033において、サーバ21は自然言語処理エンジンによって分割議事録データに対して自然言語処理を行う。サーバ21においては、話者の使用言語(例えば日本語)を判定した上で、その言語に応じた自然言語となるような補正や、事前に設定された禁止ワードの削除等が行われる。そして、ステップS13034において、自然言語処理サービス58は、自然言語処理済の分割議事録データを自然言語処理サービス58へと送信する。
 ステップS13035において、自然言語処理サービス58は、サーバ21から受信した自然言語処理済の分割議事録データを統合する。そして、ステップS13036において、自然言語処理サービス58は、自然言語処理による修正がなされた議事録データを生成する。
 そして、ステップS1304において、自然言語処理サービス58は、生成した最終議事録データを感情解析サービス59及び映像出力サービス53へと出力する。映像出力サービス53は、最終議事録データに示される情報を、後述の図16又は図17に示されるような形式のユーザインターフェースを用いてディスプレイ14に表示する。
 ステップS1305において、感情解析サービス59は、入力された最終議事録データに対して感情解析を行い、感情解析結果を生成する。ステップS1305の処理の詳細であるステップS13051~S13057の処理以下の通りである。なお、感情解析処理を、特定の応用場面、例えば、議事録生成装置11がデパート等の小売りの現場に用いられる場合において、選択的に行ってもよい。
 ステップS13051において、感情解析サービス59は、統合サービス57から入力された議事録データを話者毎に分割して分割議事録データを生成する。なお、議事録データは、話者毎に加えて、さらに、文節毎に分割されてもよい。そして、ステップS13052において、分割した最終議事録データを他言語に翻訳する。
 感情解析は、言語の種類に応じてその精度が異なる場合がある。例えば、日本語よりも英語の方が感情解析の精度が高い場合には、感情解析サービス59は、最終議事録データを英語に翻訳した後にサーバ21へ送信する。なお、翻訳をサーバ21に行わせてもよい。
 ステップS13053において、感情解析サービス59は、ステップS13052において生成された翻訳データをサーバ21に送信する。ステップS13054において、サーバ21は翻訳データに対して感情解析処理を行い、感情解析データを生成すると、ステップS13055において、感情解析データを感情解析サービス59へと送信する。
 ステップS13056において、感情解析サービス59は、サーバ21から受信した感情解析結果を再翻訳する。これは、ステップS13053においてサーバ21に送信された言語によって、感情解析結果が生成されるため、再度日本語への翻訳が必要となるためである。そして、ステップS13057において、感情解析サービス59は、感情解析結果を生成することで話者毎の感情解析結果を示すことができる。
 例えば、議事録生成装置11が店舗等に配置される場合に、感情解析結果を積極的に用いることができる。すなわち、店員と顧客との間の会話に対して文字起しした議事録データを生成し、その議事録データに対して感情解析を行うことにより、顧客の反応が肯定的であるか等を把握でき、顧客サービスの向上を図ることができる。
 ステップS1306において、感情解析サービス59は、生成した感情解析結果を映像出力サービス53へと送信し、ディスプレイ14に感情解析結果を出力してもよい。なお、感情解析サービス59は、自然言語処理サービス58から出力される最終議事録データに替えて、統合サービス57により生成される議事録データに対して感情解析を行ってもよい。このようにすることで、感情解析結果の生成までの要する時間を、自然言語の処理時間だけ短縮化することができる。
 このようにして、映像出力サービス53は、最終議事録データと感情解析結果とを受け付けると、それらのデータが示す情報をディスプレイ14に表示する。なお、最終議事録データと感解析情結果とは、議事録生成装置11内のストレージやネットワーク上にあるサーバ21に保存されてもよい。
 (変形例)
  上記実施形態においては、図11に示される音声解析において、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57により構成される議事録生成部が密接に協働して動作し、1つのサーバ21に対して文字データ生成と話者識別との両者を含む音声解析を行わせる例を説明したが、これに限らない。
 本変形例においては、文字データ生成サービス55、及び、話者識別サービス56が、それぞれ文字データ作成と話者識別とを行うとともに、文字データ生成と話者識別とが別々の第1サーバ21A、及び、第2サーバ21Bにおいて行われる例について説明する。なお、以下では、第1サーバ21Aには文字データ生成エンジンが、第2サーバ21Bに話者識別エンジンが設けられているものとする。
 図14は、変形例における議事録データの生成制御を示すフローチャートである。
 ステップS1401において、話者識別サービス56は、会議の参加者の確認を行う。そして、ステップS1402において、話者識別サービス56は、話者テーブルを参照してステップS1401において確認された会議の参加中のメンバーの識別IDを第1サーバ21A、及び、第2サーバ21Bへと送信する。ステップS1403において、第1サーバ21Aの文字データ生成エンジンは、受信した識別IDを会議参加者として登録し、ステップS1404において、第2サーバ21Bの話者識別エンジンは、受信した識別IDを会議参加者として登録する。
 ステップS1405において、音声入力サービス52が音声データを取得すると、ステップS1406において、取得された音声データが文字データ生成サービス55及び話者識別サービス56へと送信される。そして、ステップS1407において文字データ生成制御が行われ、ステップS1408において話者識別制御が行われる。
 ステップS1407の文字データ生成制御の詳細は以下のとおりである。
 ステップS14071において、文字データ生成サービス55は、受信した音声データを所定の時間毎に分割して分割音声データを生成し、ステップS14072において、文字データ生成サービス55は、分割音声データを第1サーバ21Aの文字データ生成エンジンへと送信する。なお、分割音声データには隣接する分割音声データと時間的重なりが存在するようにマージンが設けられていてもよい。
 ステップS14073において、第1サーバ21Aの文字データ生成エンジンは受信した分割音声データを解析して文字データを生成すると、ステップS14074において、第1サーバ21Aは生成した文字データテーブルを文字データ生成サービス55へと送信する。
 図15Aには、サーバ21の文字データ生成エンジンによって生成される文字データテーブルの一例が示されている。文字データテーブルにおいては、文字データが時間帯毎に示されている。詳細には、09時10分00秒~03秒の〇〇〇〇〇〇〇〇〇の発言、09時10分03秒~07秒の△△△△△△の発言、及び、09時10分07秒~10秒の××××××××××××の発言を示す文字データが示されている。
 再び図14を参照すれば、ステップS14075において、文字データ生成サービス55は、受信した複数の文字データテーブルを時間的に結合することで文字データ結合テーブルを作成する。なお、この結合処理において、時間的に前後に隣接するテーブルにおける重複時間部分が削除される。そして、ステップS14076において、文字データ生成サービス55は、生成した文字データ結合テーブルを統合サービス57へと送信する。このようにして、文字データ生成制御による文字データの生成が行われる。
 ステップS1408の話者識別制御の詳細は以下のとおりである。
 ステップS14081において、話者識別サービス56は、受信した音声データを所定の時間毎に分割して分割音声データを生成し、ステップS14082において、話者識別サービス56は、分割音声データを第2サーバ21Bの話者識別エンジンへと送信する。なお、分割音声データには隣接する分割音声データと時間的重なりが存在するようにマージンが設けられていてもよい。
 ステップS14083において、第2サーバ21Bの話者識別エンジンは受信した分割音声データを解析して話者IDテーブルを生成すると、ステップS14084において、第1サーバ21Aは生成した話者IDテーブルを話者識別サービス56へと送信する。
 図15Bには、第2サーバ21Bの話者識別エンジンによって生成される識別IDテーブルの一例が示されている。識別IDテーブルにおいては、話者の識別IDが時間帯毎に示されている。詳細には、09時10分00秒~03秒の3F2Dの識別IDの話者による発言、09時10分03秒~07秒の2A80の識別IDの話者による発言、及び、09時10分07秒~10秒の3F2Dの識別IDの話者による発言があったことが示されている。
 再び図14を参照すれば、ステップS14085において、文字データ生成サービス55は、受信した複数の識別IDテーブルを結合することで識別ID結合テーブルを作成する。なお、この結合処理において、隣接するテーブルにおける重複時間部分が削除される。そして、ステップS14086において、話者テーブルを用いて、生成した識別ID結合テーブルにおける識別IDを登録されている話者名称に変換する。ステップS14087において、文字データ生成サービス55は、識別ID結合テーブルを統合サービス57へと送信する。このようにして、話者識別制御による話者データの生成が行われる。
 ステップS1407の文字データ生成制御及びステップS1408の話者識別制御を終えると、ステップS1409において、統合サービス57は文字データ結合テーブルと、話者データ結合テーブルとを時刻情報を用いて対応付けて統合する。ステップS1410において、統合サービス57は、識別IDを話者名称に変換した後に、最終的に、議事録データを生成する。
 なお、ステップS1407の文字データ生成制御により生成される文字データテーブルは、図15Cに示されるように、話者に応じず、文字データのみが時刻情報とともに記載されていてもよい。このような文字データテーブルであっても、識別IDテーブルにおいて識別IDが時刻情報とともに記載されている場合には、統合サービス57によって時刻情報を用い文字データテーブルと識別IDテーブルとを統合することで、識別ID(話者)毎の発言内容を示す議事録データを生成することができる。
 図16及び図17は、映像出力サービス53がディスプレイ14に出力する議事録データの表示形式の一例を示す図である。
 図16に示されるように、自然言語処理を経た最終議事録データに基づいて、話者と発言内容とが対応して表示される。なお、予め登録された話者についてはその名前を表示することができる。例えば、図示されるように、田中太郎と佐藤花子の2名が話者登録されている場合には、その2名の発言内容は登録された名称とともに表示される。一方、登録されていない話者Cの発言内容については、話者名が特定されることなく表示される。後に、Cが話者登録されると、最終議事録データの表示形式においてCの名称が記載される。
 また、別の例として、図17に示されるように、左右に2名の話者(田中太郎、佐藤花子)が示され、いずれか一方から吹き出しの枠内に発言内容が示されるようにしてもよい。これらの議事録データを表示するユーザインターフェースは、映像出力サービス53によって生成される。
 なお、複数のマイク13が議事録生成装置11に接続される場合には、マイク13毎に音声入力サービス52が設けられ、それぞれの音声入力サービス52から時刻データと共に音声データが議事録データ生成部へと入力される。議事録データ生成部は、時刻情報を用いて入力される音声データを統合し、結合した音声データをサーバ21へと送信する。
 また、話者テーブルの更新は任意のタイミングで行うことができ、例えば、最終議事録データが生成された後において、名称が未登録の話者が存在する場合には、新たに話者登録を行い話者テーブルの更新を行うことで、議事録データ内において話者名称へと変換することができる。
 上記実施形態においては、サーバ21はLAN12及びWAN20を介して議事録生成装置11と接続される例について説明したが、これに限らない。図18に示されるように、サーバ21は、ローカル環境10に設けられ、LAN12を介して議事録生成装置11と接続されてもよい。このような構成となることにより、WAN20との接続がない環境であっても、議事録生成装置11を動作させることができる。
 また、議事録生成装置11は、サーバ21において行われる処理の一部または全部を装置内で行ってもよい。例えば、話者識別サービス56は、サーバ21において行われる話者識別処理の一部または全部を担ってもよい。このような構成となることで、議事録生成装置11とサーバ21との間の通信負荷を軽減でき、処理の高速化を図ることができる。
 本実施形態によれば、以下の効果を得ることができる。
 本実施形態の議事録生成装置11は、ネットワークと接続して通信を行う通信手段であるLAN12と、外部音声入力手段であるマイク13と接続されて音声データを取得する音声入力サービス52と、音声情報に基づき議事録データを生成する議事録データ生成部(文字データ生成サービス55、話者識別サービス56、及び、統合サービス57)と、外部出力手段であるディスプレイ14と接続されてディスプレイ14へと議事録データを出力する映像出力サービス53と、を備える。
 議事録データ生成部のうち、文字データ生成サービス55は、ネットワークを介して提供される文字データ生成処理を利用して、音声情報をテキスト化して対応する文字データを生成し、話者識別サービス56は、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する。そして、統合サービス57は、文字データ及び話者情報に基づいて議事録データを生成する。
 このように、議事録生成装置11は、外部音声入力手段であるマイク13と接続可能な音声入力サービス52、及び、外部出力手段であるディスプレイ14と接続可能な映像出力サービス53を備えるため、議事録生成装置11自身において入出力装置を備えない簡易な構成となる。
 さらに、議事録生成装置11が備える議事録データ生成部においては、文字データ生成サービス55、及び、話者識別サービス56が、ネットワーク上のサーバ21によって提供される機能を用いて、文字データ及び話者情報が生成される。そして、統合サービス57において、文字データ及び話者情報を統合することで議事録情報が生成される。このように、議事録生成装置11における処理負荷が低減されている。
 したがって、簡易な構成の議事録生成装置11を用いることによって、議事録を手間なく容易に生成することができるだけでなく、話者認識等の高度な処理を伴う議事録データの生成が可能となる。
 本実施形態の議事録生成装置11によれば、音声入力サービス52とマイク13との接続は自律的に確立され、映像出力サービス53はディスプレイ14との接続は自律的に確立される。このように、外部機器との接続が自動的に行われることにより、ユーザによる接続処理を省略できるため、議事録生成装置11の利便性の向上を図ることができる。
 本実施形態の議事録生成装置11によれば、話者識別サービス56は、話者認識処理において用いられる話者毎の識別IDを記憶する話者テーブルを有し、議事録生成装置11の近傍に存在しマイク13により音声が入力されうる話者と対応する識別IDをサーバ21へと送信する。このようにすることで、サーバ21における音声解析処理(文字データ生成/話者識別)において、特定の話者に応じた処理に限定することができるので、サーバ21における音声解析処理の精度及び速度向上を図ることができる。
 本実施形態の議事録生成装置11によれば、話者識別サービス56は、話者認識処理において用いられる話者毎の識別IDを記憶する話者テーブルを有し、議事録生成装置11の近傍に存在しマイク13により音声が入力されうる話者と対応する識別IDをサーバ21へと送信する。このようにすることで、サーバ21における音声解析処理(文字データ生成/話者識別)において、特定の話者に応じた処理に限定することができるので、サーバ21における音声解析処理の精度及び速度向上を図ることができる。
 本実施形態の議事録生成装置11によれば、サーバ21においては識別IDを用いた処理が行われ、議事録生成装置11の統合サービス57において、識別IDから話者名称への変換を行って議事録データを生成する。このようにすることで、話者名称がサーバ21へと送信されないので、プライバシー及びセキュリティ機能の向上を図ることができる。
 本実施形態の議事録生成装置11によれば、話者識別サービス56は、予め、話者認識処理において用いられる話者毎の音声情報を記憶する初期設定処理を行う。このように、初期設定において、話者毎の音声情報を記録することによって、話者識別処理における識別率の向上が図られるとともに、最終的に生成される議事録データにおいて話者が記録することができるので利便性の向上を図ることができる。
 本実施形態の議事録生成装置11によれば、音声入力サービス52は、取得した音声データに対して雑音の除去やサンプリングレートの調整等の補正を行い、補正後の音声データが文字データ生成サービス55及び話者識別サービス56において処理される。このように、サーバ21において行われる処理の前段において音声データに対して補正を行うことにより、処理結果の精度の向上を図ることができる。
 また、議事録生成装置11で取得した音声データに補正を行うことによって、より議事録生成装置11の設けられている環境に応じた適切な補正ができる。さらに、補正をサーバ21側で行う必要がないので、サーバ21においては汎用的な制御処理を利用することができるため、サーバ21における処理に関する運用コストの低減を図ることができる。
 本実施形態の議事録生成装置11によれば、さらに、自然言語処理サービス58を備え、自然言語処理サービス58は、統合サービス57によって生成された議事録データに対して自然言語処理を行う。自然言語処理においては、文字認識処理において発生しうる誤りを訂正することが可能であるため、議事録データの精度の向上を図ることができる。
 本実施形態の議事録生成装置11によれば、さらに、感情解析サービス59を備え、感情解析サービス59は、統合サービス57によって生成された議事録データに対して、サーバ21において実行される感情解析を行う。このように議事録生成装置11が感情解析を行うことにより、例えば、議事録生成装置11がデパート等の小売りの現場に用いられる場合には、顧客と店員との会話に基づいた感情解析を行うことができるため、商品の販売戦略に用いることができる。
 本実施形態の議事録生成装置11によれば、音声入力サービス52は、入出力ポート33に接続されるマイク13のサンプリングレート等の動作仕様を取得し、予め記憶された当該動作仕様に応じたマイク13の設定を用いて、音声データを取得する。このように、マイク13をその動作仕様に応じて動作させることにより、マイク13により取得される音声データの正確性を向上させることができるので、最終的な議事録データの精度の向上を図ることができる。
 本実施形態の議事録生成装置11によれば、映像出力サービス53は、入出力ポート33に接続されるディスプレイ14の表示レート等の動作仕様を取得し、予め記憶された当該動作仕様に応じたディスプレイ14の設定を用いて、映像を出力する。このように、ディスプレイ14をその動作仕様に応じて動作させることにより、ディスプレイ14による映像出力の精度を向上させることができる。
 本実施形態の議事録生成装置11によれば、外部機器検出サービス51は、入出力ポート33に接続されるマイク13又はディスプレイ14の接続が正しいか否かを判定することができる。このような判定処理を含むことにより、接続が正しくない場合には、ユーザに対して再接続を求める等を行うことができる。
 本実施形態の議事録生成装置11によれば、音声入力サービス52は、1又は複数のマイク13と接続可能に構成される。例えば、音声入力サービス52が複数のマイク13と接続される場合には、複数のマイク13により取得された音声データを時刻情報に基づいて統合することで、以降の音声解析を行うことができる。このように、複数のマイク13を用いることにより、入力される音声データの品質向上を図ることができる。
 本実施形態の議事録生成装置11によれば、コンテナエンジン42が導入されたコンテナ環境においてマイクロサービスがコンテナ化されとともに、コンテナ環境のハードウェアリソースがオーケストレーションツール43により管理されている。このように、それぞれの処理部がコンテナ化されることによって、議事録生成装置11の処理速度が高速化させることができるので、それぞれの処理がサーバ21により提供される機能を用いても、遅延なく議事録を生成することができる。
 本実施形態の議事録生成装置11によれば、コンテナ化されたマイクロサービスは、議事録生成装置11の初期設定時、又は、システム更新時において、ネットワークから取得されて議事録生成装置11内にデプロイされる。このような構成となることで、議事録生成装置11の初期設定やシステム更新を容易に行うことができる。
 以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。
 本願は、2020年7月20日に日本国特許庁に出願された特許出願2020-124029に基づく優先権を主張し、この出願の全ての内容は参照により本明細書に組み込まれる。

Claims (16)

  1.  所定のネットワークと接続して通信を行う、通信手段と、
     外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
     前記音声情報に基づき議事録データを生成する、議事録データ生成部と、
     外部出力手段と接続され、前記外部出力手段へと前記議事録データを出力する、第2の接続手段と、を備え、
     前記議事録データ生成部は、
      前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、
      前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、
      前記文字データと前記話者情報に基づいて前記議事録データを生成する、統合処理部と、を備える、議事録生成装置。
  2.  請求項1に記載の議事録生成装置であって、
     前記第1の接続手段と前記外部音声入力手段との接続は自律的に行われ、及び/または、
     前記第2の接続手段と前記外部出力手段との接続は自律的に行われる、議事録生成装置。
  3.  請求項1または2に記載の議事録生成装置であって、
     前記話者認識部は、
      前記話者認識処理において用いられる話者毎の識別子を記憶し、
      前記外部音声入力手段により音声が入力されうる話者と対応する識別子を前記ネットワークに対して通知する、議事録生成装置。
  4.  請求項3に記載の議事録生成装置であって、
     前記ネットワークを介して提供される話者認識処理において前記識別子と対応付けられた話者情報が生成され、
     前記統合処理部は、前記話者情報において前記識別子を対応する話者名へ変換し、前記変換された話者名を用いて前記議事録データを生成する、議事録生成装置。
  5.  請求項1から4のいずれか1項に記載の議事録生成装置であって、
     前記文字データ生成部は、前記ネットワークを介して提供される前記テキスト化処理の前段に、補正処理を行う、議事録生成装置。
  6.  請求項1から5のいずれか1項に記載の議事録生成装置であって、
     前記議事録データ生成部は、さらに、
     前記統合処理部によって生成された議事録データに対して、前記ネットワークを介して提供される自然言語処理を利用して自然言語処理を行う、自然言語処理部を、備える、議事録生成装置。
  7.  請求項1から6のいずれか1項に記載の議事録生成装置であって、
     前記議事録データ生成部は、さらに、
     前記統合処理部によって生成された議事録データに対して、前記ネットワークを介して提供される感情解析を利用して感情解析処理を行う、感情解析処理部を、備える、議事録生成装置。
  8.  請求項1から7のいずれか1項に記載の議事録生成装置であって、
     前記第1の接続手段は、前記外部音声入力手段と接続される時に前記外部音声入力手段の動作仕様を取得し、当該動作仕様に応じて前記外部音声入力手段から前記音声情報を取得する、議事録生成装置。
  9.  請求項1から8のいずれか1項に記載の議事録生成装置であって、
     前記第2の接続手段は、前記外部出力手段と接続される時に前記外部出力手段の動作仕様を取得し、当該動作仕様に応じて前記外部出力手段へと出力制御を行う、議事録生成装置。
  10.  請求項1から9のいずれか1項に記載の議事録生成装置であって、
     前記第1の接続手段と前記外部音声入力手段との接続、又は、前記第2の接続手段と前記外部出力手段との接続が正しいか否かを判定する判定部を、さらに備える、議事録生成装置。
  11.  請求項1から10のいずれか1項に記載の議事録生成装置であって、
     前記第1の接続手段は、1又は複数の前記外部音声入力手段と接続可能に構成され、
     複数の前記外部音声入力手段から受け付ける音声は、時刻に応じて統合される、議事録生成装置。
  12.  請求項1から11のいずれか1項に記載の議事録生成装置であって、
     前記文字データ生成部、前記話者認識部、及び、前記話者情報の少なくとも1つの処理部はコンテナ化され、当該コンテナ化された処理部を動作させるハードウェアリソースはオーケストレーションツールにより管理される、議事録生成装置。
  13.  請求項12に記載の議事録生成装置であって、
     前記コンテナ化された処理部は、前記議事録生成装置の初期設定時、又は、システム更新時において、ネットワークから取得されて前記議事録生成装置内にデプロイされる、議事録生成装置。
  14.  所定のネットワークと接続して通信を行う、通信手段と、
     外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
     前記音声情報に基づき議事録データを生成する、議事録データ生成部と、
     外部出力手段と接続され、前記外部出力手段へと前記議事録データを出力する、第2の接続手段と、を備える議事録生成装置の制御方法であって、
     前記議事録データ生成部は、
      前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
      前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
      前記文字データと前記話者情報に基づいて前記議事録データを生成する、議事録生成装置の制御方法。
  15.  所定のネットワークと接続して通信を行う、通信手段と、
     外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
     外部出力手段と接続され、前記音声情報に基づいた議事録データを出力する、第2の接続手段と、を備える議事録生成装置の制御に用いられるコンピュータプログラムであって、
     前記コンピュータプログラムは、
      前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
      前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
      前記文字データと前記話者情報に基づいて前記議事録データを生成する、コンピュータプログラム。
  16.  所定のネットワークと接続して通信を行う、通信手段と、
     外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
     外部出力手段と接続され、前記音声情報に基づいた議事録データを出力する、第2の接続手段と、を備える議事録生成装置の制御に用いられるコンピュータプログラムを格納した記録媒体であって、
     前記コンピュータプログラムは、
      前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
      前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
      前記文字データと前記話者情報に基づいて前記議事録データを生成する、コンピュータプログラムを格納した記録媒体。

     
PCT/JP2021/026077 2020-07-20 2021-07-12 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 WO2022019157A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020124029A JP2022020499A (ja) 2020-07-20 2020-07-20 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体
JP2020-124029 2020-07-20

Publications (1)

Publication Number Publication Date
WO2022019157A1 true WO2022019157A1 (ja) 2022-01-27

Family

ID=79728726

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026077 WO2022019157A1 (ja) 2020-07-20 2021-07-12 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体

Country Status (2)

Country Link
JP (1) JP2022020499A (ja)
WO (1) WO2022019157A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015153408A (ja) * 2014-02-19 2015-08-24 株式会社リコー 翻訳システム、翻訳処理装置、及び翻訳処理プログラム
JP2016029468A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
JP2017010262A (ja) * 2015-06-22 2017-01-12 株式会社日立製作所 情報検索装置および検索方法
JP2019121093A (ja) * 2017-12-28 2019-07-22 株式会社リコー 情報生成システム、情報生成方法、情報処理装置、プログラム、端末装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015153408A (ja) * 2014-02-19 2015-08-24 株式会社リコー 翻訳システム、翻訳処理装置、及び翻訳処理プログラム
JP2016029468A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
JP2017010262A (ja) * 2015-06-22 2017-01-12 株式会社日立製作所 情報検索装置および検索方法
JP2019121093A (ja) * 2017-12-28 2019-07-22 株式会社リコー 情報生成システム、情報生成方法、情報処理装置、プログラム、端末装置

Also Published As

Publication number Publication date
JP2022020499A (ja) 2022-02-01

Similar Documents

Publication Publication Date Title
US10917369B2 (en) Information processing apparatus, information processing system, and information processing method
US20230053350A1 (en) Encapsulating and synchronizing state interactions between devices
CN106297781B (zh) 控制方法和控制器
JP2023115067A (ja) アシスタントアプリケーションのための音声ユーザインタフェースショートカット
US11204685B1 (en) Voice communication targeting user interface
CN111095892B (zh) 电子装置及其控制方法
CN111639503B (zh) 会议数据处理方法、装置、存储介质及设备
US20140143666A1 (en) System And Method For Effectively Implementing A Personal Assistant In An Electronic Network
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
CN108900630A (zh) 一种晾衣架的控制方法、装置、存储介质、终端及服务器
CN112236762A (zh) 推荐将自动助理动作包括在自动助理例程中
CN113727179B (zh) 显示设备及显示设备兼容外置设备的方法
CN110019731A (zh) 智能交互方法、装置、终端设备及存储介质
US20230169978A1 (en) Automated Audio-to-Text Transcription in Multi-Device Teleconferences
US11792468B1 (en) Sign language interpreter view within a communication session
WO2022019157A1 (ja) 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
US20230353613A1 (en) Active speaker proxy presentation for sign language interpreters
CN116543074A (zh) 图像处理方法、装置、电子设备及存储介质
WO2019225028A1 (ja) 翻訳装置、システム、方法及びプログラム並びに学習方法
JP2021081747A (ja) 対話制御装置、対話エンジン、管理端末、対話装置、およびプログラム
CN113079400A (zh) 显示设备、服务器及语音交互方法
KR20210029383A (ko) 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법
KR102547308B1 (ko) 키오스크 사용에 대한 헬프서비스를 제공하는 키오스크 시스템
JP7351642B2 (ja) 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21846373

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21846373

Country of ref document: EP

Kind code of ref document: A1