WO2016163028A1 - 発言提示装置、発言提示方法およびプログラム - Google Patents

発言提示装置、発言提示方法およびプログラム Download PDF

Info

Publication number
WO2016163028A1
WO2016163028A1 PCT/JP2015/061269 JP2015061269W WO2016163028A1 WO 2016163028 A1 WO2016163028 A1 WO 2016163028A1 JP 2015061269 W JP2015061269 W JP 2015061269W WO 2016163028 A1 WO2016163028 A1 WO 2016163028A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
utterance
character string
relevance
voice
Prior art date
Application number
PCT/JP2015/061269
Other languages
English (en)
French (fr)
Inventor
長 健太
敏行 加納
Original Assignee
株式会社東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝, 東芝ソリューション株式会社 filed Critical 株式会社東芝
Priority to CN201580077752.0A priority Critical patent/CN107430851B/zh
Priority to JP2017511439A priority patent/JP6618992B2/ja
Priority to PCT/JP2015/061269 priority patent/WO2016163028A1/ja
Publication of WO2016163028A1 publication Critical patent/WO2016163028A1/ja
Priority to US15/693,520 priority patent/US10347250B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • Embodiments of the present invention relate to a speech presentation device, a speech presentation method, and a program.
  • Associating which memos described during the meeting correspond to which utterances during the meeting is effective for improving the efficiency of, for example, creating the minutes of the meeting.
  • the input time of the memo input as text is recorded in accordance with the recording of the audio and video during the meeting, and the corresponding memo portion is displayed during playback of the recorded audio and video.
  • a technique for playing back audio and video corresponding to a memo is effective for improving the efficiency of, for example, creating the minutes of the meeting.
  • the information desired to be associated with the speech during the meeting is not limited to the memo entered as text during the meeting.
  • information that is not input during the conference such as a handwritten memo written on paper during the conference or an agenda created before the conference, may be desired to be associated with the speech during the conference.
  • the problem to be solved by the present invention is to provide a speech presenting device, a speech presenting method, and a program capable of presenting speech corresponding to arbitrary information to a user in an easily understandable manner.
  • the speech presentation device includes a speech recording unit, a voice recognition unit, a relevance calculation unit, and a UI control unit.
  • the utterance recording unit records utterances by voice.
  • the voice recognition unit recognizes the recorded utterance.
  • the relevance calculator calculates, for each utterance that has been voice-recognized, a character string designated among character strings displayed in the second display area of the UI screen having a first display area and a second display area. Relevance of each is calculated.
  • the UI control unit displays the speech recognition result of the utterance selected based on the high degree of relevance in the first display area of the UI screen.
  • FIG. 1 is a block diagram illustrating a configuration example of the message presentation device according to the first embodiment.
  • FIG. 2 is a flowchart illustrating an outline of the operation of the message presentation device according to the embodiment.
  • FIG. 3 is a diagram for explaining a specific example of a scene for recording a speech during a meeting.
  • FIG. 4 is a diagram illustrating a specific example of user data.
  • FIG. 5 is a diagram illustrating a specific example of conference data.
  • FIG. 6 is a diagram illustrating a specific example of a speech during a meeting.
  • FIG. 7 is a diagram illustrating a specific example of message data.
  • FIG. 8 is a diagram illustrating a specific example of the speech recognition data.
  • FIG. 9 is a diagram illustrating an example of a UI screen.
  • FIG. 1 is a block diagram illustrating a configuration example of the message presentation device according to the first embodiment.
  • FIG. 2 is a flowchart illustrating an outline of the operation of the message presentation device
  • FIG. 10 is a diagram showing a UI screen in which the proceeding memo is entered in the “proceeding memo” area.
  • FIG. 11 is a diagram showing a specific example of input text data.
  • FIG. 12 is a block diagram illustrating a configuration example of the message presentation device according to the second embodiment.
  • FIG. 13 is a diagram illustrating an example of a UI screen according to the third embodiment.
  • FIG. 14 is a block diagram illustrating a configuration example of the message presentation device according to the fourth embodiment.
  • FIG. 15 is a diagram showing a specific example of recording environment data.
  • FIG. 16 is a diagram illustrating an example of a conference setting screen.
  • FIG. 17 is a block diagram schematically illustrating an example of a hardware configuration of the message presentation device.
  • an utterance presentation device configured to record voice utterances during a meeting and present utterances during a meeting related to a designated memo portion when creating a meeting memo after the meeting is illustrated.
  • This message presentation device is realized, for example, as a server device of a server / client system using a network, and displays a UI screen (to be described later) on a client terminal and performs a service such as processing based on an operation using the UI screen. provide.
  • the message presentation device may be a virtual machine that operates on a cloud system.
  • the speech presentation device may be configured as an independent device that is directly used by the user.
  • FIG. 1 is a block diagram illustrating a configuration example of the message presentation device 1 according to the present embodiment.
  • the speech presentation device 1 includes a speech recording unit 2, a voice recognition unit 3, a UI control unit 4, a relevance calculation unit 5, and a data storage unit 10.
  • the utterance recording unit 2 records voice utterances that occur during the conference.
  • the utterance is input to an individual microphone such as a pin microphone or a headset mic worn by the utterance user who made the utterance, or a sound collecting microphone.
  • the utterance input to the individual microphone or the sound collecting microphone is transmitted to the utterance presentation device 1 together with, for example, the utterance occurrence date and time and a user ID (identification) for identifying the utterance user.
  • the utterance recording unit 2 records the received voice as a voice file.
  • the speech audio file recorded by the speech recording unit 2 includes a speech ID for identifying a speech, a speech occurrence date and time, a user ID of the speech user, a microphone type (recorded microphone type) used for recording the speech, and a speech.
  • the speech data 13 is stored in the data storage unit 10.
  • the recording microphone type is specified by referring to the user data 11 stored in the data storage unit 10 according to the registration operation by the user before the conference is held, for example.
  • the conference ID is specified by referring to the conference data 12 stored in the data storage unit 10 according to the registration operation by the user before the conference is held, for example.
  • the voice recognition unit 3 performs voice recognition on the utterance recorded by the utterance recording unit 2. Since a known technique can be used as it is for the speech recognition method, a detailed description is omitted here. For example, the speech recognition unit 3 outputs, as a speech recognition result, a candidate having the maximum likelihood among the recognition result candidates for the speech of the input speech, and outputs all words included in each candidate as a recognition keyword. To do.
  • the speech recognition result and the recognition keyword of the speech output by the speech recognition unit 3 are stored in the data storage unit 10 as the speech recognition data 14 together with the speech ID for identifying the speech, the assumed recognition accuracy representing the accuracy of the assumed speech recognition, and the like. Is done.
  • the assumed recognition accuracy is set according to, for example, a speech input method (specifically, a recording microphone type).
  • the UI control unit 4 generates a UI screen that supports creation of the user's agenda memo and provides it to the client terminal.
  • the UI screen has a “speech list” area (first display area) for displaying a speech recognition result of a speech during a meeting, and a “meeting memo” area (second display area) for accepting input of a proceeding memo.
  • the speech recognition result of the speech recorded during the conference is displayed.
  • the “Agenda Memo” area of the UI screen is used by the user to input the agenda of the meeting.
  • the agenda memo entered by the user is displayed as text in the “Agenda Memo” area.
  • the “agenda memo” area may be configured to display other text related to the conference such as an agenda registered before the conference.
  • the agenda memo entered by the user in the “Agenda Memo” area is managed, for example, on a line-by-line basis, together with a memo ID that identifies the memo portion of each line, a conference ID that identifies the input line, a meeting corresponding to the agenda memo, etc.
  • the input text data 15 is stored in the data storage unit 10.
  • the UI control unit 4 is recorded during the corresponding meeting and is recorded by the voice recognition unit 3.
  • the speech recognition result of the speech selected based on the degree of association with the designated character string among the speech that has been speech-recognized is displayed in the “speech list” area of the UI screen.
  • the degree of association with the character string specified in the “Agenda Memo” area is calculated by the degree-of-association calculation unit 5 described later.
  • the UI control unit 4 performs control to reproduce the voice of the utterance. Do.
  • the UI control unit 4 is implemented as, for example, a web server that generates a UI screen on a web basis and provides it to a client terminal.
  • the client terminal uses the UI screen generated by the UI control unit 4 over the network using a web browser. Details of a specific configuration example of the UI screen will be described later.
  • the relevance calculation unit 5 When the user performs an operation of designating an arbitrary character string from the text displayed in the “Agenda Memo” area of the UI screen, the relevance calculation unit 5 is recorded during the corresponding meeting, and the voice recognition unit 3 The degree of relevance with the designated character string is calculated for each utterance in the meeting where the recognition is performed. Based on the high degree of relevance calculated by the relevance degree calculation unit 5, speech recognition is performed in the “remark list” area of the UI screen as a remark corresponding to the character string specified in the “Agenda Memo” area of the UI screen. The utterance for which the result is displayed is selected. Details of a specific example of the relevance calculation method will be described later.
  • FIG. 2 is a flowchart showing an outline of the operation of the speech presentation device 1 according to the present embodiment.
  • FIG. 2A shows the operation of the speech presentation device 1 performed every time a conference is performed, and
  • FIG. The operation of the message presentation device 1 when the UI screen is opened in the terminal is shown.
  • the information of the user (conference participant) who makes a speech with the individual microphone during the conference and the information of the conference to be held are registered by accessing the speech presentation device 1 from the client terminal before starting the conference. To do.
  • the registered conference participant information is stored in the data storage unit 10 as user data 11, and the registered conference information is stored in the data storage unit 10 as conference data 12.
  • the speech by the voice during the conference is input to the individual microphone or the sound collecting microphone and transmitted from the client terminal to the speech presentation device 1.
  • the utterance recording unit 2 of the utterance presentation device 1 records the utterances input to the individual microphone or the sound collecting microphone as an audio file (step S101).
  • the voice file of the utterance recorded by the utterance recording unit 2 is stored in the data storage unit 10 as the utterance data 13.
  • step S102 The recording of the speech and the storage of the speech data 13 by the speech recording unit 2 are continued until the conference ends. That is, it is determined whether or not the conference is ended based on the presence or absence of an explicit operation of the user indicating the end of the conference (step S102). If the conference is not ended (step S102: No), an individual microphone or sound collection is performed. Each time a message during a conference is input to the microphone, the process of step S101 by the message recording unit 2 is repeated.
  • step S102: Yes the speech recognition unit 3 performs speech recognition on each speech in the conference stored in the data storage unit 10 as the speech data 13 (step S103).
  • the speech recognition result and recognition keyword of each utterance obtained by speech recognition by the speech recognition unit 3 are stored in the data storage unit 10 as utterance recognition data 14. Note that the speech recognition for speech during the conference by the speech recognition unit 3 may be performed during the conference.
  • the UI control unit 4 of the message presentation device 1 displays a UI screen on the client terminal. Then, when the user performs an operation for entering the agenda memo in the “Agenda Memo” area of the UI screen (step S201), the text is displayed in the “Agenda Memo” area, and the entered agenda memo is input.
  • the data is stored in the data storage unit 10 as text data 15.
  • the relevance calculation unit 5 performs the following for each comment recorded during the meeting.
  • the degree of association with the designated character string is calculated (step S203).
  • the UI control unit 4 selects an utterance having a high degree of association calculated by the association degree calculation unit 5 as an utterance to be displayed, and displays the speech recognition result of the selected utterance in the “utterance list” area of the UI screen. (Step S204). Users who create proceedings memos visually confirm the speech during the meeting corresponding to the character string specified in the “Remarks Memo” area by referring to the speech recognition results displayed in the “Remarks List” area. can do.
  • the user who creates the agenda memo designates one of the utterances whose voice recognition results are displayed in the “utterance list” area as necessary, and reproduces the voice of the utterance, thereby the “agenda memo” area. It is also possible to confirm through speech the speech during the meeting corresponding to the character string specified in.
  • step S205 it is determined whether or not the creation of the proceeding memo has been completed based on the presence or absence of an explicit operation by the user indicating the end of the creation of the proceeding memo. If the creation of the proceeding memo has not been completed (step S205: No) ), The processing from step S201 to step S204 is repeated. When the agenda memo creation is completed (step S205: Yes), a series of operations by the message presentation device 1 is completed.
  • FIG. 3 is a diagram for explaining a specific example of a scene for recording remarks during a meeting.
  • FIG. 3 illustrates a state in which a conference is being held by three people “Ikeda”, “Yamamoto”, and “Tanaka” in the conference room.
  • a client PC personal computer
  • the message presentation device 1 of the present embodiment via a network is installed.
  • “Ikeda” and “Yamamoto” are each wearing the headset 30, and the speech of “Ikeda” and the speech of “Yamamoto” are respectively input to the individual microphones of the headset 30.
  • a sound collecting microphone 40 is installed on the table of the conference, and the speech of “Tanaka” who is not wearing the headset 30 is input to the sound collecting microphone 40.
  • the sound collecting microphone 40 is generated during the conference, including not only “Tanaka” who is not wearing the headset 30 but also “Ikeda” and “Yamamoto” who are wearing the headset 30. All the voices you have entered are input.
  • the headset 30 worn by “Ikeda” and “Yamamoto” and the sound collecting microphone 40 installed on the table are connected to the client PC 20.
  • the speech during the conference input to the headset 30 and the sound collecting microphone 40 is transmitted from the client PC 20 to the speech presentation device 1 via the network.
  • the client PC 20 is illustrated as an example of the client terminal.
  • the present invention is not limited thereto, and other terminals such as a tablet terminal and a video conference terminal may be used as the client terminal.
  • a terminal such as a client PC 20 connected to the speech presentation device 1 of the present embodiment via a network is arranged at each site where the remote conference is performed, and the headset 30 worn by the conference participant at each site. And the sound collecting microphone 40 may be connected to the terminal at each site.
  • FIG. 4 is a diagram illustrating a specific example of the user data 11 stored in the data storage unit 10.
  • the user data 11 is stored in the data storage unit 10 in a format in which user IDs and names of registered users are associated with each other.
  • the user data 11 includes a “sound collecting microphone” user as a special user provided for distinguishing speech recorded using the sound collecting microphone 40.
  • the user ID of the “sound collecting microphone” user is “ ⁇ 1_u”.
  • the format of FIG. 4 is an example, and the user data 11 may include other information such as an account name, a password, and an e-mail address used when each user logs in to the message presentation device 1.
  • one of the conference participants accesses the message presentation device 1 using the client PC 20 and registers the conference participant name on the conference setting screen provided from the statement presentation device 1 to the client PC 20.
  • This can be realized by a simple method such as inputting the title of the meeting.
  • “Sound collecting microphone” is input as the name of a conference participant who does not wear the headset 30 (“Tanaka” in the example of FIG. 3).
  • the names of the conference participants input on the conference setting screen are converted into user IDs using the user data 11 described above.
  • the registered conference is given a unique conference ID, and is stored in the data storage unit 10 as conference data 12 together with the conference participant's user ID and the input conference title.
  • FIG. 5 is a diagram illustrating a specific example of the conference data 12 stored in the data storage unit 10.
  • the conference data 12 in FIG. 5 it is shown that two conferences are registered, and the conference participants are managed by the user ID in the user data 11.
  • the conference with the conference ID “1_c” corresponds to the example of FIG. 3 and the user IDs of the conference participants are “1_u”, “3_u”, and “ ⁇ 1_u”.
  • “And” Yamamoto "participate, and it is shown that audio recording using the sound collecting microphone 40 is also performed.
  • the format of FIG. 5 is an example, and the conference data 12 may include other information such as a conference agenda, related keywords, and the date and time of the conference.
  • FIG. 6 is a diagram illustrating a specific example of a speech during a meeting, and illustrates a speech example recorded in the environment illustrated in FIG. 3.
  • the words “Ikeda” and “Yamamoto” are input to the individual microphones of the headset 30 that each wears.
  • the client PC 20 which user uses each headset 30 is registered in advance, and the utterance input to the individual microphone of the headset 30 is presented together with the user ID of the user who uses the headset 30. It is assumed that it is transmitted to the device 1.
  • the three utterances including “Tanaka” are input to the sound collection microphone 40 and transmitted to the speech presentation device 1 together with the user ID of the “sound collection microphone” user.
  • the speech received from the client PC 20 is recorded as an audio file by the speech recording unit 2 and stored as speech data 13 in the data storage unit 10.
  • FIG. 7 is a diagram showing a specific example of the message data 13 stored in the data storage unit 10, and shows the message data 13 corresponding to the message example of FIG.
  • the utterance data 13 includes a unique utterance ID given to each utterance, an occurrence date and time of the utterance, a user ID of the utterance user, a file name of an audio file in which the utterance is recorded, It is stored in the data storage unit 10 in a format in which the recording microphone type is associated with the conference ID of the conference where the speech is made.
  • the occurrence date and time of the message may be information added to the message and transmitted from the client PC 20, or may be information provided when the message presenting apparatus 1 receives the message.
  • the recorded microphone type can be acquired by referring to, for example, the user data 11 based on the user ID added to the message and transmitted from the client PC 20.
  • the conference ID can be acquired from the registered conference data 12.
  • the utterances whose recording microphone type is “individual microphone” are recorded separately for each sentence, based on the silent period or the explicit utterance start and end input operations from the user.
  • utterances whose recording microphone type is “sound collecting microphone” are recorded together for each predetermined recording unit such as one minute.
  • the utterance with the utterance ID “6_s” shown in FIG. 7 is a utterance recorded using the sound collecting microphone 40 between 10:05:00 and 10:06:00.
  • the format of FIG. 7 is an example, and the remark data 13 may include other information.
  • the speech recognition unit 3 of the speech presentation device 1 recognizes the speech. Then, the speech recognition result and the recognition keyword of each utterance output by the speech recognition unit 3 are stored in the data storage unit 10 as the speech recognition data 14.
  • the speech recognition of the speech by the speech recognition unit 3 may be performed during the conference together with the recording of the speech by the speech recording unit 2.
  • FIG. 8 is a diagram showing a specific example of the speech recognition data 14, and shows the speech recognition data 14 corresponding to the speech example of FIG.
  • the speech recognition data 14 includes a speech ID of each speech, a text (recognition result) of a speech recognition result for the speech, a recognition keyword, and an assumed recognition indicating accuracy of the assumed speech recognition.
  • the data is stored in the data storage unit 10 in a format that associates the accuracy.
  • the recognition result is the text of the candidate with the maximum likelihood among the recognition result candidates.
  • the recognition results illustrated in FIG. 8 show examples in which speech recognition is correctly performed. In reality, however, the recognition result may contain an error due to the influence of the environment in which the speech is recorded or the way the user speaks. It should be noted that for a statement whose assumed recognition accuracy described below is less than 50%, the recognition result is not stored, and only the recognition keyword is stored. For example, the utterance with the utterance ID “6_s” and the utterance with the utterance ID “12_s” shown in FIG. 8 has an assumed recognition accuracy of 30%, which is lower than 50%. Therefore, the recognition result is not saved and only the recognition keyword is saved. Yes.
  • the recognition keyword is a word extracted from the recognition result candidates.
  • a recognition keyword extraction method there is a method of extracting only nouns from morpheme information included in recognition result candidates. Moreover, you may use the method of not including the common noun which appears frequently in a recognition keyword.
  • Each recognition keyword extracted from the recognition result candidate is preferably stored together with the appearance time during speech indicating how many seconds have elapsed from the start time of the corresponding speech after the recognition keyword has been spoken.
  • the assumed recognition accuracy is an assumed value representing the accuracy of speech recognition by the speech recognition unit 3. Since the accuracy of voice recognition depends on the voice recording environment, for example, using a recording microphone type, a high value such as 80% is set for an individual microphone that inputs voice individually from the user's mouth, and a position away from the mouth Therefore, it is possible to set a low value such as 30% for the sound collecting microphones in which the utterances of a plurality of users may be input simultaneously.
  • the method for setting the assumed recognition accuracy is not limited to this, and the assumed recognition accuracy may be set in consideration of other information related to the accuracy of speech recognition. Further, the format of FIG. 8 is an example, and the speech recognition data 14 may include other information. Moreover, the structure which accumulate
  • the UI control unit 4 of the speech presentation device 1 Data related to the designated conference is collected from the data storage unit 10, and a UI screen is generated and provided to the client PC 20.
  • the UI screen provided by the UI control unit 4 of the message presentation device 1 is displayed on the client PC 20.
  • FIG. 9 is a diagram illustrating an example of a UI screen displayed by the client PC 20.
  • the UI screen 100 shown in FIG. 9 has a “speech list” area 110 on the left side of the screen and a “conference memo” area 120 on the right side of the screen.
  • the recognition results 111 of the speech recognition data 14 are displayed in chronological order from top to bottom in the order of speech generation.
  • the bar 112 arranged at the left end of the “speech list” area 110 represents the audio of the entire conference recorded using the sound collecting microphone 40, and the color-coded bar 113 arranged on the right side of the bar 112 is the headphone 30. Represents each user's remarks recorded using an individual microphone. By clicking these bars 112 and 113, the audio is reproduced from the time corresponding to the clicked place.
  • the “Agenda Memo” area 120 is an area where the user who creates the agenda memo inputs arbitrary text.
  • a cursor 121 for text input is arranged.
  • the “Agenda Memo” area 120 On the UI screen 100 that is initially displayed in response to a user request, nothing is displayed in the “Agenda Memo” area 120 as shown in FIG.
  • the content of the agenda may be displayed in the “Agenda Memo” area 120 as an initial text.
  • a user who creates an agenda memo can enter an arbitrary character string as an agenda memo in the “agenda memo” area 120 with reference to, for example, a handwritten memo written in a memo pad during a meeting.
  • the agenda memo entered in the “Agenda Memo” area 120 is displayed as text in the “Agenda Memo” area 120.
  • the entry of the agenda memo in the “agenda memo” area 120 may be performed during the meeting. That is, the UI screen 100 can be displayed on the client PC 20 during a meeting, and a meeting memo can be directly input to the “agenda memo” area 120 using a keyboard or the like while the meeting is being performed.
  • FIG. 10 is a diagram showing the UI screen 100 in which the proceedings memo is entered in the “proceedings memo” area 120.
  • FIG. 11 is a diagram showing a specific example of the input text data 15 stored in the data storage unit 10, and shows the input text data 15 corresponding to the proceedings memo in FIG.
  • the input text data 15 associates a unique memo ID, a line in which the text is entered, the contents of the text, and a meeting ID of a meeting for which a meeting memo is to be created.
  • the data is stored in the data storage unit 10 in a format.
  • the format of FIG. 11 is an example, and the input text data 15 may include other information.
  • the relevance calculation unit 5 of the remark presentation device 1 relates to the relevance with the designated character string for each remark that is included in the recognition recognition data 14 among the remarks recorded during the meeting. Are calculated respectively.
  • the UI control unit 4 selects, for example, a predetermined number of utterances in the descending order of the degree of relevance calculated by the relevance degree calculating unit 5, and the speech recognition result of the selected utterance is displayed as “ Control to display in the “speech list” area 110 is performed.
  • the cursor 121 is positioned on a line in which a memo part “speech synthesis? Related technology?” Is entered among the agenda memos entered in the “agenda memo” area 120.
  • “Speech synthesis” and “related technology”, which are nouns obtained by text analysis of this line, are designated character strings.
  • the degree-of-association calculation unit 5 calculates the degree of association with “speech synthesis” or “related technology” for each utterance whose recognition result is included in the utterance recognition data 14. Then, as shown in FIG. 10, the UI control unit 4 stores the speech recognition result of the speech having a high degree of relevance with “speech synthesis” or “related technology” in the “speech list” area 110. Display.
  • the operation method of designating a character string on the “Agenda Memo” area 120 is not limited to the method of setting the cursor 121.
  • it may be configured to accept designation of a character string by another operation method such as designation of a range by dragging the mouse.
  • the UI control unit 4 uses a designated character string among words stored as recognition keywords for a utterance whose recognition result is not included in the utterance recognition data 14 because the assumed recognition accuracy is less than 50%.
  • the display position of this word is determined on the basis of the sound generation time during the conference. That is, the UI control unit 4 generates a recognition keyword that includes at least a part of the designated character string from among the recognition keywords included in the speech recognition data 14 of the speech whose assumed recognition accuracy is less than 50%.
  • the recognition keyword is displayed at a position on the “sentence list” area 110 corresponding to the time when the keyword was spoken. However, when a speech recognition result of a speech having a high degree of relevance is displayed at that position, the recognition keyword is not displayed.
  • the speech recognition result of the speech “Tanaka” recorded using the sound collection microphone 40 shown in FIG. 3 is not displayed in the “speech list” area 110.
  • recognition keywords 114 such as “speech synthesis” and “related technology” included in the utterance are displayed.
  • This is the same as the “speech synthesis” or “related technology” specified by the user in the “Agenda Memo” area 120 among the recognition keywords of the statement ID “12_s” in the example of the speech recognition data 14 shown in FIG.
  • the speech recognition result of the speech having the low relevance calculated by the relevance calculation unit 5 among the remarks including the recognition result in the speech recognition data 14 is not displayed.
  • the speech recognition result of the speech having the low relevance calculated by the relevance calculation unit 5 among the remarks including the recognition result in the speech recognition data 14 is not displayed.
  • the head portion of the speech recognition result of the utterance may be displayed in the “utterance list” area 110.
  • the degree-of-association calculation unit 5 calculates the degree of association of each utterance with respect to the specified character string, for example, by the following procedure.
  • the text of the recognition result of each speech included in the speech recognition data 14 and the character string designated on the “procedure memo” area 120 are divided into words using morphological analysis.
  • tf Term Frequency
  • idf Inverse
  • an occurrence vector of a word added with a weight of tf-idf is generated for each text of the recognition result of each utterance and each character string designated on the “procedure memo” area 120, and generated for each utterance.
  • the cosine similarity between the word appearance vector and the word appearance vector generated for the character string designated on the “agenda memo” area 120 is calculated. After that, the cosine similarity of each utterance plus the cosine similarity of a certain number of utterances before and after the utterance is added as the relevance of the utterance to the character string specified in the “Agenda Memo” area 120. calculate.
  • the appearance vector of the word of each utterance may be generated including not only the word included in the recognition result of the utterance but also the word (recognition keyword) included in the recognition result candidate.
  • the UI control unit 4 sorts each utterance whose recognition result is included in the utterance recognition data 14 in descending order of the relevance level calculated by the relevance level calculation unit 5. Is selected as a display target. Then, the UI control unit 4 displays the speech recognition result of the utterance selected as the display target in the “utterance list” area 110 of the UI screen 100 in a time series according to the utterance generation order.
  • the relevance calculation unit 5 does not perform the tf-idf weighting on the word as described above, and simply determines whether or not the character string specified on the “proceeding memo” area 120 is included in the recognition result text. Thus, the relevance level of each utterance may be calculated.
  • the degree of association calculated by the degree-of-relevance calculation unit 5 is “1” indicating that the character string specified on the “Agenda Memo” area 120 is included in the text of the recognition result, indicating that it is not included. It becomes a binary value such as “0”.
  • the UI control unit 4 selects a utterance whose relevance calculated by the relevance calculation unit 5 is “1” as a display target, and the speech recognition result of the utterance is displayed in a time series according to the order in which the remarks occur. , It is displayed in the “speech list” area 110 of the UI screen 100.
  • the user who creates the proceedings memo refers to the speech recognition result of the speech displayed in the “speech list” area 110 of the UI screen 100, and reproduces the speech of the speech corresponding to the speech recognition result, if necessary.
  • the contents of the remarks related to the agenda memo entered in the “agenda memo” area 110 can be confirmed, and the agenda memo can be efficiently expanded such as newly adding missing information.
  • the comment recording unit 2 records the comments recorded during the conference
  • the voice recognition unit 3 records the comments. Perform voice recognition.
  • the UI control unit 4 displays the UI screen 100 including the “speech list” area 110 and the “meeting memo” area 120 on the client terminal, and a character string is specified on the “meeting memo” area 120
  • the degree calculation unit 5 calculates the degree of relevance of each voice-recognized utterance with the character string designated on the “Agenda Memo” area 120.
  • the UI control unit 4 selects a remark with a high relevance calculated by the relevance calculation unit 5 as a display target, and displays a speech recognition result of the selected remark in the “remark list” area 110 of the UI screen 100. . Therefore, according to the statement presenting apparatus 1, it is possible to present and confirm a comment corresponding to arbitrary information input in the “agenda memo” area 120 in an easy-to-understand manner. Can be supported appropriately.
  • the relevance calculation unit 5 of the present embodiment does not calculate the relevance of each utterance using only the text of the recognition result, but calculates and calculates the topic of the text using various documents related to the meeting. Relevance is calculated using the selected topic.
  • the topic indicates a rough meaning of the text, and is calculated by using a topic analysis method such as LDA (Latent Dirichlet Allocation).
  • FIG. 12 is a block diagram illustrating a configuration example of the comment presentation device 1 according to the present embodiment.
  • conference related document data 16 is added as data stored in the data storage unit 10, and the relevance calculation unit 5 The point is that the relevance of each utterance is calculated using the document data 16.
  • the conference related document data 16 is, for example, data obtained by collecting the speech recognition data 14 and input text data 15 of other related conferences stored in the data storage unit 10 for a certain conference.
  • the meeting related document data 16 for example, a topic document related to the meeting crawled from the Internet may be used.
  • the relevance calculation unit 5 of the present embodiment calculates the relevance of each utterance with respect to the specified character string, for example, by the following procedure.
  • the text of the recognition result of each speech included in the speech recognition data 14 and the character string designated on the “procedure memo” area 120 are divided into words using morphological analysis.
  • the entire text of the recognition result of each remark included in the remark recognition data 14 and the meeting related document data 16 for each recognizing result text and each character string designated in the “Agenda Memo” area 120 are divided into words using morphological analysis.
  • Is used as a corpus and a vector consisting of a word representing a topic and its weight sequence is generated using LDA, etc., and a vector generated for each utterance and a character string specified in the “Agenda Memo” area 120 are generated.
  • the cosine similarity with the vector is calculated. After that, the cosine similarity of each utterance plus the cosine similarity of a certain number of utterances before and after the utterance is added as the relevance of the utterance to the character string specified in the “Agenda Memo” area 120. calculate. In addition, you may make it calculate the cosine similarity of each utterance as a relevance degree, without adding the cosine similarity of the utterance before and behind.
  • a technique other than LDA such as LSI (Latent Semantic Indexing) may be used.
  • the relevance calculation unit 5 uses the similarity between the topic of each remark and the topic of the specified character string to determine the relevance of each remark with respect to the specified character string. calculate. For this reason, the relevance degree of each utterance with respect to the designated character string can be calculated more accurately than in the first embodiment described above.
  • a character string is designated by a method such as placing the cursor 121 on an arbitrary line in the “Agenda Memo” area 120
  • the speech recognition result of the speech corresponding to the character string of the line on which the cursor 121 is aligned is displayed on the “speech list” screen 110.
  • the text structure is grasped by using the indentation of the “Agenda Memo” area 120, and the speech recognition of the corresponding remarks is performed for the upper-level headword of the topic on the line where the cursor 121 is located.
  • the result is displayed in the “speech list” area 110.
  • FIG. 13 is a diagram illustrating an example of the UI screen 100 displayed on the client PC 20 in the present embodiment.
  • the cursor 121 is positioned on a line in which a memo portion of “maintenance work” is entered in the agenda memo entered in the “meeting memo” area 120. Is the specified string.
  • the line where “maintenance work” is entered is indented for one space at the beginning, whereas the line 122 where “notes” on the second line is entered is the beginning. Indentation is not set, and it is presumed that the character string “Exhibition” in this row 122 is a headline higher than the designated maintenance character string “maintenance work”.
  • the degree-of-association calculation unit 5 adds “exhibition” to each statement whose recognition result is included in the statement recognition data 14 in addition to the degree of association with “maintenance work” that is a designated character string. Relevance is also calculated. Then, as shown in FIG. 13, the UI control unit 4 has a degree of relevance with “exhibition” in addition to the voice recognition result of the remark that is highly related to “maintenance work” among the remarks during the meeting. The speech recognition result of a high utterance is also displayed in the “utterance list” area 110 in time series.
  • the recognition keyword of a comment whose recognition result is not stored because of low assumed recognition accuracy includes “maintenance work” or “exhibition”
  • the recognition is performed. It is displayed at a position corresponding to the time when the keyword was spoken.
  • FIG. 14 is a block diagram illustrating a configuration example of the statement presentation apparatus 1 according to the present embodiment.
  • the difference from the configuration of the speech presentation device 1 according to the first embodiment shown in FIG. 1 is that recording environment data 17 is added, and the speech recognition unit 3 refers to this recording environment data 17 to estimate the recognition accuracy of each speech. It is a point that is set.
  • the recording environment data 17 in addition to the recording microphone type, whether it is a speech of a specific user, a speech recorded in a specific location, or whether post-processing has been performed on the voice of the recorded speech
  • the assumed recognition accuracy is defined.
  • FIG. 15 is a diagram showing a specific example of the recording environment data 17.
  • the recording environment data 17 includes a unique data ID assigned to each data, a recording microphone type, a user ID of the speaking user, a place where the speaking is recorded, a post-processing The presence / absence and assumed recognition accuracy are associated with each other.
  • an item whose content is “*” indicates a setting that does not specify a speaking user or a place where the speaking is recorded.
  • “Speaker verification” indicates post-processing that separates the voice recorded using the sound collecting microphone 40 for each speaker using the acoustic characteristics of each speaker's voice.
  • the format of FIG. 15 is an example, and the recording environment data 17 may include other information.
  • the voice recognition unit 3 of the present embodiment uses the recording environment data 17 as described above when setting the assumed recognition accuracy of the speech recognition data 14. Which condition each utterance corresponds to is specified using the conference data 12 related to the conference registered using the conference setting screen at the time of conference registration, the utterance speech data 13 recorded during the conference, and the like.
  • FIG. 16 is a diagram showing an example of a conference setting screen.
  • the conference setting screen 200 shown in FIG. 16 includes a text box 201 for inputting a title of the conference, a text box 202 for inputting a location where the conference is held (a location where the speech is recorded), and attendees of the conference.
  • the place where the conference is held (the place where the remarks are recorded) is the “server room”.
  • the data ID corresponds to the condition of “4_d”
  • the assumed recognition accuracy is set to “60%”. This is because the speech recognition accuracy of speech recorded in a noisy environment such as a server room is assumed to be lower than the speech recognition accuracy of speech recorded in a low noise environment. This shows that the assumed recognition accuracy of the utterances recorded by using the system drops from 80% to 60%.
  • the assumed recognition accuracy is set in consideration of not only the recording microphone type but also various conditions relating to the recording of a statement, so that the assumed recognition accuracy can be set more accurately.
  • the assumed recognition accuracy set as described above is used for determining whether or not to save a recognition result as the speech recognition data 14, in addition to the UI control unit 4.
  • the UI control unit 4 performs, for example, the assumption recognition set by the speech recognition unit 3 for the relevance calculated by the relevance calculation unit 5 by the calculation method described in the first embodiment or the second embodiment.
  • a value obtained by multiplying the accuracy is obtained as a score of each utterance, the utterances are sorted in descending order of the obtained scores, and a predetermined number of higher utterances are selected as display targets.
  • the UI control unit 4 displays the speech recognition result of the utterance selected as the display target in the “utterance list” area 110 of the UI screen 100 in a time series according to the utterance generation order.
  • the speech presentation device 1 configured to record a speech during a conference and present a speech corresponding to an arbitrary character string designated by the user has been exemplified as the speech presentation device of the embodiment.
  • the presentation device is not limited to the utterance during the conference, and can be configured as an apparatus that records various utterances by voice and presents the utterance corresponding to an arbitrary character string designated by the user.
  • Each functional component in the statement presentation device 1 of the embodiment described above can be realized by, for example, a program (software) executed using a general-purpose computer system as basic hardware.
  • FIG. 17 is a block diagram schematically showing an example of the hardware configuration of the message presentation device 1.
  • the statement presentation apparatus 1 includes a processor 51 such as a CPU, a main storage device 52 such as a RAM, an auxiliary storage device 53 using various storage devices, a communication interface 54, A general-purpose computer system including a bus 55 connecting these units is configured.
  • the auxiliary storage device 53 may be connected to each unit via a wired or wireless LAN (Local Area Network).
  • LAN Local Area Network
  • the processor 51 uses the main storage device 52 for each functional component (the statement recording unit 2, the voice recognition unit 3, the UI control unit 4, and the relevance calculation unit 5) of the statement presentation device 1 of the embodiment. This is realized by executing a program stored in the auxiliary storage device 53.
  • the data storage unit 10 is realized by using the auxiliary storage device 53, for example.
  • the program executed by the processor 51 is, for example, a CD-ROM (Compact Disc Read Only Memory), a flexible disk (FD), a CD-R (Compact Disc Recordable), a DVD in an installable or executable format file. It is recorded on a computer-readable recording medium such as (Digital Versatile Disc) and provided as a computer program product.
  • a computer-readable recording medium such as (Digital Versatile Disc) and provided as a computer program product.
  • this program may be provided by being stored on another computer connected to a network such as the Internet and downloaded via the network.
  • the program may be provided or distributed via a network such as the Internet.
  • this program may be provided by being incorporated in advance in a ROM (auxiliary storage device 53) in the computer.
  • This program has a module configuration including the functional components of the speech presentation device 1 of the embodiment.
  • the processor 51 reads the program from the recording medium and executes it.
  • Each of the above-described components is loaded on the main storage device 52, and each of the above-described components is generated on the main storage device 52.
  • some or all of the functional components of the speech presentation device 1 according to the embodiment are realized using dedicated hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array). It is also possible to do.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

 実施形態の発言提示装置(1)は、発言記録部(2)と、音声認識部(3)と、関連度算出部(5)と、UI制御部(4)と、を備える。発言記録部(2)は、音声による発言を記録する。音声認識部(3)は、記録された発言を音声認識する。関連度算出部(5)は、音声認識された各発言に対し、第1表示領域と第2表示領域とを有するUI画面の前記第2表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する。UI制御部(4)は、前記関連度の高さに基づいて選択された発言の音声認識結果を、前記UI画面の前記第1表示領域に表示させる。

Description

発言提示装置、発言提示方法およびプログラム
 本発明の実施形態は、発言提示装置、発言提示方法およびプログラムに関する。
 会議中に記述したメモが会議中のどの発言に対応するかの対応付けを行うことは、例えば会議の議事録作成などの作業を効率化する上で有効である。このような対応付けを行う技術として、会議中の音声および映像の記録に合わせて、テキストとして入力したメモの入力時間を記録し、記録された音声や映像の再生時に対応するメモ部分を表示したり、メモに対応する音声や映像を再生したりする技術が知られている。
 しかし、会議中の発言との対応付けが望まれる情報は、会議中にテキストとして入力されたメモに限らない。例えば、会議中に紙に書かれた手書きのメモや会議前に作成されたアジェンダなど、会議中に入力されない情報についても、会議中の発言との対応付けが望まれる場合もある。また、会議中の発言に限らず、音声による発言を記録する仕組みを持つ様々なシステムにおいて、任意の情報に対応する発言をユーザに分かり易く提示できるようにしたいというニーズがある。
特開2008-172582号公報
 本発明が解決しようとする課題は、任意の情報に対応する発言をユーザに分かり易く提示できる発言提示装置、発言提示方法およびプログラムを提供することである。
 実施形態の発言提示装置は、発言記録部と、音声認識部と、関連度算出部と、UI制御部と、を備える。発言記録部は、音声による発言を記録する。音声認識部は、記録された発言を音声認識する。関連度算出部は、音声認識された各発言に対し、第1表示領域と第2表示領域とを有するUI画面の前記第2表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する。UI制御部は、前記関連度の高さに基づいて選択された発言の音声認識結果を、前記UI画面の前記第1表示領域に表示させる。
図1は、第1実施形態の発言提示装置の構成例を示すブロック図である。 図2は、実施形態の発言提示装置の動作概要を示すフローチャートである。 図3は、会議中の発言を収録するシーンの具体例を説明する図である。 図4は、ユーザデータの具体例を示す図である。 図5は、会議データの具体例を示す図である。 図6は、会議中の発言の具体例を示す図である。 図7は、発言データの具体例を示す図である。 図8は、発言認識データの具体例を示す図である。 図9は、UI画面の一例を示す図である。 図10は、「議事メモ」領域に議事メモが記入されたUI画面を示す図である。 図11は、入力テキストデータの具体例を示す図である。 図12は、第2実施形態の発言提示装置の構成例を示すブロック図である。 図13は、第3実施形態におけるUI画面の一例を示す図である。 図14は、第4実施形態の発言提示装置の構成例を示すブロック図である。 図15は、録音環境データの具体例を示す図である。 図16は、会議設定画面の一例を示す図である。 図17は、発言提示装置のハードウェア構成の一例を概略的に示すブロック図である。
 以下、実施形態の発言提示装置、発言提示方法およびプログラムを、図面を参照して詳細に説明する。以下で示す実施形態では、会議中の音声による発言を記録し、会議後の議事メモ作成時に、指定されたメモ部分に関連する会議中の発言を提示する構成の発言提示装置を例示する。この発言提示装置は、例えば、ネットワークを利用したサーバ・クライアントシステムのサーバ装置として実現され、クライアント端末に後述のUI画面を表示させてこのUI画面を用いた操作に基づく処理を行うなどのサービスを提供する。なお、発言提示装置は、クラウドシステム上で動作する仮想マシンであってもよい。また、発言提示装置は、ユーザが直接利用する独立の装置として構成されていてもよい。
<第1実施形態>
 図1は、本実施形態の発言提示装置1の構成例を示すブロック図である。この発言提示装置1は、図1に示すように、発言記録部2、音声認識部3、UI制御部4、関連度算出部5、およびデータ蓄積部10を備える。
 発言記録部2は、会議中に発生する音声による発言を記録する。発言は、その発言を行った発言ユーザが装着するピンマイクもしくはヘッドセットのマイクなどの個別マイク、または集音マイクに入力される。個別マイクまたは集音マイクに入力された発言は、例えば、発言の発生日時、発言ユーザを識別するユーザID(identification)とともに、発言提示装置1に送信される。発言記録部2は、受信した音声を音声ファイルとして記録する。
 発言記録部2により記録された発言の音声ファイルは、発言を識別する発言ID、発言の発生日時、発言ユーザのユーザID、発言の収録に用いたマイク種別(収録マイク種別)、発言が行われた会議を識別する会議IDなどとともに、発言データ13としてデータ蓄積部10に蓄積される。収録マイク種別は、例えば、会議開催前のユーザによる登録操作に応じてデータ蓄積部10に格納されたユーザデータ11を参照することにより特定される。また、会議IDは、例えば、会議開催前のユーザによる登録操作に応じてデータ蓄積部10に格納された会議データ12を参照することにより特定される。
 音声認識部3は、発言記録部2が記録した発言に対する音声認識を行う。音声認識の方法は公知の技術をそのまま利用できるため、ここでは詳細な説明を省略する。音声認識部3は、例えば、入力された発言の音声に対する認識結果の候補のうち、尤度が最大となる候補を音声認識結果として出力するとともに、各候補に含まれる単語すべてを認識キーワードとして出力する。
 音声認識部3が出力する発言の音声認識結果および認識キーワードは、発言を識別する発言ID、想定される音声認識の精度を表す想定認識精度などとともに、発言認識データ14としてデータ蓄積部10に蓄積される。想定認識精度は、例えば、発言の音声の入力方式(具体的には収録マイク種別)などに応じて設定される。
 UI制御部4は、ユーザの議事メモ作成を支援するUI画面を生成してクライアント端末に提供する。UI画面は、会議中の発言の音声認識結果を表示する「発言一覧」領域(第1表示領域)と、議事メモの入力を受け付ける「議事メモ」領域(第2表示領域)とを有する。UI画面の「発言一覧」領域には、会議中に収録された発言の音声認識結果が表示される。UI画面の「議事メモ」領域は、ユーザが会議の議事メモを入力するために利用される。ユーザが入力した議事メモは「議事メモ」領域にテキストとして表示される。また、「議事メモ」領域は、議事メモのほかにも、会議前に登録されたアジェンダなどの会議に関連する他のテキストが表示される構成であってもよい。ユーザが「議事メモ」領域に入力した議事メモは、例えば行単位で管理され、各行のメモ部分を識別するメモID、入力された行、議事メモに対応する会議を識別する会議IDなどとともに、入力テキストデータ15としてデータ蓄積部10に蓄積される。
 また、UI制御部4は、ユーザがUI画面の「議事メモ」領域に表示されているテキストから任意の文字列を指定する操作を行うと、対応する会議中に収録されて音声認識部3による音声認識が行われた発言のうち、指定された文字列との関連度の高さに基づいて選択された発言の音声認識結果をUI画面の「発言一覧」領域に表示させる。「議事メモ」領域で指定された文字列との関連度は、後述の関連度算出部5により算出される。さらにUI制御部4は、ユーザがUI画面の「発言一覧」領域に音声認識結果が表示されている発言の中から任意の発言を指定する操作を行うと、その発言の音声を再生させる制御を行う。
 UI制御部4は、例えば、ウェブベースでUI画面を生成してクライアント端末に提供するウェブサーバとして実装される。この場合、クライアント端末は、UI制御部4が生成したUI画面を、ウェブブラウザを用いてネットワーク越しに利用する。なお、UI画面の具体的な構成例については詳細を後述する。
 関連度算出部5は、ユーザがUI画面の「議事メモ」領域に表示されているテキストから任意の文字列を指定する操作を行うと、対応する会議中に収録され、音声認識部3により音声認識が行われた会議中の各発言に対し、指定された文字列との関連度を各々算出する。この関連度算出部5により算出された関連度の高さに基づいて、UI画面の「議事メモ」領域で指定された文字列に対応する発言として、UI画面の「発言一覧」領域に音声認識結果が表示される発言が選択される。なお、関連度の算出方法の具体例については詳細を後述する。
 次に、本実施形態の発言提示装置1による動作の流れを簡単に説明する。図2は、本実施形態の発言提示装置1の動作概要を示すフローチャートであり、(a)は会議が行われるたびに実施される発言提示装置1の動作を示し、(b)は会議後にクライアント端末においてUI画面が開かれたときの発言提示装置1の動作を示している。
 なお、会議中に個別マイクにより発言を行うユーザ(会議参加者)の情報や、開催される会議の情報は、会議の開始前にクライアント端末から発言提示装置1にアクセスして登録されるものとする。登録された会議参加者の情報は、ユーザデータ11としてデータ蓄積部10に格納され、登録された会議の情報は、会議データ12としてデータ蓄積部10に格納される。
 会議が開始されると、会議中の音声による発言が、個別マイクまたは集音マイクに入力されてクライアント端末から発言提示装置1に送信される。発言提示装置1の発言記録部2は、個別マイクまたは集音マイクに入力された発言を、音声ファイルとして記録する(ステップS101)。発言記録部2により記録された発言の音声ファイルは、発言データ13としてデータ蓄積部10に格納される。
 発言記録部2による発言の記録および発言データ13の格納は、会議が終了するまで継続される。すなわち、会議終了を示すユーザの明示的な操作の有無などにより会議が終了したか否かが判定され(ステップS102)、会議が終了していなければ(ステップS102:No)、個別マイクまたは集音マイクに会議中の発言が入力されるたびに、発言記録部2によるステップS101の処理が繰り返される。そして、会議が終了すると(ステップS102:Yes)、音声認識部3が、発言データ13としてデータ蓄積部10に蓄積された会議中の各発言に対して音声認識を行う(ステップS103)。音声認識部3による音声認識によって得られる各発言の音声認識結果および認識キーワードは、発言認識データ14としてデータ蓄積部10に格納される。なお、音声認識部3による会議中の発言に対する音声認識は、会議中に行われてもよい。
 会議の終了後、クライアント端末から議事メモ作成の要求があると、発言提示装置1のUI制御部4が、UI画面をクライアント端末に表示させる。そして、ユーザがこのUI画面の「議事メモ」領域に議事メモを記入する操作を行うと(ステップS201)、そのテキストが「議事メモ」領域に表示されるとともに、記入された議事メモが、入力テキストデータ15としてデータ蓄積部10に格納される。
 その後、ユーザが「議事メモ」領域に表示されているテキストから任意の文字列を指定する操作を行うと(ステップS202)、関連度算出部5が、会議中に収録された各発言に対し、指定された文字列との関連度を算出する(ステップS203)。そして、UI制御部4が、関連度算出部5により算出された関連度が高い発言を表示対象の発言として選択し、選択した発言の音声認識結果を、UI画面の「発言一覧」領域に表示させる(ステップS204)。議事メモを作成するユーザは、「発言一覧」領域に表示された発言の音声認識結果を参照することで、「議事メモ」領域で指定した文字列に対応する会議中の発言を、視覚を通じて確認することができる。また、議事メモを作成するユーザは、必要に応じて「発言一覧」領域に音声認識結果が表示されたいずれかの発言を指定し、その発言の音声を再生することにより、「議事メモ」領域で指定した文字列に対応する会議中の発言を、聴覚を通じて確認することもできる。
 その後、議事メモ作成の終了を示すユーザの明示的な操作の有無などにより議事メモ作成が終了したか否かが判定され(ステップS205)、議事メモ作成が終了していなければ(ステップS205:No)、ステップS201からステップS204までの処理が繰り返される。そして、議事メモ作成が終了すると(ステップS205:Yes)、発言提示装置1による一連の動作が終了する。
 次に、具体的な会議の事例を例示しながら、本実施形態の発言提示装置1の動作について、さらに詳しく説明する。
 図3は、会議中の発言を収録するシーンの具体例を説明する図である。図3では、会議室内で“池田”、“山本”、“田中”の3名により会議が行われている様子を例示している。会議室の卓上には、本実施形態の発言提示装置1とネットワークを介して接続されるクライアントPC(パーソナルコンピュータ)20が設置されている。会議参加者のうち、“池田”と“山本”はそれぞれヘッドセット30を装着しており、“池田”の発言と“山本”の発言は、それぞれヘッドセット30の個別マイクに入力される。また、会議の卓上には集音マイク40が設置されており、ヘッドセット30を装着していない“田中”の発言は、この集音マイク40に入力される。なお、集音マイク40は、ヘッドセット30を装着していない“田中”の発言だけでなく、ヘッドセット30を装着している“池田”や“山本”の発言も含めて、会議中に発生した音声をすべて入力している。
 “池田”と“山本”が装着しているヘッドセット30や卓上に設置された集音マイク40は、クライアントPC20に接続されている。これらヘッドセット30や集音マイク40に入力された会議中の発言は、クライアントPC20からネットワークを介して発言提示装置1に送信される。なお、ここではクライアント端末の一例としてクライアントPC20を例示しているが、これに限らず、例えばタブレット端末やテレビ会議用の端末などの他の端末をクライアント端末として用いてもよい。
 また、ここではすべての会議参加者が1つの会議室に集まって会議を行うシーンを想定しているが、地理的に離れた拠点間で遠隔会議を行う場合にも、本実施形態の発言提示装置1は有効に動作する。この場合、遠隔会議を行う各拠点に、本実施形態の発言提示装置1とネットワークを介して接続されるクライアントPC20のような端末をそれぞれ配置し、各拠点の会議参加者が装着するヘッドセット30や集音マイク40を各拠点の端末に接続すればよい。
 本実施形態の発言提示装置1を用いて会議中の発言を記録する場合、会議参加者のうち、少なくとも個別マイクを用いて発言を収録するユーザの登録と、開催される会議の登録が会議の開催前に行われる。ユーザの登録は、例えば、ユーザがクライアントPC20を用いて発言提示装置1にアクセスし、発言提示装置1からクライアントPC20に提供されるユーザ登録画面に名前を入力するといった簡単な方法で実現できる。登録されたユーザには固有のユーザIDが付与され、入力された名前とともに、ユーザデータ11としてデータ蓄積部10に格納される。
 図4は、データ蓄積部10に格納されたユーザデータ11の具体例を示す図である。ユーザデータ11は、例えば図4に示すように、登録されたユーザのユーザIDと名前とを対応付けた形式でデータ蓄積部10に格納される。また、ユーザデータ11には、集音マイク40を用いて収録された発言を区別するために設けた特殊なユーザとして、“集音マイク”ユーザが含まれる。図4に示したユーザデータ11の例では、“集音マイク”ユーザのユーザIDは“-1_u”である。なお、図4の形式は一例であり、ユーザデータ11として、各ユーザが発言提示装置1にログインする際に用いるアカウント名およびパスワード、メールアドレスなどといった他の情報を含んでいてもよい。
 会議の登録は、例えば、会議参加者のうちの1人がクライアントPC20を用いて発言提示装置1にアクセスし、発言提示装置1からクライアントPC20に提供される会議設定画面に会議参加者の名前と会議のタイトルを入力するといった簡単な方法で実現できる。ヘッドセット30を装着しない会議参加者(図3の例では“田中”)の名前は、“集音マイク”が入力される。会議設定画面に入力された会議参加者の名前は、上述のユーザデータ11を用いてユーザIDに変換される。登録された会議には固有の会議IDが付与され、会議参加者のユーザIDおよび入力された会議のタイトルとともに、会議データ12としてデータ蓄積部10に格納される。
 図5は、データ蓄積部10に格納された会議データ12の具体例を示す図である。この図5の会議データ12の例では、2つの会議が登録されていることが示されており、会議参加者はユーザデータ11内のユーザIDで管理されている。このうち、会議IDが“1_c”の会議が図3の例に対応しており、会議参加者のユーザIDが“1_u”、“3_u”、“-1_u”であるので、会議には“池田”と“山本”が参加するほか、集音マイク40を用いた音声の収録も行われることが示されている。なお、図5の形式は一例であり、会議データ12として、会議のアジェンダや関連キーワード、開催日時などといった他の情報を含んでいてもよい。
 会議の登録後、実際に会議が開始されると、会議中の音声による発言が個別マイクや集音マイクに入力される。図6は、会議中の発言の具体例を示す図であり、図3に例示した環境で収録される発言例を示している。“池田”の発言と“山本”の発言は、各々が装着しているヘッドセット30の個別マイクに入力される。クライアントPC20では、予めそれぞれのヘッドセット30をどのユーザが利用するかが登録されており、ヘッドセット30の個別マイクに入力された発言は、そのヘッドセット30を利用するユーザのユーザIDとともに発言提示装置1に送信されるものとする。また、“田中”を含む3人の発言は集音マイク40に入力され、“集音マイク”ユーザのユーザIDとともに発言提示装置1に送信される。発言提示装置1では、クライアントPC20から受信した発言が発言記録部2により音声ファイルとして記録され、発言データ13としてデータ蓄積部10に格納される。
 図7は、データ蓄積部10に蓄積される発言データ13の具体例を示す図であり、図6の発言例に対応する発言データ13を示している。発言データ13は、例えば図7に示すように、各発言に付与された固有の発言IDと、その発言の発生日時と、発言ユーザのユーザIDと、発言を記録した音声ファイルのファイル名と、収録マイク種別と、発言が行われた会議の会議IDとを対応付けた形式でデータ蓄積部10に格納される。
 発言の発生日時は、発言に付加されてクライアントPC20から送信される情報であってもよいし、発言提示装置1において発言を受信した際に付与する情報であってもよい。収録マイク種別は、発言に付加されてクライアントPC20から送信されるユーザIDをもとに、例えばユーザデータ11を参照することで取得できる。また、会議IDは、登録された会議データ12から取得できる。
 なお、収録マイク種別が“個別マイク”の発言は、無音区間やユーザからの明示的な発言開始、終了の入力操作などを元に、一文の発言ごとに分けて記録される。一方、収録マイク種別が“集音マイク”の発言は、例えば1分間といった予め定めた記録単位ごとにまとめて記録される。例えば図7に示す発言ID“6_s”の発言は、10:05:00から10:06:00の間に集音マイク40を用いて収録された発言である。なお、図7の形式は一例であり、発言データ13として他の情報を含んでいてもよい。
 会議の終了後、例えば会議参加者の操作に応じてクライアントPC20から発言提示装置1に会議の終了が通知されると、発言提示装置1の音声認識部3により発言の音声認識が行われる。そして音声認識部3が出力する各発言の音声認識結果および認識キーワードが、発言認識データ14としてデータ蓄積部10に格納される。なお、音声認識部3による発言の音声認識は、発言記録部2による発言の記録と合せて会議中に行われてもよい。
 図8は、発言認識データ14の具体例を示す図であり、図6の発言例に対応する発言認識データ14を示している。発言認識データ14は、例えば図8に示すように、各発言の発言IDと、その発言に対する音声認識結果のテキスト(認識結果)と、認識キーワードと、想定される音声認識の精度を表す想定認識精度とを対応付けた形式でデータ蓄積部10に格納される。
 認識結果は、認識結果の候補のうちで尤度が最大となる候補のテキストである。説明を簡単にするため、図8に例示する認識結果はすべて音声認識が正しく行われた例を示している。しかし実際には、発言を収録する環境やユーザの話し方の影響などを受けて、認識結果に誤りが含まれている場合もある。なお、後述の想定認識精度が50%を下回る発言については、認識結果は保存されず、認識キーワードのみが保存される。例えば図8に示す発言ID“6_s”の発言と発言ID“12_s”の発言は、想定認識精度が50%を下回る30%であるため、認識結果は保存されず、認識キーワードのみが保存されている。
 認識キーワードは、認識結果の候補に含まれる単語を抽出したものである。認識キーワードの抽出方式としては、認識結果の候補に含まれる形態素情報から名詞のみを抽出するなどの方法がある。また、頻出する一般的な名詞を認識キーワードに含めないなどの方法を用いてもよい。なお、認識結果の候補から抽出された各認識キーワードは、対応する発言の開始時刻から何秒経過した後にその認識キーワードが発言されたかを表す発言中出現時間と併せて格納されることが望ましい。
 想定認識精度は、音声認識部3による音声認識の精度を表す想定値である。音声認識の精度は音声の収録環境に依存するため、例えば収録マイク種別を用いて、ユーザの口元から個別に音声を入力する個別マイクには80%といった高い値を設定し、口元から離れた位置で複数のユーザの発言が同時に入力される可能性がある集音マイクには30%といった低い値を設定することができる。なお、想定認識精度を設定する方法はこれに限らず、音声認識の精度に関わる他の情報も加味して想定認識精度を設定してもよい。また、図8の形式は一例であり、発言認識データ14として他の情報を含んでいてもよい。また、発言認識データ14を発言データ13と併せてデータ蓄積部10に蓄積する構成であってもよい。
 会議の終了後、会議の議事メモを作成するユーザがクライアントPC20を用いて発言提示装置1にアクセスし、会議を指定して議事メモ作成を要求すると、発言提示装置1のUI制御部4が、指定された会議に関連するデータをデータ蓄積部10から収集し、UI画面を生成してクライアントPC20に提供する。発言提示装置1のUI制御部4が提供するUI画面は、クライアントPC20に表示される。
 図9は、クライアントPC20が表示するUI画面の一例を示す図である。この図9に示すUI画面100は、画面左側に「発言一覧」領域110を有し、画面右側に「議事メモ」領域120を有する画面構成となっている。「発言一覧」領域110には、発言認識データ14の認識結果111が、発言の発生順に時系列で上から下方向に表示される。「発言一覧」領域110の左端に配置されたバー112は、集音マイク40を用いて収録された会議全体の音声を表し、その右側に配置された色分けされたバー113は、ヘッドセット30の個別マイクを用いて収録された各ユーザの発言を表している。これらのバー112,113をクリックすることで、クリックした場所に対応する時間から音声が再生される構成となっている。
 また、「議事メモ」領域120は、議事メモを作成するユーザが任意のテキストを入力する領域である。「議事メモ」領域120には、テキスト入力用のカーソル121が配置されている。ユーザの要求に応じて最初に表示されるUI画面100では、図9に示すように、「議事メモ」領域120には何も表示されていない。ただし、会議データ12として会議のアジェンダが登録されている場合には、そのアジェンダの内容が初期テキストとして「議事メモ」領域120に表示されていてもよい。議事メモを作成するユーザは、例えば会議中にメモ帳などに記載した手書きのメモなどを参照して、任意の文字列をこの「議事メモ」領域120に議事メモとして記入することができる。「議事メモ」領域120に記入された議事メモは、この「議事メモ」領域120にテキストとして表示される。なお、「議事メモ」領域120への議事メモの記入は、会議中に行われてもよい。すなわち、会議中にクライアントPC20にUI画面100を表示させ、会議を行いながらキーボードなどを用いて「議事メモ」領域120に議事メモを直接入力することもできる。
 UI画面100の「議事メモ」領域120に記入された議事メモは、例えば、行単位の入力テキストデータ15として、データ蓄積部10に格納される。図10は、「議事メモ」領域120に議事メモが記入されたUI画面100を示す図である。また、図11は、データ蓄積部10に格納される入力テキストデータ15の具体例を示す図であり、図10の議事メモに対応する入力テキストデータ15を示している。入力テキストデータ15は、例えば図11に示すように、固有のメモIDと、そのテキストが記入された行と、テキストの内容と、議事メモ作成の対象となる会議の会議IDとを対応付けた形式でデータ蓄積部10に格納される。なお、図11の形式は一例であり、入力テキストデータ15として他の情報を含んでいてもよい。
 UI画面100の「議事メモ」領域120に議事メモを記入した後、ユーザがカーソル121を移動させるなどの操作を行って「議事メモ」領域120に表示されている任意の文字列を指定する操作を行うと、発言提示装置1の関連度算出部5が、会議中に記録された発言のうち、発言認識データ14に認識結果が含まれる各発言に対し、指定された文字列との関連度を各々算出する。そして、UI制御部4が、例えば、関連度算出部5により算出された関連度が高い順に所定数の発言を表示対象の発言として選択し、選択した発言の音声認識結果をUI画面100の「発言一覧」領域110に表示させる制御を行う。
 図10のUI画面100の例では、「議事メモ」領域120に記入された議事メモのうち、“音声合成は?関連技術?”というメモ部分が記入された行にカーソル121が合っており、この行をテキスト解析することで得られる名詞である“音声合成”および“関連技術”が、指定された文字列となる。この場合、関連度算出部5は、発言認識データ14に認識結果が含まれる各発言に対し、“音声合成”や“関連技術”との関連度を各々算出する。そして、UI制御部4は、図10に示すように、会議中の発言のうち、“音声合成”や“関連技術”との関連度が高い発言の音声認識結果を「発言一覧」領域110に表示させる。
 なお、「議事メモ」領域120上で文字列を指定する操作方法は、カーソル121を合せる方法に限らない。例えば、マウスのドラッグ操作による範囲指定といった他の操作方法による文字列の指定を受け付ける構成であってもよい。
 また、UI制御部4は、想定認識精度が50%を下回るために発言認識データ14に認識結果が含まれていない発言について、認識キーワードとして保存されている単語のうちで、指定された文字列の少なくとも一部を含む単語を、表示対象として選択した発言の音声認識結果とともに、「発言一覧」領域110に表示させる。この単語の表示位置は、会議中における音声の発生時刻に基づいて決定される。すなわち、UI制御部4は、想定認識精度が50%を下回る発言の発言認識データ14に含まれる認識キーワードのうち、指定された文字列の少なくとも一部を含む認識キーワードを、上述した発言中出現時間を用いて、その認識キーワードが発言された時間に相当する「発言一覧」領域110上の位置に表示させる。ただし、その位置に関連度が高い発言の音声認識結果が表示される場合は、認識キーワードの表示は行われない。
 図10のUI画面100の例は、図3に示した集音マイク40を用いて収録される“田中”の発言の音声認識結果は「発言一覧」領域110に表示されないが、“田中”の発言に含まれる“音声合成”や“関連技術”といった認識キーワード114が表示されていることを示している。これは、図8に示した発言認識データ14の例において、発言ID“12_s”の認識キーワードのうち、ユーザが「議事メモ」領域120上で指定した“音声合成”や“関連技術”と一致するものを抽出し、その認識キーワードの発言中出現時間を元に「発言一覧」領域110に表示させたものである。なお、このような認識キーワードが存在しておらず、かつ、個別マイクによる発言がない時間については、図10のように「・・・」などを表示することで、発言は記録されているが音声認識結果は表示していないことを示すことが望ましい。
 また、図10のUI画面100の例では、発言認識データ14に認識結果が含まれる発言のうち、関連度算出部5により算出された関連度が低い発言の音声認識結果は表示されないようにしているが、関連度が低い発言についても、その発言の音声認識結果の先頭部分のみを「発言一覧」領域110に表示させるようにしてもよい。
 ここで、関連度算出部5による関連度の算出方法の具体例について説明する。関連度算出部5は、例えば以下の手順で、指定された文字列に対する各発言の関連度を算出する。まず、発言認識データ14に含まれる各発言の認識結果のテキスト、および「議事メモ」領域120上で指定された文字列を、形態素解析を用いて単語に分割する。その後、分割された各単語に対して、発言認識データ14に含まれる各発言の認識結果のテキスト全体をコーパスとし、各発言の認識結果のテキストをドキュメントとしたtf(Term Frequency)-idf(Inverse Document Frequency)を用いて重みを設定する。そして、各発言の認識結果のテキストと、「議事メモ」領域120上で指定された文字列それぞれに対して、tf-idfの重みを付加した単語の出現ベクトルを生成し、各発言について生成した単語の出現ベクトルと、「議事メモ」領域120上で指定された文字列について生成した単語の出現ベクトルとのコサイン類似度を算出する。その後、各発言のコサイン類似度に対し、その発言の前後の一定数の発言のコサイン類似度を加算したものを、「議事メモ」領域120上で指定された文字列に対するその発言の関連度として算出する。なお、前後の発言のコサイン類似度を加算せずに、各発言のコサイン類似度を関連度として算出するようにしてもよい。また、各発言の単語の出現ベクトルは、その発言の認識結果に含まれる単語だけでなく、認識結果の候補に含まれる単語(認識キーワード)も含めて生成してもよい。
 関連度を以上の方法で算出する場合、UI制御部4は、発言認識データ14に認識結果が含まれる各発言を、関連度算出部5により算出された関連度が高い順にソートして、上位の所定数の発言を表示対象として選択する。そして、UI制御部4は、表示対象として選択した発言の音声認識結果を、その発言の発生順に応じた時系列で、UI画面100の「発言一覧」領域110に表示させる。
 また、関連度算出部5は、以上のように単語に対するtf-idfの重み付けを行わず、単純に、「議事メモ」領域120上で指定された文字列が認識結果のテキストに含まれるか否かにより、各発言の関連度を算出するようにしてもよい。この場合、関連度算出部5により算出される関連度は、「議事メモ」領域120上で指定された文字列が認識結果のテキストに含まれることを示す“1”、含まれないことを示す“0”といった2値の値となる。UI制御部4は、関連度算出部5により算出される関連度が“1”となった発言を表示対象として選択し、その発言の音声認識結果を、その発言の発生順に応じた時系列で、UI画面100の「発言一覧」領域110に表示させる。
 議事メモを作成するユーザは、UI画面100の「発言一覧」領域110に表示された発言の音声認識結果を参照し、必要に応じて、その音声認識結果に対応する発言の音声を再生させることにより、「議事メモ」領域110に記入した議事メモに関連する発言の内容を確認することができ、不足する情報を新たに追加するといった議事メモの拡充などを効率よく行うことができる。
 以上、具体的な例を挙げながら詳細に説明したように、本実施形態の発言提示装置1では、会議中に収録された発言を発言記録部2が記録し、音声認識部3がその発言の音声認識を行う。そして、UI制御部4が「発言一覧」領域110と「議事メモ」領域120とを含むUI画面100をクライアント端末に表示させ、「議事メモ」領域120上で文字列が指定されると、関連度算出部5が、音声認識された各発言に対して「議事メモ」領域120上で指定された文字列との関連度を算出する。そして、UI制御部4が、関連度算出部5により算出された関連度の高い発言を表示対象として選択し、選択した発言の音声認識結果をUI画面100の「発言一覧」領域110に表示させる。したがって、この発言提示装置1によれば、「議事メモ」領域120に入力された任意の情報に対応する発言をユーザに分かり易く提示して確認させることができ、議事メモ作成などのユーザの作業を適切に支援することができる。
<第2実施形態>
 次に、第2実施形態について説明する。本実施形態は、関連度算出部5による関連度の算出方法が上述した第1実施形態と異なる。発言提示装置1の基本的な構成や動作は第1実施形態と同様であるため、以下では第1実施形態と共通部分については重複した説明を省略し、第1実施形態との相違点のみを説明する。
 本実施形態の関連度算出部5は、認識結果のテキストのみを用いて各発言の関連度を算出するのではなく、その会議に関連する様々な文書を用いてテキストのトピックを算出し、算出したトピックを用いて関連度を算出する。ここでトピックとは、そのテキストの大まかな意味合いを示し、例えばLDA(Latent Dirichlet Allocation)などのトピック解析手法を用いて算出される。
 図12は、本実施形態の発言提示装置1の構成例を示すブロック図である。図1に示した第1実施形態の発言提示装置1の構成との違いは、データ蓄積部10に蓄積されるデータとして会議関連文書データ16が追加され、関連度算出部5が、この会議関連文書データ16を用いて各発言の関連度を算出する点である。会議関連文書データ16は、例えば、ある会議について、データ蓄積部10に蓄積されている他の関連する会議の発言認識データ14や入力テキストデータ15を集約したデータである。なお、会議関連文書データ16として、例えば、インターネット上からクロールした、会議に関連する話題の文書を用いてもよい。
 本実施形態の関連度算出部5は、例えば以下の手順で、指定された文字列に対する各発言の関連度を算出する。まず、発言認識データ14に含まれる各発言の認識結果のテキスト、および「議事メモ」領域120上で指定された文字列を、形態素解析を用いて単語に分割する。その後、各発言の認識結果のテキストと、「議事メモ」領域120上で指定された文字列それぞれに対して、発言認識データ14に含まれる各発言の認識結果のテキスト全体と会議関連文書データ16とをコーパスとして、LDAなどを用いてトピックを表す単語とその重みの列からなるベクトルを生成し、各発言について生成したベクトルと、「議事メモ」領域120上で指定された文字列について生成したベクトルとのコサイン類似度を算出する。その後、各発言のコサイン類似度に対し、その発言の前後の一定数の発言のコサイン類似度を加算したものを、「議事メモ」領域120上で指定された文字列に対するその発言の関連度として算出する。なお、前後の発言のコサイン類似度を加算せずに、各発言のコサイン類似度を関連度として算出するようにしてもよい。また、トピックの算出には、LDA以外の手法、例えばLSI(Latent Semantic Indexing)などを用いてもよい。
 以上説明したように、本実施形態では、関連度算出部5が、各発言のトピックと指定された文字列のトピックとの類似度を用いて、指定された文字列に対する各発言の関連度を算出する。このため、上述した第1実施形態と比べて、指定された文字列に対する各発言の関連度をより精度よく算出することができる。
<第3実施形態>
 次に、第3実施形態について説明する。本実施形態は、UI画面100の「議事メモ」領域120上で指定された文字列に対応する発言の音声認識結果だけでなく、「議事メモ」領域120に表示されている文字列の構造に基づいて選択された文字列に対応する発言の音声認識結果も併せてUI画面100の「発言一覧」領域110に表示させる例である。発言提示装置1の基本的な構成や動作は第1実施形態と同様であるため、以下では第1実施形態と共通部分については重複した説明を省略し、第1実施形態との相違点のみを説明する。
 例えば、「議事メモ」領域120の任意の行にカーソル121を合せるといった方法で文字列を指定する場合、第1実施形態では、「議事メモ」領域120中に表示されている文字列のうち、カーソル121の合っている行の文字列に対応する発言の音声認識結果を「発言一覧」画面110に表示させるようにしている。これに対し、本実施形態では、「議事メモ」領域120のインデントを用いてテキスト構造を把握し、カーソル121の合っている行の話題の上位レベルの見出し語についても、対応する発言の音声認識結果を「発言一覧」領域110に表示させる。
 図13は、本実施形態においてクライアントPC20に表示されるUI画面100の一例を示す図である。図13のUI画面100の例では、「議事メモ」領域120に記入された議事メモのうち、“保守業務”というメモ部分が記入された行にカーソル121が合っており、この“保守業務”が指定された文字列となる。また、“保守業務”が記入された行は、先頭にスペース1文字分のインデントが設定されているのに対し、2行上の“展示会”というメモ部分が記入された行122は先頭にインデントが設定されておらず、この行122の“展示会”という文字列が、指定された文字列である“保守業務”よりも上位の見出し語になっていると推定される。
 この場合、関連度算出部5は、発言認識データ14に認識結果が含まれる各発言に対し、指定された文字列である“保守業務”との関連度に加えて、“展示会”との関連度も算出する。そして、UI制御部4は、図13に示すように、会議中の発言のうち、“保守業務”との関連度が高い発言の音声認識結果と併せて、“展示会”との関連度が高い発言の音声認識結果についても、「発言一覧」領域110に時系列で表示させる。また、第1実施形態と同様に、想定認識精度が低いために認識結果が保存されていない発言の認識キーワードの中に“保守業務”や“展示会”が含まれている場合は、その認識キーワードが発言された時間に対応する位置に表示させる。
 なお、「議事メモ」領域120上の文字列と「発言一覧」領域110に表示された発言の音声認識結果との対応関係を明確にするため、例えば、「議事メモ」領域120上の指定された文字列とそれに対応する「発言一覧」領域110上の発言の音声認識結果の背景を同色に色づけして表示するとともに、「議事メモ」領域120上のテキスト構造に基づいて選択された文字列とそれに対応する「発言一覧」領域110上の発言の音声認識結果の背景を同色に色づけして表示するといった方法を用いることが望ましい。図13のUI画面100の例では、「議事メモ」領域120上の“保守業務”が記入された行と、「発言一覧」領域110の“保守業務”対応する発言の音声認識結果および認識キーワードが同色の背景上で表示され、「議事メモ」領域120上の“展示会”が記入された行と、「発言一覧」領域110の“展示会”対応する発言の音声認識結果が同色の背景上で表示されている。
 以上説明したように、本実施形態では、ユーザにより指定された文字列に対応する発言の音声認識結果だけでなく、その文字列の上位の見出し語などに対応する発言の音声認識結果も提示するので、例えば議事メモ作成などのユーザの作業をより適切に支援することができる。
<第4実施形態>
 次に、第4実施形態について説明する。本実施形態は、想定認識精度の設定において、収録マイク種別だけでなく、いくつかの録音環境データを用意しておき、会議、ユーザごとに個別の設定を行う例である。発言提示装置1の基本的な構成や動作は第1実施形態と同様であるため、以下では第1実施形態と共通部分については重複した説明を省略し、第1実施形態との相違点のみを説明する。
 図14は、本実施形態の発言提示装置1の構成例を示すブロック図である。図1に示した第1実施形態の発言提示装置1の構成との違いは、録音環境データ17が追加され、音声認識部3が、この録音環境データ17を参照して各発言の推定認識精度を設定している点である。録音環境データ17では、収録マイク種別のほかに、特定のユーザの発言であるか、特定の場所で収録した発言であるか、収録した発言の音声に対して後処理を行ったかなどの条件ごとに、想定認識精度が定められている。
 図15は、録音環境データ17の具体例を示す図である。録音環境データ17は、例えば図15に示すように、個々のデータに付与された固有のデータIDと、収録マイク種別と、発言ユーザのユーザIDと、発言が収録された場所と、後処理の有無と、想定認識精度とを対応付けた形式とされる。図15の録音環境データ17の例において、内容が“*”となっている項目は、発言ユーザや発言が収録された場所を特定しない設定を示している。“話者照合”は、集音マイク40を用いて収録された音声を、各話者の音声の音響的な特徴を用いてそれぞれの話者ごとに分離する後処理を示している。なお、図15の形式は一例であり、録音環境データ17として他の情報を含んでいてもよい。
 本実施形態の音声認識部3は、発言認識データ14の想定認識精度を設定する際に、以上のような録音環境データ17を利用する。各発言がどの条件に該当するかは、会議登録時に会議設定画面を用いて登録された会議に関する会議データ12や、その会議中に収録された発言の発言データ13などを用いて特定される。
 図16は、会議設定画面の一例を示す図である。この図16に示す会議設定画面200には、会議のタイトルを入力するためのテキストボックス201、会議が行われる場所(発言が収録される場所)を入力するためのテキストボックス202、会議の出席者(会議参加者)を入力するためのテキストボックス203、およびその出席者の発言の収録に用いるマイクの種別(収録マイク種別)を入力するためのテキストボックス204が設けられている。
 図16の会議設定画面200の例では、会議が行われる場所(発言が収録される場所)が“サーバ室”であることが示されている。このため、図15に例示した録音環境データ17のうち、データIDが“4_d”の条件に該当し、想定認識精度は“60%”に設定される。これは、サーバ室のように騒音の多い環境で収録された発言の音声認識精度は、騒音の少ない環境で収録された発言の音声認識精度よりも低くなることが想定されるため、個別マイクを用いて収録された発言の想定認識精度が80%から60%に下がることを示している。
 なお、録音環境データ17に含まれる複数のデータの条件に合致する場合は、これら複数のデータで示される想定認識精度のうち、最も低い想定認識精度が設定される。例えば、図16の会議設定画面200の例では、ユーザIDが“2_u”の“大島”が会議に出席することが示されているため、この会議における“大島”の発言については、図15に例示した録音環境データ17のうち、データIDが“3_d”の条件と、データIDが“4_d”の条件との双方に合致する。この場合、データIDが“3_d”の想定認識精度である90%と、データIDが“4_d”の想定認識精度である60%とを比較し、低い方の60%が“大島”の発言の想定認識精度として設定される。
 以上説明したように、本実施形態では、収録マイク種別だけでなく、発言の収録に関わる様々な条件を考慮して想定認識精度を設定するので、想定認識精度をより精度よく設定することができる。
 なお、以上のように設定される想定認識精度は、第1実施形態で説明したように、発言認識データ14として認識結果を保存するか否かの判定に用いることに加えて、UI制御部4がUI画面100の「発言一覧」領域110に認識結果を表示させる対象となる発言を選択するために用いることもできる。すなわち、UI制御部4は、関連度算出部5により算出された指定された文字列との関連度に加えて、音声認識部3により設定された想定認識精度を用いて、「発言一覧」領域110に認識結果を表示させる対象となる発言を選択するようにしてもよい。
 具体的には、UI制御部4は、例えば、第1実施形態や第2実施形態で説明した算出方法で関連度算出部5が算出した関連度に対し、音声認識部3が設定した想定認識精度を乗算した値を各発言のスコアとして求め、得られたスコアが大きい順に各発言をソートして、上位の所定数の発言を表示対象として選択する。そして、UI制御部4は、表示対象として選択した発言の音声認識結果を、その発言の発生順に応じた時系列で、UI画面100の「発言一覧」領域110に表示させる。これにより、指定された文字列との関連度が高い発言の中でも特に想定認識精度が高い発言を優先してユーザに提示することができる。なお、音声認識精度が極端に低い発言については、指定された文字列と一致する認識キーワードの表示を行わないようにしてもよい。
<補足説明>
 以上、実施形態の発言提示装置として、会議中の発言を記録して、ユーザにより指定された任意の文字列に対応する発言を提示する構成の発言提示装置1を例示したが、実施形態の発言提示装置は会議中の発言に限らず、音声による様々な発言を記録して、ユーザにより指定された任意の文字列に対応する発言を提示する装置として構成することができる。
 以上説明した実施形態の発言提示装置1における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
 図17は、発言提示装置1のハードウェア構成の一例を概略的に示すブロック図である。実施形態の発言提示装置1は、図17に示すように、CPUなどのプロセッサ51と、RAMなどの主記憶装置52と、各種の記憶装置を用いた補助記憶装置53と、通信インタフェース54と、これらの各部を接続するバス55とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶装置53は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
 実施形態の発言提示装置1の各機能的な構成要素(発言記録部2、音声認識部3、UI制御部4および関連性算出部5)は、例えば、プロセッサ51が、主記憶装置52を利用して、補助記憶装置53に格納されたプログラムを実行することによって実現される。データ蓄積部10は、例えば、補助記憶装置53を用いて実現される。
 プロセッサ51により実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
 また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のROM(補助記憶装置53)などに予め組み込んで提供するように構成してもよい。
 このプログラムは、実施形態の発言提示装置1の機能的な構成要素を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ51が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶装置52上にロードされ、上記の各構成要素が主記憶装置52上に生成されるようになっている。なお、実施形態の発言提示装置1の機能的な構成要素は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
 以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (17)

  1.  音声による発言を記録する発言記録部と、
     記録された発言を音声認識する音声認識部と、
     音声認識された各発言に対し、第1表示領域と第2表示領域とを有するUI画面の前記第2表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する関連度算出部と、
     前記関連度の高さに基づいて選択された発言の音声認識結果を、前記UI画面の前記第1表示領域に表示させるUI制御部と、を備える発言提示装置。
  2.  前記UI制御部は、前記選択された発言の音声認識結果を、発言の発生順に応じた時系列で前記第1表示領域に表示させる、請求項1に記載の発言提示装置。
  3.  前記UI制御部は、音声の入力方式に基づいて想定される音声認識の精度が所定の基準を満たす発言であって、前記関連度の高さに基づいて選択された発言の音声認識結果を、前記第1表示領域に表示させる、請求項1または2に記載の発言提示装置。
  4.  前記UI制御部は、前記精度が前記基準を満たさない発言の音声認識結果の候補に含まれる単語のうち、前記指定された文字列の少なくとも一部を含む単語を、前記選択された発言の音声認識結果とともに前記第1表示領域に表示させる、請求項3に記載の発言提示装置。
  5.  前記UI制御部は、前記第1表示領域における前記単語の表示位置を、該単語に対応する音声の発生時刻に基づいて決定する、請求項4に記載の発言提示装置。
  6.  前記精度は、音声の入力方式に加えてさらに、音声の入力環境および音声の後処理の有無の少なくとも一方に基づいて想定される、請求項3乃至5のいずれか一項に記載の発言提示装置。
  7.  前記UI制御部は、前記関連度の高さと前記精度とに基づいて選択された発言の音声認識結果を、前記第1表示領域に表示させる、請求項3乃至6のいずれか一項に記載の発言提示装置。
  8.  前記指定された文字列は、前記第2表示領域に対するユーザの操作に基づいて指定された文字列である、請求項1乃至7のいずれか一項に記載の発言提示装置。
  9.  前記関連度算出部は、音声認識された各発言に対し、前記指定された文字列との関連度と、前記第2表示領域に表示されている文字列の構造に基づいて選択された文字列との関連度とを各々算出し、
     前記UI制御部は、前記指定された文字列との関連度の高さに基づいて選択された発言の音声認識結果と、前記選択された文字列との関連度の高さに基づいて選択された発言の音声認識結果とを、前記第1表示領域に表示させる、請求項1乃至8のいずれか一項に記載の発言提示装置。
  10.  前記UI制御部は、前記第1表示領域に表示された音声認識結果を指定する操作に応じて、該音声認識結果に対応する発言の音声を再生させる、請求項1乃至9のいずれか一項に記載の発言提示装置。
  11.  前記関連度算出部は、前記指定された文字列の少なくとも一部が、発言の音声認識結果または該音声認識結果の候補に含まれるか否かに基づいて、前記指定された文字列に対する該発言の前記関連度を算出する、請求項1乃至10のいずれか一項に記載の発言提示装置。
  12.  前記関連度算出部は、前記指定された文字列について、該文字列に含まれる各単語にtf-idfを用いた重みを付加した単語の出現ベクトルを生成するとともに、音声認識された各発言について、発言の音声認識結果に含まれる各単語にtf-idfを用いた重みを付加した単語の出現ベクトルを生成し、各発言について生成した単語の出現ベクトルと、前記指定された文字列について生成した単語の出現ベクトルとのコサイン類似度に基づいて、前記指定された文字列に対する各発言の前記関連度を算出する、請求項1乃至10のいずれか一項に記載の発言提示装置。
  13.  前記関連度を算出する対象となる発言を対象発言とし、該対象発言に対して発生時刻が近い所定数の発言をそれぞれ近傍発言としたときに、前記関連度算出部は、前記対象発言について生成した単語の出現ベクトルと、前記指定された文字列について生成した単語の出現ベクトルとのコサイン類似度に対し、前記近傍発言について生成した単語の出現ベクトルと、前記指定された文字列について生成した単語の出現ベクトルとのコサイン類似度を加算して、前記関連度を算出する、請求項12に記載の発言提示装置。
  14.  前記関連度算出部は、前記指定された文字列について、該文字列のトピックを表す単語と該単語の重みの列からなるベクトルを生成するとともに、音声認識された各発言について、該発言のトピック表す単語と該単語の重みの列からなるベクトルを生成し、各発言について生成したベクトルと、前記指定された文字列について生成したベクトルとのコサイン類似度に基づいて、前記指定された文字列に対する各発言の前記関連度を算出する、請求項1乃至10のいずれか一項に記載の発言提示装置。
  15.  前記関連度を算出する対象となる発言を対象発言とし、該対象発言に対して発生時刻が近い所定数の発言をそれぞれ近傍発言としたときに、前記関連度算出部は、前記対象発言について生成したベクトルと、前記指定された文字列について生成したベクトルとのコサイン類似度に対し、前記近傍発言について生成したベクトルと、前記指定された文字列について生成したベクトルとのコサイン類似度を加算して、前記関連度を算出する、請求項14に記載の発言提示装置。
  16.  発言提示装置により実行される発言提示方法であって、
     音声による発言を記録するステップと、
     記録された発言を音声認識するステップと、
     音声認識された各発言に対し、第1表示領域と第2表示領域とを有するUI画面の前記第2表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出するステップと、
     前記関連度の高さに基づいて選択された発言の音声認識結果を、前記UI画面の前記第1表示領域に表示させるステップと、を含む発言提示方法。
  17.  コンピュータに、
     音声による発言を記録する機能と、
     記録された発言を音声認識する機能と、
     音声認識された各発言に対し、第1表示領域と第2表示領域とを有するUI画面の前記第2表示領域に表示されている文字列のうち指定された文字列との関連度を各々算出する機能と、
     前記関連度の高さに基づいて選択された発言の音声認識結果を、前記UI画面の前記第1表示領域に表示させる機能と、を実現させるためのプログラム。
PCT/JP2015/061269 2015-04-10 2015-04-10 発言提示装置、発言提示方法およびプログラム WO2016163028A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201580077752.0A CN107430851B (zh) 2015-04-10 2015-04-10 发言提示装置及发言提示方法
JP2017511439A JP6618992B2 (ja) 2015-04-10 2015-04-10 発言提示装置、発言提示方法およびプログラム
PCT/JP2015/061269 WO2016163028A1 (ja) 2015-04-10 2015-04-10 発言提示装置、発言提示方法およびプログラム
US15/693,520 US10347250B2 (en) 2015-04-10 2017-09-01 Utterance presentation device, utterance presentation method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/061269 WO2016163028A1 (ja) 2015-04-10 2015-04-10 発言提示装置、発言提示方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/693,520 Continuation US10347250B2 (en) 2015-04-10 2017-09-01 Utterance presentation device, utterance presentation method, and computer program product

Publications (1)

Publication Number Publication Date
WO2016163028A1 true WO2016163028A1 (ja) 2016-10-13

Family

ID=57071837

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/061269 WO2016163028A1 (ja) 2015-04-10 2015-04-10 発言提示装置、発言提示方法およびプログラム

Country Status (4)

Country Link
US (1) US10347250B2 (ja)
JP (1) JP6618992B2 (ja)
CN (1) CN107430851B (ja)
WO (1) WO2016163028A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042471A (ja) * 2018-09-10 2020-03-19 Zホールディングス株式会社 情報共有支援装置、情報共有支援方法、およびプログラム
JP2020125848A (ja) * 2020-04-07 2020-08-20 株式会社クボタ 作業機の油圧システム
JP2021015189A (ja) * 2019-07-11 2021-02-12 中部電力株式会社 マルチモーダル音声認識装置およびマルチモーダル音声認識方法
JP2021067830A (ja) * 2019-10-24 2021-04-30 日本金銭機械株式会社 議事録作成システム
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
JP7215770B1 (ja) 2021-09-30 2023-01-31 エピックベース株式会社 情報処理システム、プログラム及び情報処理方法
US11636253B2 (en) 2020-10-07 2023-04-25 Naver Corporation Method, system, and non-transitory computer readable recording medium for writing memo for audio file through linkage between app and web
WO2023181099A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 聴音支援装置、聴音支援方法、及びコンピュータ読み取り可能な記録媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6631501B2 (ja) * 2016-12-27 2020-01-15 京セラドキュメントソリューションズ株式会社 議事録作成システム
CN108509416B (zh) * 2018-03-20 2022-10-11 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
KR102427213B1 (ko) * 2020-09-23 2022-08-01 네이버 주식회사 음성 파일에 대한 텍스트 변환 기록과 메모를 함께 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
TWI807428B (zh) * 2020-09-23 2023-07-01 南韓商納寶股份有限公司 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010238050A (ja) * 2009-03-31 2010-10-21 Nec Corp 閲覧システム、方法、およびプログラム
JP2014174465A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 情報処理装置及び情報処理方法並びにプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040064322A1 (en) * 2002-09-30 2004-04-01 Intel Corporation Automatic consolidation of voice enabled multi-user meeting minutes
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
CN1773536A (zh) * 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
JP2006268800A (ja) * 2005-03-25 2006-10-05 Fuji Xerox Co Ltd 議事録作成支援装置、議事録作成支援方法及びプログラム
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
US20070129942A1 (en) * 2005-12-01 2007-06-07 Ban Oliver K Visualization and annotation of the content of a recorded business meeting via a computer display
US7296218B2 (en) * 2006-02-08 2007-11-13 Dittrich William A Instant note capture/presentation apparatus, system and method
JP2008140089A (ja) * 2006-11-30 2008-06-19 Fuji Xerox Co Ltd 情報管理装置、会議システム及びプログラム
JP2008172582A (ja) * 2007-01-12 2008-07-24 Ricoh Co Ltd 議事録作成再生装置
WO2010073591A1 (ja) * 2008-12-26 2010-07-01 日本電気株式会社 テキスト処理装置、テキスト処理方法、及びコンピュータ読み取り可能な記録媒体
JP5271837B2 (ja) * 2009-07-24 2013-08-21 京セラドキュメントソリューションズ株式会社 インクジェット記録装置
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
US8553065B2 (en) * 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US10629188B2 (en) * 2013-03-15 2020-04-21 International Business Machines Corporation Automatic note taking within a virtual meeting
JP6229403B2 (ja) * 2013-09-26 2017-11-15 日本電気株式会社 議事録作成補助装置、電子会議装置および電子会議システム
JP6242773B2 (ja) 2014-09-16 2017-12-06 株式会社東芝 会議情報蓄積装置、方法およびプログラム
TWI590240B (zh) * 2014-12-30 2017-07-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
TWI619115B (zh) * 2014-12-30 2018-03-21 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
CN104462600B (zh) * 2014-12-31 2018-04-17 科大讯飞股份有限公司 实现来电原因自动分类的方法及装置
US9703771B2 (en) * 2015-03-01 2017-07-11 Microsoft Technology Licensing, Llc Automatic capture of information from audio data and computer operating context

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010238050A (ja) * 2009-03-31 2010-10-21 Nec Corp 閲覧システム、方法、およびプログラム
JP2014174465A (ja) * 2013-03-12 2014-09-22 Ricoh Co Ltd 情報処理装置及び情報処理方法並びにプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042471A (ja) * 2018-09-10 2020-03-19 Zホールディングス株式会社 情報共有支援装置、情報共有支援方法、およびプログラム
JP2021015189A (ja) * 2019-07-11 2021-02-12 中部電力株式会社 マルチモーダル音声認識装置およびマルチモーダル音声認識方法
JP7414231B2 (ja) 2019-07-11 2024-01-16 中部電力株式会社 マルチモーダル音声認識装置およびマルチモーダル音声認識方法
JP2021067830A (ja) * 2019-10-24 2021-04-30 日本金銭機械株式会社 議事録作成システム
JP2020125848A (ja) * 2020-04-07 2020-08-20 株式会社クボタ 作業機の油圧システム
JP6953597B1 (ja) * 2020-09-17 2021-10-27 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
JP2022049784A (ja) * 2020-09-17 2022-03-30 ベルフェイス株式会社 情報処理装置、プログラム及び情報処理方法
US11636253B2 (en) 2020-10-07 2023-04-25 Naver Corporation Method, system, and non-transitory computer readable recording medium for writing memo for audio file through linkage between app and web
JP7215770B1 (ja) 2021-09-30 2023-01-31 エピックベース株式会社 情報処理システム、プログラム及び情報処理方法
WO2023053940A1 (ja) * 2021-09-30 2023-04-06 エピックベース株式会社 情報処理システム、プログラム及び情報処理方法
JP2023051656A (ja) * 2021-09-30 2023-04-11 エピックベース株式会社 情報処理システム、プログラム及び情報処理方法
WO2023181099A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 聴音支援装置、聴音支援方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
CN107430851B (zh) 2021-01-12
US10347250B2 (en) 2019-07-09
US20170365258A1 (en) 2017-12-21
CN107430851A (zh) 2017-12-01
JPWO2016163028A1 (ja) 2018-02-01
JP6618992B2 (ja) 2019-12-11

Similar Documents

Publication Publication Date Title
JP6618992B2 (ja) 発言提示装置、発言提示方法およびプログラム
JP5671557B2 (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
JP4924950B2 (ja) 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
US8983836B2 (en) Captioning using socially derived acoustic profiles
JP5123591B2 (ja) 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
US20200137224A1 (en) Comprehensive log derivation using a cognitive system
JPWO2008050649A1 (ja) コンテンツ要約システムと方法とプログラム
JP6737398B2 (ja) 重要単語抽出装置、関連会議抽出システム、及び重要単語抽出方法
US20160189107A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
JP2015121864A (ja) コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
JP2019028910A (ja) 対話分析システムおよび対話分析プログラム
JP5030868B2 (ja) 会議音声録音システム
KR20190065194A (ko) 회의록 열람 문서 생성 방법 및 그 장치
CN111223487B (zh) 一种信息处理方法及电子设备
JP6254504B2 (ja) 検索サーバ、及び検索方法
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
US10540987B2 (en) Summary generating device, summary generating method, and computer program product
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021117759A (ja) テキスト情報編集装置及びテキスト情報編集方法
JP2005025571A (ja) 業務支援装置、業務支援方法およびそのプログラム
JP7211384B2 (ja) 音声認識装置、個人識別方法および個人識別プログラム
JP7304269B2 (ja) 書き起こし支援方法及び書き起こし支援装置
JPWO2018097181A1 (ja) 知識構築活用システムおよびプログラム
JP2014110002A (ja) カテゴリ決定装置及びカテゴリ決定方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15888520

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017511439

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15888520

Country of ref document: EP

Kind code of ref document: A1