WO2023013060A1 - 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 - Google Patents

情報処理システム、情報処理装置、情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2023013060A1
WO2023013060A1 PCT/JP2021/029412 JP2021029412W WO2023013060A1 WO 2023013060 A1 WO2023013060 A1 WO 2023013060A1 JP 2021029412 W JP2021029412 W JP 2021029412W WO 2023013060 A1 WO2023013060 A1 WO 2023013060A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
information
information processing
processing system
feature amount
Prior art date
Application number
PCT/JP2021/029412
Other languages
English (en)
French (fr)
Inventor
芳紀 幸田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/029412 priority Critical patent/WO2023013060A1/ja
Priority to JP2023539570A priority patent/JPWO2023013060A1/ja
Publication of WO2023013060A1 publication Critical patent/WO2023013060A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Definitions

  • This disclosure relates to the technical fields of information processing systems, information processing apparatuses, information processing methods, and recording media.
  • Patent Literature 1 discloses a technique for detecting keyword speech, which is speech in which a predetermined keyword is uttered from input speech.
  • Patent Literature 2 discloses a technique of creating a keyword list and extracting important words from voice information.
  • Patent Literature 3 discloses a technique for extracting a keyword used to identify a user's interest from voice-recognized input content.
  • Patent Literature 4 discloses a technique for generating keywords from character information generated by voice recognition.
  • Patent Document 5 discloses a technique for generating a user's voiceprint based on information about the behavior of the user's vocal tract and the user's speaking pattern.
  • the purpose of this disclosure is to improve the technology disclosed in prior art documents.
  • acquisition means for acquiring conversation data including voice information of a plurality of people, keyword extraction means for extracting a keyword from the voice information, and uttering the keyword from the voice information.
  • a feature amount extracting means for extracting a first feature amount, which is a feature amount related to actual speech, and a generation means for generating collation information in which the keyword and the first feature amount are associated with each other.
  • One aspect of the information processing apparatus disclosed herein is acquisition means for acquiring conversation data including voice information of a plurality of people, keyword extraction means for extracting a keyword from the voice information, and uttering the keyword from the voice information.
  • a feature amount extracting means for extracting a first feature amount, which is a feature amount related to actual speech, and a generation means for generating collation information in which the keyword and the first feature amount are associated with each other.
  • One aspect of the information processing method of this disclosure is an information processing method executed by at least one computer, which acquires conversation data including voice information of a plurality of people, extracts a keyword from the voice information, extracts a keyword from the voice information, A first feature amount, which is a feature amount related to speech when the keyword is uttered, is extracted from the information, and matching information is generated in which the keyword and the first feature amount are associated.
  • One aspect of the recording medium of this disclosure acquires conversation data including voice information of a plurality of people in at least one computer, extracts a keyword from the voice information, and utters the keyword from the voice information.
  • a computer program is recorded for executing an information processing method for extracting a first feature amount, which is a feature amount related to speech, and generating matching information that associates the keyword with the first feature amount.
  • FIG. 2 is a block diagram showing the hardware configuration of the information processing system according to the first embodiment
  • FIG. 1 is a block diagram showing a functional configuration of an information processing system according to a first embodiment
  • FIG. 4 is a flow chart showing the flow of information generation operation by the information processing system according to the first embodiment
  • It is a block diagram which shows the functional structure of the information processing system which concerns on 2nd Embodiment.
  • 9 is a flowchart showing the flow of information generation operation by the information processing system according to the second embodiment
  • FIG. 14 is a conceptual diagram showing a specific example of speaker classification by the information processing system according to the third embodiment
  • FIG. 12 is a conceptual diagram showing a specific example of speaker aggregation by the information processing system according to the third embodiment
  • FIG. 12 is a conceptual diagram showing a specific example of keyword extraction by the information processing system according to the third embodiment; It is a table showing an example of a storage mode of keywords in the information processing system according to the third embodiment.
  • FIG. 12 is a block diagram showing a functional configuration of an information processing system according to a fourth embodiment;
  • FIG. FIG. 16 is a flow chart showing the flow of permission determination operation by the information processing system according to the fourth embodiment;
  • FIG. FIG. 11 is a plan view showing a presentation example by an information processing system according to a fourth embodiment;
  • FIG. 11 is a plan view showing a display example of files handled by an information processing system according to the fourth embodiment;
  • FIG. 12 is a block diagram showing a functional configuration of an information processing system according to a fifth embodiment;
  • FIG. 16 is a flow chart showing the flow of permission determination operation of the information processing system according to the fifth embodiment;
  • FIG. FIG. 21 is a plan view showing an example of keyword display change by the information processing system according to the fifth embodiment;
  • FIG. 12 is a block diagram (Part 1) showing an application application example of the information processing system according to the sixth embodiment;
  • FIG. 21 is a block diagram (part 2) showing an application application example of the information processing system according to the sixth embodiment;
  • FIG. 21 is a block diagram (No. 3) showing an application application example of the information processing system according to the sixth embodiment;
  • FIG. 21 is a plan view showing a display example by the information processing system 10 according to the seventh embodiment;
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 3.
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 3.
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 3.
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 3.
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 3.
  • FIG. 1 is a block diagram showing the hardware configuration of an information processing system according to the first embodiment.
  • an information processing system 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device .
  • Information processing system 10 may further include an input device 15 and an output device 16 .
  • the processor 11 , RAM 12 , ROM 13 , storage device 14 , input device 15 and output device 16 are connected via a data bus 17 .
  • the processor 11 reads a computer program.
  • processor 11 is configured to read a computer program stored in at least one of RAM 12, ROM 13 and storage device .
  • the processor 11 may read a computer program stored in a computer-readable recording medium using a recording medium reader (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the information processing system 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15 and the output device 16 by executing the read computer program.
  • functional blocks for extracting keywords from conversation data and generating information are realized in the processor 11 .
  • the processor 11 may be configured as, for example, a CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field-Programmable Gate Array), DSP (Demand-Side Platform), and ASIC (Application Specific Integrate).
  • the processor 11 may be configured with one of these, or may be configured to use a plurality of them in parallel.
  • the RAM 12 temporarily stores computer programs executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing the computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores computer programs executed by the processor 11 .
  • the ROM 13 may also store other fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data that the information processing system 10 saves for a long period of time.
  • Storage device 14 may act as a temporary storage device for processor 11 .
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from the user of the information processing system 10 .
  • Input device 15 may include, for example, at least one of a keyboard, mouse, and touch panel.
  • the input device 15 may be configured as a mobile terminal such as a smart phone or a tablet.
  • the output device 16 is a device that outputs information about the information processing system 10 to the outside.
  • the output device 16 may be a display device (eg, display) capable of displaying information regarding the information processing system 10 .
  • the output device 16 may be a speaker or the like capable of outputting information about the information processing system 10 by voice.
  • the output device 16 may be configured as a mobile terminal such as a smart phone or a tablet.
  • FIG. 1 illustrates an example of the information processing system 10 including a plurality of devices, but all or part of these functions may be realized by one device (information processing device).
  • This information processing apparatus is configured with, for example, only the processor 11, RAM 12, and ROM 13 described above, and the other components (that is, the storage device 14, the input device 15, and the output device 16) are It may be provided in an external device to be connected. Also, the information processing device may implement a part of the arithmetic function by an external device (for example, an external server, a cloud, etc.).
  • an external device for example, an external server, a cloud, etc.
  • FIG. 2 is a block diagram showing the functional configuration of the information processing system according to the first embodiment.
  • the information processing system 10 includes a conversation data acquisition unit 110, a keyword extraction unit 120, a feature amount extraction unit 130, and and a matching information generation unit 140 .
  • Each of the conversation data acquisition unit 110, the keyword extraction unit 120, the feature amount extraction unit 130, and the matching information generation unit 140 may be processing blocks implemented by the processor 11 (see FIG. 1) described above, for example.
  • the conversation data acquisition unit 110 acquires conversation data including voice information of multiple people.
  • Conversation data acquisition unit 110 may acquire, for example, direct sound conversation data from a microphone or the like, or may acquire conversation data generated by another device or the like.
  • An example of conversation data is conference data obtained by recording conference voices.
  • the conversation data acquisition unit 110 may be configured to be able to execute various processes on the acquired conversation data. For example, the conversation data acquisition unit 110 performs a process of detecting a section in which a speaker is speaking in the conversation data, a process of recognizing the speech of the conversation data and converting it into text, and a process of classifying the speaker who is speaking. It may be configured to be executable.
  • the keyword extraction unit 120 extracts keywords included in the utterance content from the voice information of the conversation data acquired by the conversation data acquisition unit 110 .
  • the keyword extraction unit 120 may randomly extract keywords from the words included in the audio information, or may extract predetermined words as keywords. Further, the keyword extraction unit 120 may determine keywords to be extracted according to the contents of the conversation data. For example, the keyword extraction unit 120 may extract words that appear frequently in conversation data (for example, words that have been uttered a predetermined number of times or more) as keywords. Keyword extraction unit 120 may extract a plurality of keywords from one piece of conversation data. The keyword extraction unit 120 may extract at least one keyword for each of the multiple persons.
  • the feature amount extraction unit 130 is configured to be able to extract a feature amount (hereinafter referred to as a "first feature amount" as appropriate) related to speech when the keyword extracted by the keyword extraction unit 120 is uttered.
  • a feature amount hereinafter referred to as a "first feature amount” as appropriate
  • the feature amount extraction unit 130 may extract feature amounts for all the keywords, or may extract feature amounts only for some of the keywords. . Note that existing techniques can be appropriately adopted for the method of extracting the feature amount related to speech, so detailed description thereof will be omitted here.
  • the matching information generation unit 140 is configured to generate matching information by associating the keyword extracted by the keyword extraction unit 120 with the first feature amount extracted by the feature amount extraction unit 130 .
  • the matching information generating unit 140 associates the first keyword with the feature amount related to the voice when the first keyword is uttered, and the second keyword and the voice when the second keyword is uttered. may be associated with each other.
  • the collation information generated by the collation information generation unit 140 is used for voice collation of a plurality of people who have participated in the conversation. A specific method of using the collation information will be described in detail in another embodiment described later.
  • FIG. 3 is a flow chart showing the flow of information processing operations by the information processing system according to the first embodiment.
  • the conversation data acquisition unit 110 first acquires conversation data including voice information of a plurality of people (step S101). Then, the conversation data acquisition unit 110 executes processing for detecting a section in which the speaker is speaking in the conversation data (hereinafter referred to as "section detection processing" as appropriate) (step S102).
  • section detection processing may be, for example, a process of detecting and trimming silent sections.
  • the conversation data acquisition unit 110 performs processing for classifying speakers (hereinafter referred to as “speaker classification processing” as appropriate) from the conversation data on which the section detection process has been executed (that is, voice information of the section in which the user is speaking). ) is executed (step S103).
  • the speaker classification process may be, for example, a process of assigning a label according to the speaker to each section of conversation data.
  • the conversation data acquiring unit 110 performs speech recognition on the conversation data on which the section detection processing has been performed and converts it into text (hereinafter, appropriately referred to as “speech recognition processing”) (step S104).
  • speech recognition processing As for a specific method of speech recognition processing, an existing technique can be appropriately adopted, so a detailed description thereof will be omitted here. Note that the speech recognition process and the above-described speaker classification process may be executed in parallel, or may be executed in sequence.
  • the keyword extraction unit 120 extracts keywords from the conversation data (that is, text data) on which the speech recognition processing has been performed (step S105).
  • the keyword extraction unit 120 may extract keywords using the result of the speaker classification process (for example, by distinguishing between speakers).
  • the keyword extracting unit 120 may distinguish and extract words that are written in the same kanji but have different readings. For example, in the case of the kanji character "ichi”, the kanji read as “ichi” and the kanji read as "hitotsu” may be extracted separately.
  • the feature amount extraction unit 130 extracts the feature amount (that is, the first feature amount) related to the speech when the keyword extracted by the keyword extraction unit 120 is uttered (step S106). Then, the matching information generation unit 140 generates matching information by associating the keyword extracted by the keyword extraction unit 120 with the first feature amount extracted by the feature amount extraction unit 130 (step S107).
  • the keyword extracted from the conversation data and the feature amount related to the speech are associated and collated. information is generated.
  • matching information can be appropriately generated from conversation data containing voice information of a plurality of people. Therefore, it is possible to appropriately perform speech collation processing using keywords on a plurality of people who have participated in the conversation.
  • keywords are extracted from the conversation data, so there is no need to separately prepare keywords for use in speech collation processing. Therefore, it is possible to reduce the time and effort required to generate collation information.
  • pre-determined voice keywords When pre-determined voice keywords are reused, there is a risk that they will be handled with maliciously recorded voice or voice synthesis.
  • predetermined keywords keywords can be generated from conversation data
  • keywords are automatically generated from the conversation data, there is no need for pre-registration, and there is no need for users to consciously prepare keywords.
  • this embodiment it is possible to avoid a situation in which a keyword is forgotten while achieving the same accuracy as in the case of preparing a plurality of keywords.
  • FIG. 4 An information processing system 10 according to the second embodiment will be described with reference to FIGS. 4 and 5.
  • FIG. The second embodiment may differ from the above-described first embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first embodiment. Therefore, in the following, portions different from the already described first embodiment will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 4 is a block diagram showing the functional configuration of an information processing system according to the second embodiment.
  • symbol is attached
  • the information processing system 10 includes a conversation data acquisition unit 110, a keyword extraction unit 120, a feature amount extraction unit 130, and It is composed of a matching information generation unit 140 , a feature amount acquisition unit 150 , and a usability determination unit 160 . That is, the information processing system 10 according to the second embodiment further includes a feature amount acquisition unit 150 and a usability determination unit 160 in addition to the configuration of the first embodiment (see FIG. 2). there is Note that each of the feature quantity acquisition unit 150 and the usability determination unit 160 may be a processing block realized by, for example, the above-described processor 11 (see FIG. 1).
  • the feature quantity acquisition unit 150 is configured to be able to acquire a feature quantity (hereinafter appropriately referred to as a "second feature quantity") relating to the voice of at least one of a plurality of people who have participated in the conversation.
  • the feature amount acquisition section 150 may acquire the second feature amount from the conversation data acquired by the conversation data acquisition section 110 .
  • the feature quantity acquisition unit 150 may extract the second feature quantity from the conversation data on which the speaker classification process has been performed.
  • the feature quantity acquisition unit 150 may acquire a second feature quantity prepared in advance. For example, the second feature amount stored in association with the individual IDs of each of the plurality of people who participated in the conversation and the owned terminals may be acquired.
  • the usability determination unit 160 compares the first feature amount extracted by the feature amount extraction unit 130 and the second feature amount acquired by the feature amount acquisition unit 150, and utters a keyword from the first feature amount. It is configured to be able to determine whether or not it is possible to identify the speaker who has spoken. That is, the usability determination unit 160 is configured to be able to determine whether the first feature amount corresponding to the keyword can be used for speech collation.
  • the usability determination unit 160 compares the first feature amount and the second feature amount extracted from the same speaker, and if it can be determined that those speakers are the same person, the first feature amount may be determined to be available for phonetic matching. In addition, the usability determination unit 160 compares the first feature amount and the second feature amount extracted from the same speaker, and if it is determined that those speakers are not the same person, the first feature It may be determined that the quantity is not available for phonetic matching.
  • FIG. 5 is a flow chart showing the flow of information processing operations by the information processing system according to the second embodiment.
  • the same reference numerals are assigned to the same processes as those described in FIG.
  • the conversation data acquisition unit 110 first acquires conversation data including voice information of a plurality of people (step S101). Then, conversation data acquisition section 110 executes a section detection process (step S102).
  • the conversation data acquisition unit 110 performs speaker classification processing on the conversation data on which the section detection processing has been performed (step S103). Then, in the second embodiment, the feature amount acquisition unit 150 acquires the second feature amount from the conversation data on which the speaker classification processing has been executed (step S201). Note that, as already described, the feature amount acquisition unit 150 may acquire the second feature amount from sources other than conversation data.
  • the conversation data acquisition unit 110 executes speech recognition processing on the conversation data on which the section detection processing has been executed (step S104). Then, the keyword extraction unit 120 extracts keywords from the conversation data on which the speech recognition processing has been performed (step S105). At this time, the keyword extraction unit 120 may extract keywords using the result of the speaker classification process (for example, by distinguishing between speakers). After that, the feature amount extraction unit 130 extracts the first feature amount corresponding to the keyword extracted by the keyword extraction unit 120 (step S106).
  • steps S103 and S201 that is, the process on the left side of the flow
  • steps S104, S105, and S106 that is, the process on the right side of the flow
  • the usability determination unit 160 compares the first feature amount extracted by the feature amount extraction unit 130 and the second feature amount acquired by the feature amount acquisition unit 150, It is determined whether or not the speaker who uttered the keyword can be identified from the first feature amount (step S202).
  • the matching information generation unit 140 extracts the keyword extracted by the keyword extraction unit 120, the feature amount Matching information is generated in association with the first feature amount extracted by the extraction unit 130 (step S107).
  • step S107 if it is determined that the speaker who uttered the keyword cannot be specified from the first feature amount (step S202: NO), the process of step S107 described above is omitted. That is, no collation information is generated for a keyword for which it is determined that the speaker cannot be specified.
  • the first feature amount and the second feature amount are compared, and it is determined whether or not speech collation using a keyword is possible. be done. By doing so, it is possible to prevent the matching information from being generated for a keyword that is not suitable for voice matching. Therefore, it is possible to improve the accuracy of speech matching using the matching information.
  • FIG. 6 to 9 An information processing system 10 according to the third embodiment will be described with reference to FIGS. 6 to 9.
  • FIG. The third embodiment describes a specific example of the processing executed in the above-described first and second embodiments, and its configuration and operation are the same as those of the first and second embodiments. you can Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 6 is a conceptual diagram showing a specific example of speaker classification by the information processing system according to the third embodiment.
  • speech recognition data that is, data obtained by converting conversation data into text
  • each section of the speech recognition data may be given a label corresponding to the speaker.
  • labels corresponding to speaker A, speaker B, and speaker C are assigned to each section of the speech recognition data. This makes it possible to recognize which section was spoken by which speaker.
  • FIG. 7 is a conceptual diagram showing a specific example of speaker aggregation by the information processing system according to the third embodiment.
  • speaker classification data that is, speaker-classified data
  • speaker-classified data speaker-classified data
  • FIG. 7 speaker-classified data
  • a section in which any one speaker speaks may be extracted from the speaker classification data.
  • FIG. 7 an example of extracting a segment uttered by speaker A is taken, but in addition to or instead of this, a process of extracting a segment uttered by another speaker is executed. good.
  • FIG. 8 is a conceptual diagram showing a specific example of keyword extraction by the information processing system according to the third embodiment.
  • speaker-aggregated data as shown in FIG. 8 is acquired by the information processing system 10 according to the third embodiment.
  • words that are uttered multiple times in the speaker aggregated data are extracted as keywords.
  • the three bold words “today”, “meeting”, and “save” are uttered multiple times. Therefore, these three words are extracted as keywords.
  • each A process of extracting keywords may be performed.
  • FIG. 9 is a table showing an example of how keywords are stored in the information processing system according to the third embodiment.
  • the keywords extracted by the keyword extraction process may be stored separately for each speaker.
  • the keyword extracted from the utterance period of speaker A is stored as the keyword corresponding to speaker A.
  • the keywords extracted from the utterance period of speaker B are stored as keywords corresponding to speaker B.
  • the keywords extracted from the utterance period of speaker C are stored as keywords corresponding to speaker C.
  • the keywords extracted from the utterance period of speaker D are stored as keywords corresponding to speaker D.
  • FIG. When matching information is generated from these keywords, the matching information may also be stored for each speaker.
  • FIG. 10 An information processing system 10 according to the fourth embodiment will be described with reference to FIGS. 10 to 13.
  • FIG. 10 It should be noted that the fourth embodiment may differ from the above-described first to third embodiments only in a part of configuration and operation, and other parts may be the same as those of the first to third embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 10 is a block diagram showing the functional configuration of an information processing system according to the fourth embodiment.
  • symbol is attached
  • the information processing system 10 includes a conversation data acquisition unit 110, a keyword extraction unit 120, a feature amount extraction unit 130, and It comprises a matching information generation unit 140 , a matching information storage unit 210 , a keyword presentation unit 220 , an authentication feature amount extraction unit 230 , and a permission determination unit 240 . That is, in addition to the configuration of the first embodiment (see FIG. 2), the information processing system 10 according to the fourth embodiment includes a matching information storage unit 210, a keyword presentation unit 220, and an authentication feature amount extraction unit 230. , and a permission determination unit 240 .
  • the collation information storage unit 210 may be implemented by, for example, the storage device 14 described above.
  • each of the keyword presenting unit 220, the authentication feature amount extracting unit 230, and the permission determining unit 240 may be a processing block realized by, for example, the above-described processor 11 (see FIG. 1).
  • the matching information storage unit 210 is configured to be able to store the matching information generated by the matching information generating unit 140 .
  • the verification information storage unit 210 may be configured to store verification information for each speaker participating in the conversation (see FIG. 9).
  • the matching information stored in the matching information storage unit 210 can be read by the keyword presenting unit 220 as appropriate.
  • the keyword presenting unit 220 is configured to be able to present keywords included in the matching information stored in the matching information storage unit 210 to the user who requests a predetermined process for the conversation data.
  • the keyword presenting unit 220 may present keywords using, for example, the output device 16 (see FIG. 1).
  • the keyword presentation unit 220 may present the keyword at the timing when the user performs an operation (for example, right-click, double-click, etc.) for executing a predetermined process.
  • Examples of the predetermined process include a process of opening a conversation data file, a process of decrypting an encrypted conversation data file, and a process of editing a conversation data file.
  • the keyword presentation unit 220 may determine which speaker the user is and then present the keyword corresponding to that speaker.
  • the keyword presenting unit 220 may, for example, determine a speaker based on user input (for example, input of a name, personal ID, etc.) and present a keyword corresponding to the speaker.
  • the keyword presenting section 220 may determine which speaker is using face recognition or the like, and present a keyword corresponding to the speaker.
  • the keyword presenting unit 220 may select and present a keyword to be presented from among the plurality of stored keywords. . Moreover, the keyword presenting unit 220 may join and present a plurality of keywords. In this case, the keyword presenting unit 220 may combine and present a predetermined number of keywords. Alternatively, the keyword presenting unit 220 selects the keywords such that the length of the combined keywords is sufficient to identify the speaker (that is, the length is sufficient for appropriate speech collation). good too. For example, if 1.5 seconds of speech is required to identify a speaker, three concatenated words corresponding to 0.5 seconds may be selected and presented.
  • the authentication feature quantity extraction unit 230 extracts a feature quantity (hereinafter referred to as a "third feature quantity" as appropriate) related to the speech from the content of the user's speech after presenting the keyword (that is, the content of the speech corresponding to the presented keyword). ) can be extracted.
  • the third feature amount is a feature amount that can be collated with the first feature amount (that is, the feature amount stored in association with the keyword as collation information).
  • the permission determination unit 240 compares the first feature value associated with the keyword presented by the keyword presentation unit 220 and the third feature value extracted by the authentication feature value extraction unit 230, and determines whether or not the user should execute a predetermined process. Determine whether or not to permit. Specifically, as a result of matching the first feature amount and the third feature amount, the permission determination unit 240 determines whether the person uttering the keyword in the conversation data and the user requesting the predetermined processing for the conversation data are identified. If it is determined that they are the same person, the user may be permitted to execute the predetermined process. Further, when it is determined that the person who utters the keyword in the conversation data and the user who requests the predetermined process for the conversation data are not the same person, the execution of the predetermined process by the user may be prohibited.
  • FIG. 11 is a flow chart showing the flow of permission determination operation by the information processing system according to the fourth embodiment. Note that the permission determination operation shown in FIG. 11 is performed after the information generation operation described in the first and second embodiments is executed (in other words, while the verification information is generated).
  • the keyword presenting unit 220 reads the matching information stored in the matching information storage unit 210, and presents it to the user. Keywords to be presented are generated (step S401). Then, the keyword presentation unit 220 presents the generated keyword to the user (step S402).
  • the keyword presentation unit 220 may present the keyword contained in the read-out matching information as it is. Moreover, when there are a plurality of keywords to be presented to the user, the keyword presenting unit 220 may join the keywords included in the read information for comparison and present them. A specific example of keyword presentation will be described later in detail.
  • the authentication feature quantity extraction unit 230 acquires the user's utterance data (specifically, voice information acquired by the user's utterance to which the keyword is presented) (step S403). Then, the authentication feature quantity extraction unit 230 extracts the third feature quantity from the acquired speech data (step S404).
  • the permission determination unit 240 compares the first feature amount corresponding to the presented keyword with the third feature amount extracted by the authentication feature amount extraction unit 230, and executes authentication processing (step S405). .
  • the permission determination unit 240 permits the user to execute the predetermined process (step S406).
  • the permission determination unit 240 does not permit the user to execute the predetermined process (step S407).
  • FIG. 12 is a plan view showing a presentation example by the information processing system according to the fourth embodiment.
  • the keyword presenting unit 220 may present the keyword to the user by displaying the keyword on the display.
  • the keyword may be displayed to prompt the user to speak the keyword.
  • the presentation of the keyword may be performed by voice.
  • the keywords and messages displayed in FIG. 12 may be voice-output using a speaker or the like.
  • a message such as "Select one keyword from the following keywords and speak.” may be displayed.
  • the order may or may not be fixed. Specifically, when three keywords of "today”, “meeting”, and “save” are presented to the user, the user utters in the order of "today”, “meeting”, and “save” (that is, the displayed order).
  • the authentication may be successful only when the can be
  • FIG. 13 is a plan view showing a display example of files handled by the information processing system according to the fourth embodiment.
  • data files handled by the information processing system 10 according to the fourth embodiment may be displayed with voice icons.
  • the user who requests the predetermined processing for the conversation data can intuitively grasp the authentication method.
  • a predetermined process it is determined whether or not a predetermined process can be executed on conversation data based on the contents of the user's utterance when the keyword is presented. In this way, it is possible to appropriately determine whether or not the user requesting the predetermined process has the authority to execute the predetermined process. In other words, it is possible to appropriately determine whether or not the user is the person participating in the conversation. Therefore, it is possible to prevent the predetermined process from being executed by a third party who has not participated in the conversation.
  • a method of permitting a predetermined process by speaking for example, a method of preparing fixed phrases in advance is conceivable, but there is a risk of eavesdropping when speaking.
  • the keyword may be changed each time, but it takes time and effort, and there is a possibility that the keyword may be forgotten.
  • a keyword extracted from conversation data can be presented, and predetermined processing can be permitted by uttering the keyword, so all of the above-described problems can be resolved. .
  • FIG. 14 to 16 An information processing system 10 according to the fifth embodiment will be described with reference to FIGS. 14 to 16.
  • FIG. The fifth embodiment may differ from the above-described fourth embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first to fourth embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 14 is a block diagram showing the functional configuration of an information processing system according to the fifth embodiment.
  • symbol is attached
  • the information processing system 10 includes a conversation data acquisition unit 110, a keyword extraction unit 120, a feature amount extraction unit 130, and It comprises a matching information generation unit 140, a matching information storage unit 210, a keyword presentation unit 220, an authentication feature amount extraction unit 230, a permission determination unit 240, and a keyword change unit 250. . That is, the information processing system 10 according to the fifth embodiment further includes a keyword changing unit 250 in addition to the configuration of the fourth embodiment (see FIG. 10). Note that the keyword changing unit 250 may be a processing block implemented by the above-described processor 11 (see FIG. 1), for example.
  • the keyword change unit 250 is configured to be able to change the keywords presented by the keyword presentation unit 220. Specifically, keyword changing unit 250 is configured to be able to change the keyword presented by keyword presenting unit 220 when permission determining unit 240 does not permit execution of a predetermined process on conversation data.
  • FIG. 15 is a flow chart showing the flow of permission determination operation by the information processing system according to the fifth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the keyword presenting unit 220 reads the matching information stored in the matching information storage unit 210, and presents it to the user. Keywords to be presented are generated (step S401). Then, the keyword presentation unit 220 presents the generated keyword to the user (step S402).
  • the authentication feature quantity extraction unit 230 acquires the user's utterance data (that is, voice information corresponding to the user's utterance) (step S403). Then, the authentication feature quantity extraction unit 230 extracts the third feature quantity from the acquired speech data (step S404).
  • the permission determination unit 240 compares the first feature value corresponding to the presented keyword with the third feature value extracted by the authentication feature value extraction unit 230, and executes authentication processing (step S405).
  • the permission determination unit 240 permits the user to execute the predetermined process (step S406).
  • the permission determination unit 240 does not permit the user to execute the predetermined process (step S407).
  • the keyword change unit 250 determines whether or not there is another keyword (that is, another keyword that has not yet been presented). is determined (step S501). If other keywords remain (step S501: YES), the keyword changing unit 250 changes the keyword presented by the keyword presenting unit 220 to another keyword (step S502). In this case, the process is restarted from step S402. That is, the same determination is made again based on the utterance of the changed keyword. If there are no other keywords left (step S501: NO), the series of processes ends without permitting execution of the predetermined process.
  • FIG. 16 is a plan view showing an example of keyword display change by the information processing system according to the fifth embodiment.
  • the keyword changing unit 250 changes the keywords to be presented to three of "meeting", “budget”, and "function". In this way, the keyword changing unit 250 may change only some keywords. That is, when a plurality of keywords are joined together and presented, a partially duplicated keyword may be presented before and after the change. Also, the keyword changing unit 250 may change all the keywords. Furthermore, the keyword changing unit 250 may change the number of keywords to be displayed.
  • the keyword presentation unit 220 may change the message displayed together with the keyword when the keyword is changed. For example, as shown in FIG. 16, the message "Authentication failed. To re-authenticate, speak the following words.” may be displayed. In this way, the user can be prompted to utter the keyword again.
  • the keyword presented to the user is changed when the authentication process using the keyword fails.
  • verification information cannot be changed, but the plurality of keywords according to the fifth embodiment indicate the person's identity, and thus can be changed. In this way, even if the authentication process causes rejection of the identity of the user, it is possible to perform the authentication process again.
  • the keyword is changed at the time of re-authentication, even if the keyword is inappropriate for matching, appropriate authentication processing will be performed after the change.
  • FIG. 17 to 19 An information processing system 10 according to the sixth embodiment will be described with reference to FIGS. 17 to 19.
  • FIG. The sixth embodiment describes a specific application example of the information processing system according to the first to fifth embodiments described above, and its configuration and operation are the same as those of the first to fifth embodiments. can be Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 17 is a block diagram (Part 1) showing an application application example of the information processing system according to the sixth embodiment.
  • the conversation data acquisition unit 110, the keyword extraction unit 120, the feature amount extraction unit 130, and the matching information generation unit 140 are shown as components of the information processing system 10 according to the sixth embodiment. (That is, only the components of the first embodiment (see FIG. 2)) are shown, but the information processing system 10 according to the sixth embodiment includes the components described in the second to fifth embodiments. may be
  • the information processing system 10 may be implemented as part of the functions of the conference application App1 installed in the terminal 500.
  • the conversation data acquisition unit 110 may be configured to acquire conversation data generated by the conversation data generation unit 50 of the conference application App1.
  • FIG. 18 is a block diagram (part 2) showing an application application example of the information processing system according to the sixth embodiment.
  • symbol is attached
  • the information processing system 10 may be realized as a function of an application (information generation application App3) different from the conference application App2 installed in the terminal 500.
  • conversation data generated by the conversation data generation unit 50 is acquired by the conversation data acquisition unit 110 by linking the conference application App2 and the information generation application App3.
  • FIG. 19 is a block diagram (Part 3) showing an application application example of the information processing system according to the sixth embodiment.
  • Part 3 shows an application application example of the information processing system according to the sixth embodiment.
  • symbol is attached
  • the information processing system 10 includes functions of the information generation application App3 installed in a terminal (that is, a terminal 502) different from the terminal 501 in which the conference application App2 is installed.
  • a terminal that is, a terminal 502
  • the terminal 501 in which the conference application App2 is installed and the terminal 502 in which the information generation application App3 is installed perform data communication, so that the conversation data generated by the conversation data generation unit 50 is obtained by the conversation data acquisition unit. 110.
  • Various types of information (for example, conversation data, keywords, feature amounts, etc.) used by the applications App1 to App3 described above are stored not in the storage of the terminals 500, 501 and 502, but in the storage device of an external server. may be In this case, the terminals 500, 501, and 502 may communicate with the external server as necessary to appropriately transmit and receive information to be used.
  • FIG. 20 is a plan view showing a display example by the information processing system 10 according to the seventh embodiment.
  • the information processing system 10 displays the file name of conversation data and a keyword generated from the conversation data (that is, , keywords linked as collation information), and are displayed in a list.
  • the management screen may be displayed using the output device 16 described above, for example.
  • the keywords “meeting”, “budget”, and “new” are associated with the first file “20210115_meeting.txt”.
  • the second file “20210303_meeting.txt” is associated with the keywords “next season,” “fiscal year,” and “implementation.”
  • the third file, "20210310_meeting.txt” is associated with the keywords “instruction”, “budget”, and "decision”.
  • FIG. 20 shows an example of displaying a list of three files, a list of more files may be displayed. Also, if all the files do not fit on the screen, they may be displayed in a scrollable manner, or may be displayed in a plurality of pages.
  • file names and keywords are displayed in a list format on the management screen. In this way, it is possible to present to the system administrator or the like in an easy-to-understand manner what keywords are associated with which conversation data.
  • a processing method of recording a program for operating the configuration of each embodiment so as to realize the functions of each embodiment described above on a recording medium, reading the program recorded on the recording medium as a code, and executing it on a computer is also implemented. Included in the category of form. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above-described program is recorded, the program itself is also included in each embodiment.
  • a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, non-volatile memory card, and ROM can be used as recording media.
  • the program recorded on the recording medium alone executes the process, but also the one that operates on the OS and executes the process in cooperation with other software and functions of the expansion board. included in the category of Furthermore, the program itself may be stored on the server, and part or all of the program may be downloaded from the server to the user terminal.
  • the information processing system described in Supplementary Note 1 includes acquisition means for acquiring conversation data including voice information of a plurality of people, keyword extraction means for extracting keywords from the voice information, and when the keywords are uttered from the voice information.
  • An information processing system comprising feature extraction means for extracting a first feature, which is a feature relating to speech, and generation means for generating collation information in which the keyword and the first feature are associated.
  • the information processing system according to Supplementary Note 2 includes feature acquisition means for acquiring a second feature that is a feature relating to the voice of at least one of the plurality of persons, and the first feature and the second feature.
  • the information processing system described in appendix 3 includes presenting means for presenting, to a user who requests a predetermined process on the conversation data, information prompting the user to utter the keyword for which the collation information is generated; authentication feature quantity extracting means for extracting a third feature quantity, which is a feature quantity relating to the voice of the user, from the content; the first feature quantity associated with the keyword prompting the user to speak; 3.
  • the information processing system according to appendix 1 or 2 further comprising permission determination means for determining whether or not execution of the predetermined process by the user is permitted based on the comparison result.
  • Appendix 4 In the information processing system according to appendix 4, the collation information is generated for a plurality of the keywords, and the presenting means presents information that prompts utterance of a part of the keywords, and the predetermined 3.
  • the information processing apparatus includes acquisition means for acquiring conversation data including voice information of a plurality of persons, keyword extraction means for extracting a keyword from the voice information, and when the keyword is uttered from the voice information.
  • the information processing apparatus includes feature extraction means for extracting a first feature, which is a feature relating to speech, and generation means for generating collation information in which the keyword and the first feature are associated.
  • the information processing method according to appendix 6 is an information processing method executed by at least one computer, in which conversation data including voice information of a plurality of people is acquired, keywords are extracted from the voice information, and keywords are extracted from the voice information.
  • the information processing method includes extracting a first feature amount, which is a feature amount related to speech when the keyword is uttered, and generating matching information that associates the keyword with the first feature amount.
  • the recording medium described in appendix 7 acquires conversation data including voice information of a plurality of people in at least one computer, extracts a keyword from the voice information, and relates to the voice when the keyword is uttered from the voice information.
  • a recording medium recording a computer program for executing an information processing method for extracting a first feature amount, which is a feature amount, and generating matching information that associates the keyword with the first feature amount.
  • appendix 8 The computer program according to appendix 8 acquires conversation data including voice information of a plurality of people in at least one computer, extracts a keyword from the voice information, and relates to voice when the keyword is uttered from the voice information.
  • REFERENCE SIGNS LIST 10 information processing system 11 processor 110 conversation data acquisition unit 120 keyword extraction unit 130 feature extraction unit 140 verification information generation unit 150 feature acquisition unit 160 usability determination unit 210 verification information storage unit 220 keyword presentation unit 230 authentication features Quantity extraction unit 240 Permission determination unit 250 Keyword change unit 500 Terminal

Abstract

情報処理システム(10)は、複数人の音声情報を含む会話データを取得する取得手段(110)と、音声情報からキーワードを抽出するキーワード抽出手段(120)と、音声情報からキーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段(130)と、キーワードと第1特徴量とを関連付けた照合用情報を生成する生成手段(140)と、を備える。このような情報処理システムによれば、会話データから照合用の情報を適切に生成することができる。

Description

情報処理システム、情報処理装置、情報処理方法、及び記録媒体
 この開示は、情報処理システム、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。
 この種のシステムとして、音声認識技術にキーワードを利用するものが知られている。例えば特許文献1では、入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する技術が開示されている。特許文献2では、キーワードリストを作成して、音声情報から重要語を抽出する技術が開示されている。特許文献3では、音声認識された入力内容からユーザの興味特定に使用するキーワードを抽出する技術が開示されている。特許文献4では、音声認識によって生成した文字情報からキーワードを生成する技術が開示されている。
 その他の関連する技術として、特許文献5では、ユーザの声道及びユーザの話し方のパターンの挙動に関する情報に基づいて、ユーザのボイスプリントを生成する技術が開示されている。
特開2020-086011号公報 特開2015-099290号公報 特開2009-294790号公報 特開2007-257134号公報 特表2014-517366号公報
 この開示は、先行技術文献に開示された技術を改善することを目的とする。
 この開示の情報処理システムの一の態様は、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する生成手段と、を備える。
 この開示の情報処理装置の一の態様は、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する生成手段と、を備える。
 この開示の情報処理方法の一の態様は、少なくとも1つのコンピュータが実行する情報処理方法であって、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する。
 この開示の記録媒体の一の態様は、少なくとも1つのコンピュータに、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する、情報処理方法を実行させるコンピュータプログラムが記録されている。
第1実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第1実施形態に係る情報処理システムによる情報生成動作の流れを示すフローチャートである。 第2実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第2実施形態に係る情報処理システムによる情報生成動作の流れを示すフローチャートである。 第3実施形態に係る情報処理システムによる話者分類の具体例を示す概念図であるである。 第3実施形態に係る情報処理システムによる話者集約の具体例を示す概念図であるである。 第3実施形態に係る情報処理システムによるキーワード抽出の具体例を示す概念図であるである。 第3実施形態に係る情報処理システムにおけるキーワードの記憶態様の一例を示す表である。 第4実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第4実施形態に係る情報処理システムによる許可判定動作の流れを示すフローチャートである。 第4実施形態に係る情報処理システムによる提示例を示す平面図である。 第4実施形態に係る情報処理システムが扱うファイルの表示例を示す平面図である。 第5実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第5実施形態に係る情報処理システムの許可判定動作の流れを示すフローチャートである。 第5実施形態に係る情報処理システムによるキーワード表示変更の一例を示す平面図である。 第6実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図(その1)である。 第6実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図(その2)である。 第6実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図(その3 )である。 第7実施形態に係る情報処理システム10による表示例を示す平面図である。
 以下、図面を参照しながら、情報処理システム、情報処理方法、及び記録媒体の実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る情報処理システムについて、図1から図3を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る情報処理システムのハードウェア構成について説明する。図1は、第1実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る情報処理システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。情報処理システム10は更に、入力装置15と、出力装置16と、を備えていてもよい。上述したプロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、情報処理システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、会話データからキーワードを抽出して情報を生成するための機能ブロックが実現される。
 プロセッサ11は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)として構成されてよい。プロセッサ11は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、情報処理システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、情報処理システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。
 出力装置16は、情報処理システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、情報処理システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。また、出力装置16は、情報処理システム10に関する情報を音声出力可能なスピーカ等であってもよい。出力装置16は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。
 なお、図1では、複数の装置を含んで構成される情報処理システム10の例を挙げたが、これらの全部又は一部の機能を、1つの装置(情報処理装置)で実現してもよい。この情報処理装置は、例えば、上述したプロセッサ11、RAM12、ROM13のみを備えて構成され、その他の構成要素(即ち、記憶装置14、入力装置15、出力装置16)については、例えば情報処理装置に接続される外部の装置が備えるようにしてもよい。また、情報処理装置は、一部の演算機能を外部の装置(例えば、外部サーバやクラウド等)によって実現するものであってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る情報処理システム10の機能的構成について説明する。図2は、第1実施形態に係る情報処理システムの機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、会話データ取得部110と、キーワード抽出部120と、特徴量抽出部130と、照合用情報生成部140と、を備えて構成されている。会話データ取得部110、キーワード抽出部120、特徴量抽出部130、及び照合用情報生成部140の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 会話データ取得部110は、複数人の音声情報を含む会話データを取得する。会話データ取得部110は、例えばマイク等から直接音会話データを取得してもよいし、他の装置等で生成された会話データを取得してもよい。会話データの一例としては、会議の音声を録音した会議データ等が挙げられる。また、会話データ取得部110は、取得した会話データに対して各種処理を実行可能に構成されてよい。例えば、会話データ取得部110は、会話データにおいて話者が発話している区間を検出する処理、会話データを音声認識してテキスト化する処理、及び発話している話者を分類する処理等を実行可能に構成されてよい。
 キーワード抽出部120は、会話データ取得部110で取得された会話データの音声情報から、発話内容に含まれているキーワードを抽出する。キーワード抽出部120は、音声情報に含まれている単語の中からランダムにキーワードを抽出するようにしてもよいし、予め定められた単語をキーワードとして抽出するようにしてもよい。また、キーワード抽出部120は、会話データの内容に応じて抽出するキーワードを決定してもよい。例えば、キーワード抽出部120は、会話データにおいて出現頻度の高い単語(例えば、所定回数以上発話された単語)をキーワードとして抽出するようにしてもよい。キーワード抽出部120は、1つの会話データから複数のキーワードを抽出するようにしてもよい。キーワード抽出部120は、複数人の各々について少なくとも1つのキーワードを抽出するようにしてもよい。
 特徴量抽出部130は、キーワード抽出部120において抽出されたキーワードを発話した際の音声に関する特徴量(以下、適宜「第1特徴量」と称する)を抽出可能に構成されている。キーワード抽出部120において複数のキーワードが抽出されている場合、特徴量抽出部130は、全てのキーワードについて特徴量を抽出してもよいし、一部のキーワードについてのみ特徴量を抽出してもよい。なお、音声に関する特徴量の抽出手法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。
 照合用情報生成部140は、キーワード抽出部120で抽出されたキーワードと、特徴量抽出部130で抽出された第1特徴量とを関連付けることで、照合用情報を生成可能に構成されている。例えば、照合用情報生成部140は、第1のキーワードと、第1のキーワードを発話した際の音声に関する特徴量とを互いに関連付け、第2のキーワードと、第2のキーワードを発話した際の音声に関する特徴量とを互いに関連付けてよい。照合用情報生成部140で生成された照合用情報は、会話に参加した複数人の音声照合に用いられる。照合用情報の具体的な利用方法については、後述する他の実施形態において詳しく説明する。
 (情報生成動作)
 次に、図3を参照しながら、第1実施形態に係る情報処理システム10による照合用情報を生成する際の動作(以下、適宜「情報生成動作」と称する)の流れについて説明する。図3は、第1実施形態に係る情報処理システムによる情報処理動作の流れを示すフローチャートである。
 図3に示すように、第1実施形態に係る情報処理システム10による情報処理動作では、まず会話データ取得部110が、複数人の音声情報を含む会話データを取得する(ステップS101)。そして、会話データ取得部110は、会話データにおいて話者が発話している区間を検出する処理(以下、適宜「区間検出処理」と称する)を実行する(ステップS102)。区間検出処理は、例えば無音区間を検出してトリミングする処理であってよい。
 続いて、会話データ取得部110は、区間検出処理が実行された会話データ(即ち、発話している区間の音声情報)から、話者を分類する処理(以下、適宜「話者分類処理」と称する)を実行する(ステップS103)。話者分類処理は、例えば会話データの各区間に話者に応じたラベルを付与する処理であってよい。
 他方で、会話データ取得部110は、区間検出処理が実行された会話データに対して音声認識を行ってテキスト化する処理(以下、適宜「音声認識処理」と称する)を実行する(ステップS104)。音声認識処理の具体的な手法については、既存の技術を適宜採用できるため、ここでの詳細な説明は省略する。なお、音声認識処理と、上述した話者分類処理とは、並行して同時に実行されてもよいし、相前後して順次実行されてもよい。
 続いて、キーワード抽出部120が、音声認識処理が実行された会話データ(即ち、テキストデータ)からキーワードを抽出する(ステップS105)。この際、キーワード抽出部120は、話者分類処理の結果を用いて(例えば、話者を区別して)キーワードを抽出してよい。なお、キーワード抽出部120は、同じ漢字の単語であっても異なる読み方をするものについては、それらを区別して抽出してよい。例えば、「一」という漢字の場合、「いち」と読むものと、「ひとつ」と読むものとで別々に抽出してよい。
 続いて、特徴量抽出部130が、キーワード抽出部120で抽出されたキーワードを発話した際の音声に関する特徴量(即ち、第1特徴量)を抽出する(ステップS106)。そして、照合用情報生成部140は、キーワード抽出部120で抽出されたキーワードと、特徴量抽出部130で抽出された第1特徴量とを関連付けて、照合用情報を生成する(ステップS107)。
 (技術的効果)
 次に、第1実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図1から図3で説明したように、第1実施形態に係る情報処理システム10では、会話データから抽出されたキーワードと、その音声に関する特徴量(即ち、第1特徴量)とを関連付けて照合用情報が生成される。このようにすれば、複数人の音声情報を含む会話データから、照合用情報を適切に生成することができる。よって、会話に参加した複数人に対して、キーワードを用いた音声照合処理を適切に実行することが可能となる。また、本実施形態では、会話データからキーワードが抽出されるため、音声照合処理に用いるキーワードを別途用意する必要がない。よって、照合用情報を生成するのに要する手間を削減することが可能である。
 事前に決めた音声のキーワードを使い回す場合、悪意により録音された音声や音声合成で対応されてしまうおそれがある。しかしながら本実施形態では、事前に決めたキーワードを用いない(会話データからキーワードを生成できる)ため、悪意への堅牢性を高めることが可能である。また、会話データから自動的にキーワードが生成されるため、事前登録が不要となり、ユーザに意識してキーワードを用意させる必要もない。更に、キーワードを失念してしまうことを回避できる。例えば、複数の会議で異なるキーワードを用意しておけば、精度を高めることができる一方で、キーワードを失念する可能性も高くなってしまう。しかしながら本実施形態では、複数キーワードを用意する場合と同様の精度を実現しつつ、キーワードを失念してしまうような状況も回避できる。
 <第2実施形態>
 第2実施形態に係る情報処理システム10について、図4及び図5を参照して説明する。なお、第2実施形態は、上述した第1実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1実施形態と同一であってよい。このため、以下では、すでに説明した第1実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図4を参照しながら、第2実施形態に係る情報処理システム10の機能的構成について説明する。図4は、第2実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図4では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図4に示すように、第2実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、会話データ取得部110と、キーワード抽出部120と、特徴量抽出部130と、照合用情報生成部140と、特徴量取得部150と、利用可否判定部160と、を備えて構成されている。即ち、第2実施形態に係る情報処理システム10は、第1実施形態の構成(図2参照)に加えて、特徴量取得部150と、利用可否判定部160と、を更に備えて構成されている。なお、特徴量取得部150及び利用可否判定部160の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 特徴量取得部150は、会話に参加した複数人の少なくとも1人の音声に関する特徴量(以下、適宜「第2特徴量」と称する)を取得可能に構成されている。特徴量取得部150は、会話データ取得部110が取得した会話データから第2特徴量を取得してよい。例えば、特徴量取得部150は、話者分類処理が実行された会話データから第2特徴量を抽出してよい。或いは、特徴量取得部150は、予め用意された第2特徴量を取得してもよい。例えば、会話に参加した複数人の各々の個人IDや保有端末と紐付けて記憶されている第2特徴量を取得してもよい。
 利用可否判定部160は、特徴量抽出部130で抽出された第1特徴量と、特徴量取得部150で取得された第2特徴量とを比較することで、第1特徴量からキーワードを発話した話者を特定できるか否かを判定可能に構成されている。即ち、利用可否判定部160は、キーワードに対応する第1特徴量が、音声照合に利用可能であるかを判定可能に構成されている。利用可否判定部160は、同一の話者から抽出した第1特徴量と第2特徴量とを照合して、それらの話者が同一人物であると判定できた場合に、その第1特徴量は音声照合に利用可能であると判定してよい。また、利用可否判定部160は、同一の話者から抽出した第1特徴量と第2特徴量とを照合して、それらの話者が同一人物でないと判定された場合に、その第1特徴量は音声照合に利用可能でないと判定してよい。
 (情報生成動作)
 次に、図5を参照しながら、第2実施形態に係る情報処理システム10による情報生成動作の流れについて説明する。図5は、第2実施形態に係る情報処理システムによる情報処理動作の流れを示すフローチャートである。なお、図5では、図3で説明した処理と同様の処理に同一の符号を付している。
 図5に示すように、第2実施形態に係る情報処理システム10による情報処理動作では、まず会話データ取得部110が、複数人の音声情報を含む会話データを取得する(ステップS101)。そして、会話データ取得部110は、区間検出処理を実行する(ステップS102)。
 続いて、会話データ取得部110は、区間検出処理が実行された会話データに対して、話者分類処理を実行する(ステップS103)。そして、第2実施形態では、特徴量取得部150が、話者分類処理を実行した会話データから第2特徴量を取得する(ステップS201)。なお、既に説明したように、特徴量取得部150は、会話データ以外から第2特徴量を取得してもよい。
 他方、会話データ取得部110は、区間検出処理が実行された会話データに対して、音声認識処理を実行する(ステップS104)。そして、キーワード抽出部120が、音声認識処理が実行された会話データからキーワードを抽出する(ステップS105)。この際、キーワード抽出部120は、話者分類処理の結果を用いて(例えば、話者を区別して)キーワードを抽出してよい。その後、特徴量抽出部130が、キーワード抽出部120で抽出されたキーワードに対応する第1特徴量を抽出する(ステップS106)。
 なお、上述したステップS103及びS201の処理(即ち、フロー左側の処理)と、ステップS104、S105及びS106の処理(即ち、フロー右側の処理)とは、並行して同時に実行されてもよいし、相前後して順次実行されてもよい。
 続いて、第2実施形態では、利用可否判定部160が、特徴量抽出部130で抽出された第1特徴量と、特徴量取得部150で取得された第2特徴量とを比較して、第1特徴量からキーワードを発話した話者を特定できるか否かを判定する(ステップS202)。ここで、第1特徴量からキーワードを発話した話者を特定できると判定された場合(ステップS202:YES)、照合用情報生成部140は、キーワード抽出部120で抽出されたキーワードと、特徴量抽出部130で抽出された第1特徴量とを関連付けて、照合用情報を生成する(ステップS107)。一方、第1特徴量からキーワードを発話した話者を特定できないと判定された場合(ステップS202:NO)、上述したステップS107の処理は省略される。即ち、話者を特定できないと判定されたキーワードについては、照合用情報は生成されない。
 (技術的効果)
 次に、第2実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図4及び図5で説明したように、第2実施形態に係る情報処理システム10では、第1特徴量と第2特徴量を比較して、キーワードによる音声照合が可能であるか否かが判定される。このようにすれば、音声照合に適さないキーワードについて照合用情報が生成されてしまうことを防止できる。よって、照合用情報を用いた音声照合の精度を高めることが可能である。
 <第3実施形態>
 第3実施形態に係る情報処理システム10について、図6から図9を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態で実行される処理の具体例等を説明するものであり、その構成や動作については第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (話者分類処理)
 まず、図6を参照しながら、第3実施形態に係る情報処理システム10が実行する話者分類処理(即ち、図3及び図5のステップS103の処理)の具体例について説明する。図6は、第3実施形態に係る情報処理システムによる話者分類の具体例を示す概念図である。
 図6に示すような音声認識データ(即ち、会話データをテキスト化したデータ)が、第3実施形態に係る情報処理システム10で取得されているとする。この場合、話者分類処理では、音声認識データの各区間に、話者に対応するラベルが付与されてよい。図6に示す例では、音声認識データの各区間に対して、話者A、話者B、及び話者Cに対応するラベルが付与されている。これにより、どの区間を、どの話者が発話したものか認識できるようになる。
 (話者集約処理)
 次に、図7を参照しながら、第3実施形態に係る情報処理システム10が実行する話者集約処理(即ち、話者分類データから話者を絞り込む処理)の具体例について説明する。図7は、第3実施形態に係る情報処理システムによる話者集約の具体例を示す概念図である。
 図7に示すような話者分類データ(即ち、話者分類されたデータ)が、第3実施形態に係る情報処理システム10で取得されているとする。この場合、話者集約する処理では、話者分類データから、いずれか1人の話者が発話した区間が抽出されてよい。なお、図7に示す例では、話者Aの発話した区間を抽出する例を挙げているが、これらに加えて又は代えて、他の話者が発話した区間を抽出する処理が実行されてよい。
 (キーワード抽出処理)
 次に、図8を参照しながら、第3実施形態に係る情報処理システム10が実行するキーワード抽出処理(即ち、話者集約データからキーワードを抽出する処理)の具体例について説明する。図8は、第3実施形態に係る情報処理システムによるキーワード抽出の具体例を示す概念図である。
 図8に示すような話者集約データが、第3実施形態に係る情報処理システム10で取得されているとする。この場合、キーワード抽出処理では、話者集約データにおいて複数回発話されている単語がキーワードとして抽出される。図8に示す例では、太字で示す「本日」、「会議」、「保存」の3つの単語が複数回発話されている。このため、これら3つの単語がキーワードとして抽出される。なお、話者集約データが複数の話者に対して取得されている場合(例えば、話者Bや話者Cについても話者集約データが取得されている場合)、複数の話者について、それぞれキーワードを抽出する処理が実行されてよい。
 (キーワード記憶)
 次に、図9を参照しながら、第3実施形態に係る情報処理システム10におけるキーワードの記憶態様の具体例について説明する。図9は、第3実施形態に係る情報処理システムにおけるキーワードの記憶態様の一例を示す表である。
 図9に示すように、キーワード抽出処理で抽出されたキーワードは、話者ごとに別々に記憶されてよい。例えば、話者A、話者B、話者C、話者Dが存在する場合、話者Aの発話区間から抽出されたキーワードは話者Aに対応するキーワードとして記憶される。話者Bの発話区間から抽出されたキーワードは話者Bに対応するキーワードとして記憶される。話者Cの発話区間から抽出されたキーワードは話者Cに対応するキーワードとして記憶される。話者Dの発話区間から抽出されたキーワードは話者Dに対応するキーワードとして記憶される。なお、これらのキーワードから照合用情報が生成された場合、照合用情報についても話者ごとに記憶されてよい。
 (技術的効果)
 次に、第3実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図6から図9で説明したように、第3実施形態に係る情報処理システム10によれば、照合用情報を生成する各種処理を適切な態様で実行することが可能である。ただし、上述した各種処理は上記態様に限定されるものではなく、各種処理をここで説明した態様とは異なる態様で実行するようにしてもよい。
 <第4実施形態>
 第4実施形態に係る情報処理システム10について、図10から図13を参照して説明する。なお、第4実施形態は、上述した第1から第3実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第3実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図10を参照しながら、第4実施形態に係る情報処理システム10の機能的構成について説明する。図10は、第4実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図10では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図10に示すように、第4実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、会話データ取得部110と、キーワード抽出部120と、特徴量抽出部130と、照合用情報生成部140と、照合用情報記憶部210と、キーワード提示部220と、認証用特徴量抽出部230と、許可判定部240と、を備えて構成されている。即ち、第4実施形態に係る情報処理システム10は、第1実施形態の構成(図2参照)に加えて、照合用情報記憶部210と、キーワード提示部220と、認証用特徴量抽出部230と、許可判定部240と、を更に備えて構成されている。照合用情報記憶部210は、例えば上述した記憶装置14によって実現されてよい。また、キーワード提示部220、認証用特徴量抽出部230、許可判定部240の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 照合用情報記憶部210は、照合用情報生成部140で生成された照合用情報を記憶可能に構成されている。照合用情報記憶部210は、既に説明したように、会話に参加していた話者ごとに照合用情報を記憶可能に構成されてよい(図9参照)。照合用情報記憶部210が記憶している照合用情報は、キーワード提示部220によって適宜読み出し可能とされている。
 キーワード提示部220は、会話データに対する所定処理を要求するユーザに対して、照合用情報記憶部210に記憶されている照合用情報に含まれるキーワードを提示可能に構成されている。キーワード提示部220は、例えば出力装置16(図1参照)を用いてキーワードを提示してよい。キーワード提示部220は、ユーザが所定処理を実行するための操作(例えば、右クリックやダブルクリック等)を行ったタイミングで、キーワードを提示するようにしてもよい。なお、所定処理の一例としては、会話データのファイルを開く処理、暗号化された会話データのファイルを復号化する処理、及び会話データのファイルを編集する処理等が挙げられる。
 照合用情報が話者ごとに記憶されている場合、キーワード提示部220は、ユーザがどの話者であるかを判別してから、その話者に対応するキーワードを提示するようにしてもよい。キーワード提示部220は、例えばユーザの入力(例えば、氏名や個人ID等の入力)から話者を判別し、その話者に対応するキーワードを提示してよい。或いは、キーワード提示部220は、顔認証等を用いてどの話者であるかを判別し、その話者に対応するキーワードを提示してよい。
 また、照合用情報記憶部210が複数のキーワードを記憶している場合、キーワード提示部220は、記憶されている複数のキーワードの中から、提示するキーワードを選択して提示するようにしてもよい。また、キーワード提示部220は、複数のキーワードを接合して提示してもよい。この場合、キーワード提示部220は、予め定められた個数のキーワードを接合して提示してもよい。或いは、キーワード提示部220は、接合したキーワードの長さが話者を特定するために十分な長さとなるように(即ち、適切な音声照合が行える長さとなるように)、キーワードを選択してもよい。例えば、話者を特定するのに1.5秒の発話が必要となる場合、0.5秒に相当するワードを3つ接合したものを選択して提示すればよい。
 認証用特徴量抽出部230は、キーワードを提示した後にユーザが発話した内容(即ち、提示したキーワードに対応する発話内容)から、その音声に関する特徴量(以下、適宜「第3特徴量」と称する)を抽出可能に構成されている。第3特徴量は、第1特徴量(即ち、照合用情報としてキーワードと関連付けて記憶されている特徴量)と照合可能な特徴量である。
 許可判定部240は、キーワード提示部220で提示したキーワードに関連付いた第1特徴量と、認証用特徴量抽出部230で抽出した第3特徴量を比較して、ユーザによる所定処理の実行を許可するか否かを判定する。具体的には、許可判定部240は、第1特徴量と第3特徴量の照合の結果、会話データにおいてキーワードを発話している人物と、会話データに対する所定処理を要求しているユーザとが同一人物であると判定された場合に、ユーザによる所定処理の実行を許可してよい。また、会話データにおいてキーワードを発話している人物と、会話データに対する所定処理を要求しているユーザとが同一人物でないと判定された場合に、ユーザによる所定処理の実行を禁止してよい。
 (許可判定動作)
 次に、図11を参照しながら、第4実施形態に係る情報処理システム10による所定処理を許可するか否かを判定する動作(以下、適宜「許可判定動作」と称する)の流れについて説明する。図11は、第4実施形態に係る情報処理システムによる許可判定動作の流れを示すフローチャートである。なお、図11で示す許可判定動作は、第1及び第2実施形態で説明した情報生成動作が実行された後に(言い換えれば、照合用情報が生成された状態で)行われるものとする。
 図11に示すように、第4実施形態に係る情報処理システム10による許可判定動作では、まずキーワード提示部220が、照合用情報記憶部210が記憶している照合用情報を読み出して、ユーザに提示するキーワードを生成する(ステップS401)。そして、キーワード提示部220は、生成したキーワードをユーザに対して提示する(ステップS402)。
 なお、ユーザに提示するキーワードが1つである場合、キーワード提示部220は、読み出した照合用情報に含まれるキーワードをそのまま提示すればよい。また、ユーザに提示するキーワードが複数である場合、キーワード提示部220は、読み出した照合用情報に含まれるキーワードを接合して提示すればよい。なお、キーワードの具体的な提示例については後に詳しく説明する。
 続いて、認証用特徴量抽出部230が、ユーザの発話データ(具体的には、キーワードの提示を受けたユーザの発話によって取得された音声情報)を取得する(ステップS403)。そして、認証用特徴量抽出部230は、取得した発話データから、第3特徴量を抽出する(ステップS404)。
 続いて、許可判定部240が、提示したキーワードに対応する第1特徴量と、認証用特徴量抽出部230で抽出した第3特徴量と、を照合して認証処理を実行する(ステップS405)。ここで、認証が成功した場合(ステップS405:YES)、許可判定部240は、ユーザに対して所定処理の実行を許可する(ステップS406)。一方、認証が成功しなかった場合(ステップS405:NO)、許可判定部240は、ユーザに対して所定処理の実行を許可しない(ステップS407)。
 (キーワードの提示例)
 次に、図12を参照しながら、第4実施形態に係るキーワード提示部220によるキーワードの提示例について説明する。図12は、第4実施形態に係る情報処理システムによる提示例を示す平面図である。
 図12に示すように、キーワード提示部220は、ディスプレイにキーワードを表示することで、ユーザにキーワードを提示してよい。この例では、「本日」、「会議」、「保存」の3つのキーワードがユーザに提示されている。また、キーワードに加えて、「以下の言葉を発話してください。」のようなメッセージを表示することで、ユーザがキーワードを発話することを促してもよい。なお、キーワードの提示は、音声で行われてもよい。具体的には、図12で表示されているキーワードやメッセージを、スピーカ等を用いて音声出力してもよい。
 なお、ここでは提示した3つのキーワードをすべて発話するように促しているが、提示した複数のキーワードの中から一部のキーワードを選択して発話させるように促してもよい。この場合、「下記のキーワードから1つのキーワードを選択して発話してください。」のようなメッセージを表示してもよい。また、複数のキーワードを発話させる場合、その順序を固定してもよいし、固定しなくてもよい。具体的には、「本日」、「会議」、「保存」の3つのキーワードをユーザに提示した場合、「本日」、「会議」、「保存」の順番(即ち、表示された順番)で発話した場合にのみ認証が成功するようにしてもよいし、「会議」、「保存」、「本日」の順番(即ち、表示された順番とは異なる順番)で発話した場合でも認証が成功するようにしてもよい。
 (ファイルの表示例)
 次に、図13を参照しながら、第4実施形態に係る情報処理システム10で扱われるデータファイル(即ち、所定処理の対象となるファイル)の表示例について説明する。図13は、第4実施形態に係る情報処理システムが扱うファイルの表示例を示す平面図である。
 図13に示すように、第4実施形態に係る情報処理システム10で扱われるデータファイルは、音声アイコンを付して表示されてもよい。このようにすれば、会話データに対して所定処理を要求するユーザが、直感的に認証方法を把握することができる。即ち、キーワードの発話によって認証可能なデータファイルであることを、ユーザに対して視覚的に知らせることができる。
 (技術的効果)
 次に、第4実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図10から図13で説明したように、第4実施形態に係る情報処理システム10では、キーワードを提示した際のユーザの発話内容に基づいて、会話データに対する所定処理の実行可否が判定される。このようにすれば、所定処理を要求するユーザについて、所定処理を実行する権限があるか否かを適切に判定することができる。言い換えれば、ユーザが会話に参加していた人物か否かを適切に判定できる。よって、会話に参加していない第三者によって所定処理が実行されてしまうことを防止できる。なお、発話によって所定処理を許可する手法として、例えば予め定型句を用意しておく方法も考えられるが、発話する際に盗聴されるおそれがある。また、キーワードを毎回変えてもよいが、手間がかかり、キーワードを忘れてしまうおそれもある。しかるに本実施形態に係る情報処理システム10によれば、会話データから抽出されるキーワードを提示し、そのキーワードの発話によって所定処理を許可できるため、上述した問題点をすべて解消することが可能である。
 <第5実施形態>
 第5実施形態に係る情報処理システム10について、図14から図16を参照して説明する。なお、第5実施形態は、上述した第4実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第4実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図14を参照しながら、第5実施形態に係る情報処理システム10の機能的構成について説明する。図14は、第5実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図14では、図10で示した構成要素と同様の要素に同一の符号を付している。
 図14に示すように、第5実施形態に係る情報処理システム10は、その機能を実現するための構成要素として、会話データ取得部110と、キーワード抽出部120と、特徴量抽出部130と、照合用情報生成部140と、照合用情報記憶部210と、キーワード提示部220と、認証用特徴量抽出部230と、許可判定部240と、キーワード変更部250と、を備えて構成されている。即ち、第5実施形態に係る情報処理システム10は、第4実施形態の構成(図10参照)に加えて、キーワード変更部250を更に備えて構成されている。なお、キーワード変更部250は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 キーワード変更部250は、キーワード提示部220が提示するキーワードを変更可能に構成されている。具体的には、キーワード変更部250は、許可判定部240において会話データに対する所定処理の実行が許可されなかった場合に、キーワード提示部220が提示するキーワードを変更可能に構成されている。
 (許可判定動作)
 次に、図15を参照しながら、第5実施形態に係る情報処理システム10による許可判定動作の流れについて説明する。図15は、第5実施形態に係る情報処理システムによる許可判定動作の流れを示すフローチャートである。なお、図15では、図11で示した処理と同様の処理に同一の符号を付している。
 図15に示すように、第5実施形態に係る情報処理システム10による許可判定動作では、まずキーワード提示部220が、照合用情報記憶部210が記憶している照合用情報を読み出して、ユーザに提示するキーワードを生成する(ステップS401)。そして、キーワード提示部220は、生成したキーワードをユーザに対して提示する(ステップS402)。
 続いて、認証用特徴量抽出部230が、ユーザの発話データ(即ち、ユーザの発話に応じた音声情報)を取得する(ステップS403)。そして、認証用特徴量抽出部230は、取得した発話データから、第3特徴量を抽出する(ステップS404)。
 続いて、許可判定部240が、提示したキーワードに対応する第1特徴量と、認証用特徴量抽出部230で抽出した第3特徴量とを照合して認証処理を実行する(ステップS405)。ここで、認証が成功した場合(ステップS405:YES)、許可判定部240は、ユーザに対して所定処理の実行を許可する(ステップS406)。一方、認証が成功しなかった場合(ステップS405:NO)、許可判定部240は、ユーザに対して所定処理の実行を許可しない(ステップS407)。
 そして本実施形態では特に、ユーザに対して所定処理の実行が許可されなかった場合に、キーワード変更部250が、他のキーワード(即ち、まだ提示していない別のキーワード)が残っているか否かを判定する(ステップS501)。そして、他のキーワードが残っている場合(ステップS501:YES)、キーワード変更部250は、キーワード提示部220が提示するキーワードを他のキーワードに変更する(ステップS502)。この場合、ステップS402から処理が再開される。即ち、変更されたキーワードの発話に基づいて、再び同様の判定が行われることになる。なお、他のキーワードが残っていない場合(ステップS501:NO)、所定処理の実行が許可されないまま一連の処理が終了する。
 (キーワードの変更例)
 次に、図16を参照しながら、第5実施形態に係るキーワード変更部250によるキーワードの変更例について説明する。図16は、第5実施形態に係る情報処理システムによるキーワード表示変更の一例を示す平面図である。
 図16に示すように、最初に「本日」、「会議」、「保存」の3つのキーワードが提示されていたとする。そして、所定処理の実行を許可しないと判定された場合、キーワード変更部250は、提示するキーワードを「会議」、「予算」、「機能」の3つに変更する。このように、キーワード変更部250は、一部のキーワードのみを変更してもよい。即ち、複数のキーワードを接合して提示する場合には、変更前後において一部重複したキーワードが提示されてもよい。また、キーワード変更部250は、すべてのキーワードを変更するようにしてもよい。更に、キーワード変更部250は、表示するキーワードの数を変更するようにしてもよい。
 なお、キーワード提示部220は、キーワードを変更した際に、キーワードと共に表示していたメッセージを変更してもよい。例えば、図16で示すように「認証に失敗しました。再認証する場合は以下の言葉を発話してください。」というメッセージを表示するようにしてもよい。このようにすれば、ユーザに対して再度キーワードの発話を促すことができる。
 (技術的効果)
 次に、第5実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図14から図16で説明したように、第5実施形態に係る情報処理システム10では、キーワードを用いた認証処理が失敗した場合に、ユーザに提示されるキーワードが変更される。通常の生体認証やパスワード照合では、照合用の情報を変更することはできないが、第5実施形態に係る複数のキーワードは本人性を示すもののため、変更が可能である。このようにすれば、認証処理によって本人拒否が発生した場合でも、再び認証処理を行うことが可能である。本実施形態は特に、再認証の際にキーワードが変更されるため、キーワードが照合に不適切なものであった場合であっても、変更後に適切な認証処理が行われることになる。
 <第6実施形態>
 第6実施形態に係る情報処理システム10について、図17から図19を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態に係る情報処理システムの具体的な適用例を説明するものであり、その構成や動作については第1から第5実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (会議アプリと共通のアプリに適用)
 まず、図17を参照しながら、第6実施形態に係る情報処理システム10が、会話データを生成する会議アプリと共通のアプリに適用される例について説明する。図17は、第6実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図(その1)である。なお、図17では、説明の便宜上、第6実施形態に係る情報処理システム10が備える構成要素として、会話データ取得部110、キーワード抽出部120、特徴量抽出部130、及び照合用情報生成部140(即ち、第1実施形態(図2参照)の構成要素)のみを図示しているが、第6実施形態に係る情報処理システム10は、第2から第5実施形態で説明した構成要素を備えていてもよい。
 図17に示すように、第6実施形態に係る情報処理システム10は、端末500にインストールされている会議アプリApp1の一部の機能として実現されてもよい。この場合、会話データ取得部110は、会議アプリApp1が有する会話データ生成部50において生成される会話データを取得するように構成されればよい。
 (会議アプリと別のアプリに適用)
 次に、図18を参照しながら、第6実施形態に係る情報処理システム10が、会話データを生成する会議アプリと別のアプリに適用される例について説明する。図18は、第6実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図(その2)である。なお、図18では、図17で示した構成要素と同様の要素に同一の符号を付している。
 図18に示すように、第6実施形態に係る情報処理システム10は、端末500にインストールされている会議アプリApp2とは別のアプリ(情報生成アプリApp3)の機能として実現されてもよい。この場合、会議アプリApp2と、情報生成アプリApp3を連携させることで、会話データ生成部50において生成される会話データが、会話データ取得部110によって取得される。
 (会議アプリと別端末のアプリに適用)
 次に、図19を参照しながら、第6実施形態に係る情報処理システム10が、会話データを生成する会議アプリと別端末のアプリに適用される例について説明する。図19は、第6実施形態に係る情報処理システムのアプリケーション適用例を示すブロック図(その3)である。なお、図19では、図18で示した構成要素と同様の要素に同一の符号を付している。
 図19に示すように、第6実施形態に係る情報処理システム10は、会議アプリApp2がインストールされている端末501とは別の端末(即ち、端末502)にインストールされた情報生成アプリApp3の機能として実現されてもよい。この場合、会議アプリApp2がインストールされた端末501と、情報生成アプリApp3がインストールされた端末502とがデータ通信を行うことで、会話データ生成部50において生成される会話データが、会話データ取得部110によって取得される。
 なお、上述したアプリApp1~App3で使用する各種情報(例えば、会話データ、キーワード及び特徴量等)等については、端末500、501及び端末502のストレージではなく、外部サーバの記憶装置等に記憶されていてもよい。この場合、端末500、501及び502は、必要に応じて外部サーバと通信を行い、利用する情報を適宜送受信すればよい。
 (技術的効果)
 次に、第6実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図16から図19で説明したように、第6実施形態に係る情報処理システム10によれば、上述した第1から第5実施形態の各種機能を、適切な態様で実現することができる。なお、ここで挙げた適用例はあくまで一例であり、本実施形態に係る情報処理システム10の機能は、ここで挙げていない態様によって実現することもできる。また、第6実施形態では、会話データを生成するアプリの一例として会議アプリ(会議の録画や録音を行うアプリ)を挙げているが、会議アプリを他のアプリに置き換えても同様に適用可能である。
 <第7実施形態>
 第7実施形態に係る情報処理システム10について、図20を参照して説明する。なお、第7実施形態は、上述した第1から第6実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1から第6実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
 (管理画面の表示)
 まず、図20を参照しながら、第7実施形態に係る情報処理システム10による表示例(特に、管理画面の表示例)について説明する。図20は、第7実施形態に係る情報処理システム10による表示例を示す平面図である。
 図20に示すように、第7実施形態に係る情報処理システム10は、管理画面(例えば、システム管理者等が見る画面)に、会話データのファイル名と、会話データから生成されたキーワード(即ち、照合用情報として紐付けられているキーワード)と、が一覧表示される。なお、管理画面は、例えば上述した出力装置16を用いて表示されるものであってよい。
 図20の例では、1つ目の「20210115_meeting.txt」というファイルに、「会議」、「予算」、「新規」というキーワードが紐付けられている。2つ目の「20210303_meeting.txt」というファイルに、「来季、「年度」、「実行」というキーワードが紐付けられている。3つ目の「20210310_meeting.txt」というファイルに、「指示」、「予算」、「決定」というキーワードが紐付けられている。なお、図20では、3つのファイルについて一覧表示する例を挙げているが、より多くのファイルについて一覧表示されてもよい。また、すべてのファイルが画面に収まらない場合には、スクロール可能な態様で表示されてもよいし、複数のページに分けて表示されてもよい。
 (技術的効果)
 次に、第7実施形態に係る情報処理システム10によって得られる技術的効果について説明する。
 図20で説明したように、第7実施形態に係る情報処理システム10によれば、管理画面において、ファイル名とキーワードが一覧形式で表示される。このようにすれば、システム管理者等に対して、どの会話データにどのようなキーワードが紐付けられているかを分かりやすく提示することが可能である。
 上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の情報処理システムは、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する生成手段と、を備える情報処理システムである。
 (付記2)
 付記2に記載の情報処理システムは、前記複数人のうち少なくとも1人の音声に関する特徴量である第2特徴量を取得する特徴量取得手段と、前記第1特徴量と前記第2特徴量とを比較することで、前記第1特徴量から前記キーワードを発話した話者を特定できるか否かを判定する判定手段と、を更に備える付記1に記載の情報処理システムである。
 (付記3)
 付記3に記載の情報処理システムは、前記会話データに対する所定処理を要求するユーザに対して、前記照合用情報が生成された前記キーワードの発話を促す情報を提示する提示手段と、前記ユーザの発話内容から、前記ユーザの音声に関する特徴量である第3特徴量を抽出する認証用特徴量抽出手段と、発話を促した前記キーワードに関連付いた前記第1特徴量と、前記第3特徴量との比較結果に基づいて、前記ユーザによる前記所定処理の実行を許可するか否かを判定する許可判定手段と、を更に備える付記1又は2に記載の情報処理システムである。
 (付記4)
 付記4に記載の情報処理システムは、前記照合用情報は複数の前記キーワードについて生成されており、前記提示手段は、一部の前記キーワードの発話を促す情報を提示して、前記ユーザによる前記所定処理の実行を許可しないと判定された場合に、他の前記キーワードの発話を促す情報を提示する、付記3に記載の情報処理システムである。
 (付記5)
 付記5に記載の情報処理装置は、複数人の音声情報を含む会話データを取得する取得手段と、前記音声情報からキーワードを抽出するキーワード抽出手段と、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段と、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する生成手段と、を備える情報処理装置である。
 (付記6)
 付記6に記載の情報処理方法は、少なくとも1つのコンピュータが実行する情報処理方法であって、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する、情報処理方法である。
 (付記7)
 付記7に記載の記録媒体は、少なくとも1つのコンピュータに、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。
 (付記8)
 付記8に記載のコンピュータプログラムは、少なくとも1つのコンピュータに、複数人の音声情報を含む会話データを取得し、前記音声情報からキーワードを抽出し、前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する、情報処理方法を実行させるコンピュータプログラムである。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理システム、情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。
 10 情報処理システム
 11 プロセッサ
 110 会話データ取得部
 120 キーワード抽出部
 130 特徴量抽出部
 140 照合用情報生成部
 150 特徴量取得部
 160 利用可否判定部
 210 照合用情報記憶部
 220 キーワード提示部
 230 認証用特徴量抽出部
 240 許可判定部
 250 キーワード変更部
 500 端末

Claims (7)

  1.  複数人の音声情報を含む会話データを取得する取得手段と、
     前記音声情報からキーワードを抽出するキーワード抽出手段と、
     前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段と、
     前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する生成手段と、
     を備える情報処理システム。
  2.  前記複数人のうち少なくとも1人の音声に関する特徴量である第2特徴量を取得する特徴量取得手段と、
     前記第1特徴量と前記第2特徴量とを比較することで、前記第1特徴量から前記キーワードを発話した話者を特定できるか否かを判定する判定手段と、
     を更に備える請求項1に記載の情報処理システム。
  3.  前記会話データに対する所定処理を要求するユーザに対して、前記照合用情報が生成された前記キーワードの発話を促す情報を提示する提示手段と、
     前記ユーザの発話内容から、前記ユーザの音声に関する特徴量である第3特徴量を抽出する認証用特徴量抽出手段と、
     発話を促した前記キーワードに関連付いた前記第1特徴量と、前記第3特徴量との比較結果に基づいて、前記ユーザによる前記所定処理の実行を許可するか否かを判定する許可判定手段と、
     を更に備える請求項1又は2に記載の情報処理システム。
  4.  前記照合用情報は複数の前記キーワードについて生成されており、
     前記提示手段は、一部の前記キーワードの発話を促す情報を提示して、前記ユーザによる前記所定処理の実行を許可しないと判定された場合に、他の前記キーワードの発話を促す情報を提示する、
     請求項3に記載の情報処理システム。
  5.  複数人の音声情報を含む会話データを取得する取得手段と、
     前記音声情報からキーワードを抽出するキーワード抽出手段と、
     前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出する特徴量抽出手段と、
     前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する生成手段と、
     を備える情報処理装置。
  6.  少なくとも1つのコンピュータが実行する情報処理方法であって、
     複数人の音声情報を含む会話データを取得し、
     前記音声情報からキーワードを抽出し、
     前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、
     前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する、
     情報処理方法。
  7.  少なくとも1つのコンピュータに、
     複数人の音声情報を含む会話データを取得し、
     前記音声情報からキーワードを抽出し、
     前記音声情報から前記キーワードを発話した際の音声に関する特徴量である第1特徴量を抽出し、
     前記キーワードと前記第1特徴量とを関連付けた照合用情報を生成する、
     情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。
PCT/JP2021/029412 2021-08-06 2021-08-06 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 WO2023013060A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/029412 WO2023013060A1 (ja) 2021-08-06 2021-08-06 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
JP2023539570A JPWO2023013060A1 (ja) 2021-08-06 2021-08-06

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/029412 WO2023013060A1 (ja) 2021-08-06 2021-08-06 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023013060A1 true WO2023013060A1 (ja) 2023-02-09

Family

ID=85155474

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/029412 WO2023013060A1 (ja) 2021-08-06 2021-08-06 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Country Status (2)

Country Link
JP (1) JPWO2023013060A1 (ja)
WO (1) WO2023013060A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004294755A (ja) * 2003-03-27 2004-10-21 Secom Co Ltd 話者認証装置及び話者認証プログラム
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
JP2016206428A (ja) * 2015-04-23 2016-12-08 京セラ株式会社 電子機器および声紋認証方法
KR102113879B1 (ko) * 2018-12-19 2020-05-26 주식회사 공훈 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004294755A (ja) * 2003-03-27 2004-10-21 Secom Co Ltd 話者認証装置及び話者認証プログラム
US8543834B1 (en) * 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
JP2016206428A (ja) * 2015-04-23 2016-12-08 京セラ株式会社 電子機器および声紋認証方法
KR102113879B1 (ko) * 2018-12-19 2020-05-26 주식회사 공훈 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치

Also Published As

Publication number Publication date
JPWO2023013060A1 (ja) 2023-02-09

Similar Documents

Publication Publication Date Title
US8725514B2 (en) Verifying a user using speaker verification and a multimodal web-based interface
US10140992B2 (en) System and method for voice authentication over a computer network
CN104509065B (zh) 使用说话能力作为人类交互证明
EP3271917B1 (en) Communicating metadata that identifies a current speaker
US9524719B2 (en) Bio-phonetic multi-phrase speaker identity verification
KR101201151B1 (ko) 사용자 인증을 위한 시스템 및 방법
JP2013235570A (ja) 機密情報の音声入力のための方法、コンピュータ・プログラム、およびシステム
WO2016165245A1 (zh) 一种用户界面控制方法及终端
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP2020154496A (ja) 認証システム及び認証方法
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
WO2023013060A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
WO2023013062A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
KR20160129431A (ko) 전자 서명 서버 및 방법
KR100809662B1 (ko) 화자 인증을 이용한 온라인 컨텐츠의 사용자 인증 시스템및 방법
JP7370521B2 (ja) 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム
Adamski A speaker recognition solution for identification and authentication
AU2021339055A1 (en) A computer implemented method
Andolsen Can you understand me now?
JP2007531140A (ja) 個人用装置へのアクセスの制限
JPWO2023013060A5 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21952883

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023539570

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE