WO2022059446A1 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
WO2022059446A1
WO2022059446A1 PCT/JP2021/031234 JP2021031234W WO2022059446A1 WO 2022059446 A1 WO2022059446 A1 WO 2022059446A1 JP 2021031234 W JP2021031234 W JP 2021031234W WO 2022059446 A1 WO2022059446 A1 WO 2022059446A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
user
information processing
information
generated
Prior art date
Application number
PCT/JP2021/031234
Other languages
English (en)
French (fr)
Inventor
昭宏 小林
大 加地
Original Assignee
ベルフェイス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベルフェイス株式会社 filed Critical ベルフェイス株式会社
Priority to US18/023,874 priority Critical patent/US20230334260A1/en
Publication of WO2022059446A1 publication Critical patent/WO2022059446A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • the present invention relates to an information processing device, a program, and an information processing method.
  • Patent Document 1 discloses a remote conference support system capable of recording the contents of an interview.
  • the user may want to confirm the playback time when the participant was talking using a specific keyword.
  • the user does not remember the conversation content at the time of the interview, it is difficult to immediately grasp the playback time when a specific keyword is used.
  • the present invention has decided to provide a technique that makes it possible to easily grasp the reproduction time point of a specific keyword included in the interview voice.
  • an information processing device configured to execute a character information generation step, an extraction step, and a visual information generation step.
  • character information generation step character information including the talk script of the interview is generated from the voice data of the interview.
  • extraction step keywords are extracted from the character information.
  • visual information generation step visual information is generated in which the extracted keyword and the reproduction time point at which the keyword appears in the audio data are associated with each other.
  • the program for realizing the software appearing in the present embodiment may be provided as a non-temporary recording medium readable by a computer, may be provided as a downloadable form from an external server, or may be provided. It may be provided to start the program on an external computer and realize the function on the client terminal (so-called cloud computing).
  • the "part" may include, for example, a combination of hardware resources implemented by a circuit in a broad sense and information processing of software specifically realized by these hardware resources. ..
  • various information is handled in this embodiment, and these information are, for example, physical values of signal values representing voltage and current, and signal values as a bit aggregate of a binary number composed of 0 or 1. It is represented by high-low or quantum superposition (so-called qubit), and communication / operation can be executed on a circuit in a broad sense.
  • a circuit in a broad sense is a circuit realized by at least appropriately combining a circuit, a circuit, a processor, a memory, and the like. That is, an integrated circuit for a specific application (Application Specific Integrated Circuit: ASIC), a programmable logic device (for example, a simple programmable logic device (Simple Programmable Logic Device: SPLD), a composite programmable logic device (Complex Program)) It includes a programmable gate array (Field Programmable Gate Array: FPGA) and the like.
  • FIG. 1 is a diagram showing an outline of the configuration of the system 1 according to the present embodiment.
  • the system 1 includes a voice reproduction terminal 2, an information processing device 3, a first user terminal 4, and a second user terminal 5, which are configured to be communicable through a telecommunication line.
  • the voice reproduction terminal 2 is operated by a person who reproduces the voice data of the interview, and any form thereof can be used as long as the information processing device 3 can be accessed through a smartphone, a tablet terminal, a computer, or other telecommunication lines. do not have.
  • the audio reproduction terminal 2 has a display unit, an input unit, a communication unit, a storage unit, and a control unit, and these components are electrically connected to each other inside the audio reproduction terminal 2 via a communication bus. Has been done.
  • the display unit and the input unit may be, for example, those included in the housing of the audio reproduction terminal 2 or those externally attached.
  • the display unit displays a screen of a graphical user interface (GUI) that can be operated by the user.
  • GUI graphical user interface
  • the input unit may be implemented as a touch panel integrally with the display unit. If it is a touch panel, the user can input a tap operation, a swipe operation, and the like. Of course, instead of the touch panel, a switch button, a mouse, a QWERTY keyboard, or the like may be adopted.
  • the communication unit For specific explanations of the communication unit, the storage unit, and the control unit, refer to the description of the communication unit 31, the storage unit 32, and the control unit 33 in the information processing device 3 described below.
  • FIG. 2 is a block diagram showing a hardware configuration of the information processing apparatus 3.
  • the information processing device 3 has a communication unit 31, a storage unit 32, and a control unit 33, and these components are electrically connected to each other inside the information processing device 3 via a communication bus 30. Each component will be further described.
  • Communication unit 31 Although wired communication means such as USB, IEEE1394, Thunderbolt, and wired LAN network communication are preferable, the communication unit 31 can perform wireless LAN network communication, mobile communication such as LTE / 3G, Bluetooth (registered trademark) communication, and the like as necessary. May be included. That is, it is more preferable to carry out as a set of these plurality of communication means.
  • the storage unit 32 stores various information defined by the above description. This is, for example, as a storage device such as a solid state drive (SSD) that stores various programs and the like related to the information processing apparatus 3 executed by the control unit 33, or temporarily related to the calculation of the program. It can be implemented as a memory such as a random access memory (Random Access Memory: RAM) for storing information (arguments, arrays, etc.) required for the memory. Further, these combinations may be used.
  • a storage device such as a solid state drive (SSD) that stores various programs and the like related to the information processing apparatus 3 executed by the control unit 33, or temporarily related to the calculation of the program.
  • SSD solid state drive
  • RAM random access memory
  • information arguments, arrays, etc.
  • the storage unit 32 stores the voice data of the interview, the character information 6, the keyword 60 extracted by the extraction unit 335, and the like.
  • the voice data of the interview is voice data related to the interview conducted by a plurality of persons (for example, the first user 4a and the second user 5a).
  • the interview is, for example, a business negotiation, a meeting, an interview, a conference, a class, a class, etc. conducted via a network, but is not limited to these, and a plurality of users can use the screen and voice via the Internet.
  • Interviews include those that interact through.
  • the interview is not limited to one-to-one, but may be one-to-many, many-to-one, or many-to-many.
  • the audio data may be included in the moving image data, and the audio data may be stored in the storage unit 32 as moving image data.
  • the voice data is related to a business negotiation between a first user 4a who is a sales person and a second user 5a who is a customer will be described as an example, but the present invention is limited to this. It's not a thing. In addition to business negotiations, it can be applied as long as it is an interview.
  • Control unit 33 The control unit 33 processes and controls the overall operation related to the information processing device 3.
  • the control unit 33 is, for example, a central processing unit (CPU) (not shown).
  • the control unit 33 realizes various functions related to the information processing device 3 by reading out a predetermined program stored in the storage unit 32. That is, information processing by software (stored in the storage unit 32) is specifically realized by hardware (control unit 33), and is executed as each functional unit (see FIG. 3) included in the control unit 33. Can be done. These will be described in more detail in the next section.
  • the control unit 33 is not limited to a single unit, and may be implemented so as to have a plurality of control units 33 for each function. Further, it may be a combination thereof.
  • the first user terminal 4 is operated by the first user 4a, and its form is not limited as long as it can access the information processing device 3 through a smartphone, a tablet terminal, a computer, or other telecommunication lines. ..
  • the first user 4a is a participant in the interview, for example, a sales person who sells a product or a service, a person who receives a recruitment interview, a lecturer who conducts a class or a class, and the like.
  • the number of first users 4a operating the first user terminal 4 and the first user terminal 4 may be plural.
  • the first user terminal 4 has a display unit, an input unit, a communication unit, a storage unit, and a control unit, and these components provide a communication bus inside the external first user terminal 4. It is electrically connected via.
  • a description of each component refer to the description of the audio reproduction terminal 2 and the information processing apparatus 3.
  • the second user terminal 5 is operated by the second user 5a, and its form is not limited as long as it can access the information processing device 3 through a smartphone, a tablet terminal, a computer, or other telecommunication lines. ..
  • the second user 5a is a participant in the interview, for example, a customer of the first user 4a, a recruitment interviewer, a lecturer, a lecturer, or the like.
  • the number of the second user 5a operating the second user terminal 5 and the second user terminal 5 may be plural.
  • the second user terminal 5 has a display unit, an input unit, a communication unit, a storage unit, and a control unit, and these components are inside the second user terminal 5 via a communication bus. It is electrically connected. For a description of each component, refer to the description of the audio reproduction terminal 2 and the information processing apparatus 3.
  • FIG. 3 is a functional block diagram showing the functions of the information processing apparatus 3. As described above, the information processing by the software (stored in the storage unit 32) is specifically realized by the hardware (control unit 33), so that the information processing can be executed as each functional unit included in the control unit 33.
  • the information processing device 3 has, as each functional unit, a reception unit 331, an identification unit 332, an interview voice generation unit 333, a character information generation unit 334, an extraction unit 335, and a visual sense. It is provided with an information generation unit 336.
  • the reception unit 331 executes the reception step.
  • the reception unit 331 receives information via the communication unit 31 or the storage unit 32, and is configured to be readable in the working memory.
  • the reception unit 331 receives various information (for example, audio data or moving image data including audio data) from the first user terminal 4 and the second user terminal 5 via the network and the communication unit 31. It is composed of.
  • various information received by the reception unit 331 will be stored in the storage unit 32, and an example will be described in which the information is readable in the working memory.
  • the identification unit 332 executes the identification step.
  • the identification unit 332 executes voice recognition processing on the voice data, and discriminates between the voice by the first user 4a and the voice by the second user 5a included in the voice data.
  • the identified voice by the first user 4a and the voice by the second user 5a are stored in the storage unit 32, respectively, and are configured to be readable in the working memory.
  • the recognition algorithm is not particularly limited, and for example, an algorithm using machine learning-based natural language processing or the like can be appropriately adopted.
  • the interview voice generation unit 333 executes the interview voice generation step.
  • the interview voice generation unit 333 generates voice data including the first voice data and the second voice data in an identifiable manner.
  • the voice data generated by the interview voice generation unit 333 is stored in the storage unit 32 and is configured to be readable in the working memory.
  • the character information generation unit 334 executes the character information generation step.
  • the character information generation unit 334 generates character information 6 from the voice data stored in the storage unit 32, and controls the display unit of the voice reproduction terminal 2 or the like to display the character information 6.
  • the character information generation unit 334 may generate only rendering information for displaying the character information 6 on a display unit such as a voice reproduction terminal 2.
  • the character information 6 generated by the character information generation unit 334 is stored in the storage unit 32 in association with the voice data, and is configured to be readable in the working memory.
  • the extraction unit 335 executes the extraction step.
  • the extraction unit 335 extracts the keyword 60 from the character information 6.
  • the keyword 60 extracted by the extraction unit 335 can be set in advance, and such a setting is stored in the storage unit 32.
  • the visual information generation unit 336 executes the visual information 7 generation step.
  • the visual information generation unit 336 generates visual information 7 such as various information (for example, an icon 70) stored in the storage unit 32 or a screen, an image, etc. including these, and visually displays it on a display unit such as a voice reproduction terminal 2. It is controlled to display the information 7.
  • the visual information generation unit 336 may generate only rendering information for displaying the visual information 7 on a display unit such as an audio reproduction terminal 2.
  • the visual information 7 generated by the visual information generation unit 336 is stored in the storage unit 32 and is configured to be readable in the working memory.
  • FIG. 4 is an activity diagram showing an example of information processing by the information processing apparatus 3.
  • This section describes the information processing when the voice data is stored in the information processing device 3 in advance.
  • the reception unit 331 reads the voice data stored in the storage unit 32 of the information processing device 3 into the working memory (A101). If the first voice data by the first user 4a and the second voice data by the second user 5a are discriminated, the process proceeds to A102, and if the discrimination is not performed, the process proceeds to A103.
  • the identification unit 332 executes voice recognition processing on the voice data, and discriminates between the voice by the first user 4a and the voice by the second user 5a included in the voice data.
  • the identification unit 332 identifies the speaker in the interview (for example, the first user 4a who is a sales person or the second user 5a who is a customer) based on the waveform of the voice data.
  • the identification unit 332 stores physical quantities such as voice frequencies of the first user 4a and / or the second user 5a, compares the stored data with the voice data, and first. The user 4a and / or the second user 5a may be identified and the speaker may be identified.
  • the identification unit 332 inputs voice data into a trained model in which the first user 4a and / or the second user 5a has learned in advance what is likely to be spoken in an interview, and the voice data. May identify the speaker based on the output of the first user 4a or the second user 5a. The identified voices are stored in the storage unit 32, respectively.
  • the character information generation unit 334 generates character information 6 including the talk script of the interview from the voice data of the interview (A103).
  • FIG. 5 is a diagram showing an example of a GUI displayed on the display unit of the audio reproduction terminal 2. As shown in FIG. 5, the character information generation unit 334 obtains character information 6 including a talk script indicating the content spoken by each user from the voice data of the interview by the first user 4a and the second user 5a. Generate.
  • the first character information 61 and the second character information 62 are generated by identifying the voice data or the voice included in the voice data, the first character information 61 and the second character information 62 are distinguished. It is displayed on the display unit of the audio reproduction terminal 2 in a possible manner.
  • the character information generation unit 334 is the first user.
  • the first character information 61 including the talk script of the first user 4a is generated from the voice data related to the voice by 4a.
  • the character information generation unit 334 generates the second character information 62 including the talk script of the second user 5a from the voice data related to the voice by the second user 5a.
  • the character information generation unit 334 is the first from the voice by the first user 4a.
  • the first character information 61 including the talk script of the user 4a of 1 is generated, and the character information generation unit 334 generates the second character information including the talk script of the second user 5a from the voice of the second user 5a. 62 is generated.
  • the extraction unit 335 extracts the keyword 60 from the character information 6 (A104).
  • the keyword 60 is, for example, date and time information, customer information (name, company name, department name, age, gender, etc.), information on a product or service (product name, price of a product, number of products, etc.).
  • the keyword 60 is a unit and preferably a currency, but is not limited thereto.
  • the keyword 60 extracted by the extraction unit 335 may be a plurality of keywords 60. According to the example of FIG. 5, the Japanese currency "yen" included in the talk script of the first user 4a is extracted as the keyword 60. In addition, "4000 yen" including the amount of money may be extracted as the keyword 60. Further, according to a predetermined setting, only a certain amount of money or more may be extracted, and a plurality of types of keywords 60 may be extracted.
  • the extracted keyword 60 is stored in the storage unit 32.
  • the extraction unit 335 extracts only the keyword 60 from the first character information 61.
  • the keyword 60 included in the voice data related to the first user 4a is extracted and the visual information 7 described later is displayed, the person who reproduces the interview voice speaks to the sales person. Only the keyword 60 and the time of reproduction in which the keyword 60 appears can be grasped.
  • the visual information generation unit 336 generates visual information 7 in which the extracted keyword 60 and the reproduction time point at which the keyword 60 appears in the audio data are associated with each other. Specifically, the visual information generation unit 336 generates visual information 7 in which the extracted keyword 60 and the seek bar 71 indicating the reproduction location of the audio data are associated with each other. At this time, when only the keyword 60 included in the first character information 61 is extracted, only the visual information 7 related to the specific keyword 60 included in the remark of the first user 4a is generated. As described above, by generating the visual information 7 in which the keyword 60 and the reproduction time point at which the keyword 60 appears in the seek bar 71 are associated with each other, the person who reproduces the voice data can use the specific keyword 60 in the interview voice. It becomes possible to immediately grasp the playback time of.
  • the visual information 7 is, for example, an icon 70 that can be identified as being associated with the keyword 60.
  • the visual information generation unit 336 generates an icon 70 including the keyword 60 corresponding to the reproduction time at a position in the seek bar 71 where the reproduction time when the keyword 60 appears can be grasped.
  • the visual information generation unit 336 generates the visual information 7 so that the extracted keyword 60 is included in the icon 70.
  • the position where the icon 70 can be grasped is, for example, at least one of the top, bottom, left, and right at the time of reproduction in which the keyword 60 in the seek bar 71 appears.
  • the upper, lower, left, and right include the upper right, the lower right, the upper left, and the lower left at the time of the reproduction.
  • the icon 70 includes a "circle" which is a keyword 60 extracted from the first character information 61.
  • the icon 70 does not have to include the keyword 60.
  • the visual information generation unit 336 generates the visual information 7 that can identify the appearance order of the plurality of keywords 60. As shown in FIG. 5, when a plurality of keywords 60 are extracted, the icon 701, the icon 702, and the icon 703 are displayed side by side in the order of the earliest playback time of the voice data in which the keyword 60 appears. In addition, it is preferable that the visual information generation unit 336 generate each icon 70. With such a configuration, when a person who plays the interview voice confirms the specific keyword 60 included in the interview voice, it is intuitive at what timing in the interview voice and how many specific keywords 60 appear. It becomes possible to grasp.
  • FIG. 6 is an activity diagram showing an example of information processing by the information processing apparatus 3.
  • the reception unit 331 receives the first voice data by the first user 4a and the second voice data by the second user 5a (A201). Specifically, the reception unit 331 divides the first voice data transmitted from the first user terminal 4 and the second voice data transmitted from the second user terminal 5 via the communication unit 31. It is received separately, and these are stored in the storage unit 32. Since the terminal that is the source is known, it is possible to distinguish between the first voice data and the second voice data from the beginning in this way.
  • the interview voice generation unit 333 generates voice data that can distinguish the first voice data and the second voice data.
  • the header information of the voice data may include a description in which the reproduction time is associated with the first voice data or the second voice data.
  • the character information generation unit 334 generates the first character information 61 including the talk script of the first user 4a from the first voice data, and the second user from the voice data related to the second voice data.
  • the second character information 62 including the talk script of 5a is generated.
  • the extraction unit 335 extracts the keyword 60 from the first character information 61 (A204).
  • the visual information generation unit 336 After that, the visual information generation unit 336 generates visual information 7 in which the extracted keyword 60 and the reproduction time point at which the keyword 60 appears in the audio data are associated with each other (A205).
  • visual information 7 For the explanation of the visual information 7, refer to the description in Section 3.1.
  • the voice data is stored in the information processing apparatus 3 in advance even if the voice data is in a format in which the voice by the first user 4a and the voice by the second user 5a can be distinguished. As in the case, the visual information 7 is generated.
  • the interview conducted between the sales person and the customer it is displayed at which playback time in the interview voice the specific keyword 60 is used. Can be done.
  • the person who plays the interview voice can grasp what kind of keyword 60 is used at what timing by the person in charge with good sales performance, and educate other sales staff in the interview voice. Etc. can be used.
  • the visual information generation unit 336 may generate visual information 7 so that the display mode differs depending on the extracted keyword 60. For example, when the extracted keyword 60 is a currency, visual information 7 having different colors or sizes may be generated depending on the amount of the keyword 60. Further, for example, the visual information 7 may be generated so that the display mode differs depending on whether the extracted keyword 60 is customer information or the price of a product. (1-2) When the extracted keyword 60 is a currency, the visual information generation unit 336 generates the icon 70 related to the keyword 60 having a large amount of money so as to have a display mode different from that of the other icons 70. May be good.
  • the visual information generation unit 336 controls that the icon 70 related to the largest amount of money among the extracted keywords 60 is displayed in the largest size, and is displayed in a color different from that of the other icons 70. Control. Further, for example, the visual information generation unit 336 generates the icon 70 more conspicuously as the amount of the keyword 60 increases. Specifically, when the extracted keyword 60 includes 1,000 yen and 10,000 yen, the visual information 7 is generated so that the visual information 7 related to 10,000 yen is larger. do. For example, when the icon 702 is the visual information 7 related to 10,000 yen and the icon 703 is the visual information 7 related to 1,000 yen, the icon 702 is larger than the icon 703 as shown in FIG. Is displayed.
  • the visual information generation unit 336 indicates that the keyword 60 having a large amount of money is larger than the other keywords 60 included in the icon 70 or is bold. Control to display with. In the example of FIG. 5, the icon 702 is displayed in characters larger than the icon 703. (1-4) When the keyword 60 is extracted from the first character information 61 and the second character information 62, the visual information generation unit 336 is whether the keyword 60 is extracted from the first character information 61. The visual information 7 may be generated so that the display mode differs depending on whether the information is extracted from the second character information 62.
  • the visual information 7 related to the keyword 60 extracted from the first character information 61 is controlled to be displayed in blue, and the visual information 7 related to the keyword 60 extracted from the second character information 62 is displayed in red. You may.
  • the first character information 61 and the second character information 62 are identified, only the keyword 60 may be extracted from the second character information 62.
  • the keyword 60 included in the remark by the second user 5a and the reproduction time of the voice data corresponding to the keyword 60 can be grasped, and the person who reproduces the interview voice can use what kind of keyword 60 by the customer.
  • the interview voice can be used for education of other sales staff, such as being able to grasp when it is being used.
  • the information processing apparatus 3 may be implemented by installing a dedicated program in the computer.
  • the embodiment of the present embodiment may be a program.
  • the program causes the computer to execute each step of the information processing apparatus 3.
  • the embodiment of the present embodiment may be an information processing method.
  • the information processing method includes a character information generation step, an extraction step, and a visual information generation step.
  • character information 6 including the talk script of the interview is generated from the voice data of the interview.
  • the keyword 60 is extracted from the character information 6.
  • the visual information generation step the extracted keyword 60 and the playback time point in which the keyword 60 appears in the audio data are associated with each other to generate the visual information 7.
  • the keyword is a plurality of keywords
  • visual information that can identify the appearance order of the plurality of keywords is generated.
  • visual information in which the extracted keyword and a seek bar indicating a reproduction location of the audio data are associated with each other is generated.
  • an icon including the keyword corresponding to the reproduction time is generated at a position in the seek bar where the reproduction time when the keyword appears can be grasped.
  • the graspable position of the icon is at least one of the top, bottom, left, and right at the time of reproduction in which the keyword appears in the seek bar.
  • the interview is performed by the first user and the second user, and in the character information generation step, the first character including the talk script of the first user from the voice data.
  • Information and a second character information including a talk script of the second user are generated, and in the extraction step, the keyword is extracted from the first character information.
  • the information processing apparatus is configured to further execute an identification step.
  • a voice recognition process is executed on the voice data, and the voice by the first user included in the voice data and the voice by the first user.
  • the character information generation step the first character information is generated from the voice by the first user, and the second from the voice by the second user. The one that generates the character information of.
  • the information processing apparatus is configured to further execute the reception step and the interview voice generation step.
  • the reception step the first voice data by the first user and the second voice data by the second user are executed.
  • the interview voice generation step the voice data is generated, and the voice data including the first voice data and the second voice data can be distinguished from each other.
  • the first user is a sales person
  • the second user is a customer
  • the voice data includes a business negotiation between the sales person and the customer.
  • the keyword is a unit.
  • the keyword is currency.
  • character information generation step character information including the talk script of the interview is generated from the voice data of the interview.
  • extraction step a keyword is extracted from the character information, and in the visual information generation step, visual information in which the extracted keyword is associated with a reproduction time point in which the keyword appears in the voice data is generated. how to. Of course, this is not the case.
  • System 2 Voice reproduction terminal 3: Information processing device 30: Communication bus 31: Communication unit 32: Storage unit 33: Control unit 331: Reception unit 332: Identification unit 333: Interview voice generation unit 334: Character information generation unit 335 : Extraction unit 336: Visual information generation unit 4: First user terminal 4a: First user 5: Second user terminal 5a: Second user 6: Character information 60: Keyword 61: First character information 62 : Second character information 7: Visual information 70: Icon 71: Seek bar 701: Icon 702: Icon 703: Icon

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供する。このため情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。

Description

情報処理装置、プログラム及び情報処理方法
 本発明は、情報処理装置、プログラム及び情報処理方法に関する。
 近年、オンライン上で面談を行いたいという要求がある。また、面談後に面談内容を確認したい場合には、面談内容を録音して記録に残しておくことがある。特許文献1には、面談内容を録音することができる遠隔会議支援システムが開示されている。
特開2013-26706号公報
 ところで、面談音声を再生する際、ユーザは、参加者が特定のキーワードを用いて会話していた再生時点を確認したい場合がある。しかしながら、ユーザが面談時の会話内容を覚えていない場合、特定のキーワードが用いられた再生時点を即座に把握することは困難である。
 本発明では上記事情を鑑み、面談音声に含まれる特定のキーワードの再生時点を容易に把握可能とする技術を提供することとした。
 本発明の一態様によれば、情報処理装置が提供される。この情報処理装置は、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成される。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報を生成する。抽出ステップでは、文字情報から、キーワードを抽出する。視覚情報生成ステップでは、抽出されたキーワードと、音声データにおけるキーワードが出現した再生時点とが対応付けられた視覚情報を生成する。
 これにより、ユーザは、面談音声に含まれる特定のキーワードの再生時点を容易に把握することができる。
本実施形態に係るシステム1の構成概要を示す図である。 情報処理装置3のハードウェア構成を示すブロック図である。 情報処理装置3の機能を示す機能ブロック図である。 情報処理装置3による情報処理の一例を示すアクティビティ図である。 音声再生端末2の表示部に表示されるGUIの一例を示す図である。 情報処理装置3による情報処理の一例を示すアクティビティ図である。
 以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
 ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
 また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
 また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
1.ハードウェア構成
 本節では、本実施形態のハードウェア構成について説明する。図1は、本実施形態に係るシステム1の構成概要を示す図である。
1.1 システム1
 システム1は、音声再生端末2と、情報処理装置3と、第1のユーザ端末4と、第2のユーザ端末5とを備え、これらが電気通信回線を通じて通信可能に構成される。
1.2 音声再生端末2
 音声再生端末2は、面談の音声データを再生する者が操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。
 音声再生端末2は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が音声再生端末2の内部において通信バスを介して電気的に接続されている。
 表示部及び入力部は、例えば、音声再生端末2の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。入力部は、表示部と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。
 通信部、記憶部及び制御部の具体的な説明については、次に説明する情報処理装置3における通信部31、記憶部32及び制御部33の記載を参照されたい。
1.3 情報処理装置3
 図2は、情報処理装置3のハードウェア構成を示すブロック図である。情報処理装置3は、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が情報処理装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
(通信部31)
 通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
(記憶部32)
 記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される情報処理装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
 特に、記憶部32は、面談の音声データ、文字情報6、抽出部335に抽出されたキーワード60等を記憶する。面談の音声データとは、複数の者(例えば、第1のユーザ4aと、第2のユーザ5a)によって実施された面談に係る音声データである。ここで、面談とは、例えば、ネットワークを介して行われた商談、打ち合わせ、面接、会議、講習会、授業等であるが、これらに限られず、インターネットを介して複数のユーザが画面及び音声を介してやり取りを行うものは面談に含まれる。面談は、1対1に限らず、1対多、多対1、多対多であってもよい。なお、音声データは、動画データに含まれるものであってもよく、音声データは、動画データとして記憶部32に記憶されていてもよい。本実施形態では、音声データは、営業担当者である第1のユーザ4aと、顧客である第2のユーザ5aとの商談に係るものである場合を例に説明するが、これに限定されるものではない。商談以外にも、面談を行うものであれば適用可能である。
(制御部33)
 制御部33は、情報処理装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、情報処理装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(図3参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
1.4 第1のユーザ端末4
 第1のユーザ端末4は、第1のユーザ4aが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。第1のユーザ4aは、面談の参加者であり、例えば、商品又はサービスを販売する営業担当者、採用面接を受ける者、講習会又は授業を行う講師等である。なお、第1のユーザ端末4及び第1のユーザ端末4を操作する第1のユーザ4aは複数でもよい。
 第1のユーザ端末4は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が外部の第1のユーザ端末4の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末2及び情報処理装置3の記載を参照されたい。
1.5 第2のユーザ端末5
 第2のユーザ端末5は、第2のユーザ5aが操作するものであり、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて情報処理装置3にアクセス可能なものであれば、その形態は問わない。第2のユーザ5aは、面談の参加者であり、例えば、第1のユーザ4aの顧客、採用面接官、講習会又は講義の受講者等である。なお、第2のユーザ端末5及び第2のユーザ端末5を操作する第2のユーザ5aは複数でもよい。
 第2のユーザ端末5は、表示部と、入力部と、通信部と、記憶部と、制御部とを有し、これらの構成要素が第2のユーザ端末5の内部において通信バスを介して電気的に接続されている。各構成要素の説明は音声再生端末2及び情報処理装置3の記載を参照されたい。
2.機能構成
 本節では、本実施形態の機能構成について説明する。図3は、情報処理装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
 具体的には、情報処理装置3(制御部33)は、各機能部として、受付部331と、識別部332と、面談音声生成部333と、文字情報生成部334、抽出部335と、視覚情報生成部336とを備える。
(受付部331)
 受付部331は、受付ステップを実行する。受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、第1のユーザ端末4と、第2のユーザ端末5とからネットワーク及び通信部31を介して種々の情報(例えば、音声データ又は音声データを含む動画データ)を受け付けるように構成される。本実施形態では、受付部331が受け付けた種々の情報は、記憶部32に記憶され、作業メモリに読出可能に構成される例を説明する。
(識別部332)
 識別部332は、識別ステップを実行する。識別部332は、音声データに対して音声認識処理を実行し、音声データに含まれる第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別する。識別された第1のユーザ4aによる音声及び第2のユーザ5aによる音声は、それぞれ記憶部32に記憶され、作業メモリに読出可能に構成される。認識のアルゴリズムは特に限定されず、例えば、機械学習ベースの自然言語処理を用いたアルゴリズム等が適宜採用されうる。
(面談音声生成部333)
 面談音声生成部333は、面談音声生成ステップを実行する。面談音声生成部333は、第1の音声データと、第2の音声データとを識別可能に含む音声データを生成する。面談音声生成部333により生成された音声データは、記憶部32に記憶され、作業メモリに読出可能に構成される。
(文字情報生成部334)
 文字情報生成部334は、文字情報生成ステップを実行する。文字情報生成部334は、記憶部32に記憶された音声データから文字情報6を生成し、音声再生端末2等の表示部に文字情報6を表示させるように制御する。あるいは、文字情報生成部334は、文字情報6を音声再生端末2等の表示部に表示させるためのレンダリング情報だけを生成してもよい。文字情報生成部334によって生成された文字情報6は、音声データと関連付けられて記憶部32に記憶され、作業メモリに読出可能に構成される。
(抽出部335)
 抽出部335は、抽出ステップを実行する。抽出部335は、文字情報6から、キーワード60を抽出する。なお、抽出部335が抽出するキーワード60は、予め設定可能であり、かかる設定は記憶部32に記憶される。
(視覚情報生成部336)
 視覚情報生成部336は、視覚情報7生成ステップを実行する。視覚情報生成部336は、記憶部32に記憶された種々の情報(例えば、アイコン70)又はこれらを含む画面、画像、等の視覚情報7を生成し、音声再生端末2等の表示部に視覚情報7を表示させるように制御する。あるいは、視覚情報生成部336は、前記視覚情報7を音声再生端末2等の表示部に表示させるためのレンダリング情報だけを生成してもよい。視覚情報生成部336によって生成された視覚情報7は、記憶部32に記憶され、作業メモリに読出可能に構成される。
3.情報処理の詳細
 本節では、アクティビティ図を参照しながら、前述した情報処理装置3の情報処理について説明する。図4は、情報処理装置3による情報処理の一例を示すアクティビティ図である。
3.1 音声データが情報処理装置3に予め記憶されている場合
 本節では、音声データが情報処理装置3に予め記憶されている場合の情報処理を説明する。
 まず、受付部331は、情報処理装置3の記憶部32に記憶された音声データを作業メモリに読み出す(A101)。第1のユーザ4aによる第1の音声データと、第2のユーザ5aによる第2の音声データとを識別する場合、A102に進み、前記識別を行わない場合、A103に進む。
 A102では、識別部332は、音声データに対して音声認識処理を実行し、音声データに含まれる第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別する。ここで、識別部332は、音声データの波形に基づき、面談における話者(例えば、営業担当者である第1のユーザ4aか、顧客である第2のユーザ5aか)を識別する。さらに、識別部332は、第1のユーザ4a及び/又は第2のユーザ5aの声の周波数等の物理量を記憶しておき、記憶されているデータと、音声データとを比較し、第1のユーザ4a及び/又は第2のユーザ5aを特定し、話者を識別してもよい。さらに他の例として、識別部332は、第1のユーザ4a及び/又は第2のユーザ5aが面談にて話しそうな内容を予め学習させた学習済みモデルに音声データを入力し、その音声データが第1のユーザ4aか、第2のユーザ5aかの出力に基づき、話者を識別してもよい。識別された音声は、それぞれ記憶部32に記憶される。
 続いて、文字情報生成部334は、面談の音声データから面談のトークスクリプトを含む文字情報6を生成する(A103)。図5は、音声再生端末2の表示部に表示されるGUIの一例を示す図である。図5に示されるように、文字情報生成部334は、第1のユーザ4a及び第2のユーザ5aによる面談の音声データから、それぞれのユーザが話した内容を示すトークスクリプトを含む文字情報6を生成する。
 音声データ又は音声データに含まれる音声が識別されることにより、第1の文字情報61及び第2の文字情報62が生成された場合、第1の文字情報61及び第2の文字情報62が区別可能な態様で音声再生端末2の表示部に表示される。具体的には、読み出された音声データが、第1の音声データと、第2の音声データとを識別可能なデータ構造を有している場合、文字情報生成部334は、第1のユーザ4aによる音声に係る音声データから第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成する。また、文字情報生成部334は、第2のユーザ5aによる音声に係る音声データから第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
 また、識別部332によって音声データが第1のユーザ4aによる音声と、第2のユーザ5aによる音声とに識別されている場合、文字情報生成部334は、第1のユーザ4aによる音声から、第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成し、文字情報生成部334は、第2のユーザ5aによる音声から、第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
 次に、抽出部335は、文字情報6から、キーワード60を抽出する(A104)。ここで、キーワード60は、例えば、日時情報、顧客情報(氏名、会社名、部署名、年齢、性別等)、商品又はサービスに関する情報等(商品名、商品の金額、商品数等)である。また、例えば、キーワード60は、単位であり、通貨であることが好ましいが、これに限定されない。また、抽出部335が抽出するキーワード60は、複数のキーワード60であってもよい。図5の例によれば、第1のユーザ4aのトークスクリプトに含まれる日本通貨の「円」がキーワード60として抽出される。なお、金額を含む「4000円」がキーワード60として抽出されてもよい。また、予め定められた設定により、一定金額以上のみが抽出されてもよく、抽出するキーワード60は、複数種類でもよい。抽出されたキーワード60は、記憶部32に記憶される。
 特に、音声データの識別が行われた場合、抽出部335は、第1の文字情報61から、キーワード60のみを抽出することが好ましい。このような構成により、第1のユーザ4aに係る音声データに含まれるキーワード60のみが抽出され、後述する視覚情報7が表示された際、面談音声を再生する者は、営業担当者の発言に係るキーワード60と、そのキーワード60が出現した再生時点のみを把握することができる。
 次に、A105において、視覚情報生成部336は、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する。具体的には、視覚情報生成部336は、抽出されたキーワード60と、音声データの再生箇所を示すシークバー71とが対応付けられた視覚情報7を生成する。このとき、第1の文字情報61に含まれるキーワード60のみが抽出されている場合、第1のユーザ4aの発言に含まれる特定のキーワード60に係る視覚情報7のみが生成されることとなる。このように、キーワード60と、シークバー71におけるキーワード60が出現した再生時点とが紐付けられた態様の視覚情報7が生成されことで、音声データを再生する者は、面談音声における特定のキーワード60の再生時点を即座に把握可能となる。
 ここで、視覚情報7は、例えば、キーワード60に紐付けられたものであることが識別可能なアイコン70である。例えば、視覚情報生成部336は、シークバー71におけるキーワード60が出現した再生時点を把握可能な位置に、再生時点に対応するキーワード60を含むアイコン70を生成する。図5に示されるように、視覚情報生成部336は、アイコン70の中に、抽出したキーワード60が含まれるように視覚情報7を生成する。ここで、アイコン70の把握可能な位置とは、例えば、シークバー71におけるキーワード60が出現した再生時点の上下左右の少なくともいずれかであることが好ましい。ここで、前記上下左右には、前記再生時点の右上、右下、左上、左下が含まれる。このような位置に併記されていることで、音声データを再生する者は、キーワード60が出現する再生時点を直感的に把握することができる。図5に示される例では、アイコン70は、第1の文字情報61から抽出されたキーワード60である「円」を含む。なお、アイコン70にキーワード60が含まれなくてもよい。
 また、視覚情報生成部336は、複数のキーワード60の登場順を識別可能な視覚情報7を生成することが好ましい。図5に示されるように、複数のキーワード60が抽出された場合、キーワード60が出現した音声データの再生時点の早い順番で、アイコン701と、アイコン702と、アイコン703とが並べて表示されるように、視覚情報生成部336は、それぞれのアイコン70を生成することが好ましい。このような構成により、面談音声を再生する者が、面談音声に含まれる特定のキーワード60を確認する際、面談音声中のどんなタイミングで、どれくらい数の特定のキーワード60が出現したのかを直感的に把握可能となる。
3.2 第1のユーザ端末4及び第2のユーザ端末5から音声データを受け付ける場合
 本節では、音声データを第1のユーザ端末4及び第2のユーザ端末5から受け付ける場合の情報処理を説明する。図6は、情報処理装置3による情報処理の一例を示すアクティビティ図である。
 受付部331は、第1のユーザ4aによる第1の音声データと、第2のユーザ5aによる第2の音声データとをそれぞれ受け付ける(A201)。具体的には、受付部331は、通信部31を介して、第1のユーザ端末4から送信された第1の音声データ及び第2のユーザ端末5から送信された第2の音声データを区別して受け付け、これらが記憶部32に記憶される。発信元である端末が既知であるため、このように、はじめから第1の音声データと、第2の音声データとを区別して受け付けることができる。
 続いて、A202において、面談音声生成部333は、第1の音声データと、第2の音声データとを識別可能に含む音声データを生成する。具体的には例えば、音声データのヘッダ情報等に、再生時間と第1の音声データ又は第2の音声データである旨とを紐付けた記載を含むように実施すればよい。
 A203において、文字情報生成部334は、第1の音声データから第1のユーザ4aのトークスクリプトを含む第1の文字情報61を生成し、第2の音声データに係る音声データから第2のユーザ5aのトークスクリプトを含む第2の文字情報62を生成する。
 続いて、抽出部335は、第1の文字情報61から、キーワード60を抽出する(A204)。
 その後、視覚情報生成部336は、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する(A205)。なお、視覚情報7に係る説明は、3.1節における記載を参照されたい。
 このような情報処理により、第1のユーザ4aによる音声と、第2のユーザ5aによる音声とを識別可能な形式の音声データであっても、音声データが情報処理装置3に予め記憶されている場合と同様、視覚情報7が生成される。
 上記に示されるように、本実施形態によれば、営業担当者と顧客とで行われた面談において、面談音声におけるどの再生時点で、特定のキーワード60が、使用されているのかを表示させることができる。これにより、面談音声を再生する者は、営業成績がよい担当者がどのようなキーワード60をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
4.その他
 本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
(1-1)視覚情報生成部336は、抽出されたキーワード60によって、表示態様が異なるように視覚情報7を生成してもよい。例えば、抽出されたキーワード60が通貨である場合、キーワード60の金額によって、色又は大きさが異なる視覚情報7を生成してもよい。また、例えば、抽出されたキーワード60が、顧客情報であるか、商品の金額であるかによって、表示態様が異なるように視覚情報7を生成してもよい。
(1-2)抽出されたキーワード60が通貨である場合、視覚情報生成部336は、金額の大きいキーワード60に係るアイコン70は、他のアイコン70とは異なる表示態様となるように生成してもよい。例えば、視覚情報生成部336は、抽出されたキーワード60の中で、最も大きな金額に係るアイコン70については、最も大きく表示させるように制御し、他のアイコン70とは異なる色で表示させるように制御する。また、例えば、視覚情報生成部336は、キーワード60の金額が大きいほど、目立つようにアイコン70を生成する。具体的には、抽出したキーワード60に、1,000円と、10,000円とが含まれる場合、10,000円に係る視覚情報7の方が、より大きくなるように視覚情報7を生成する。例えば、アイコン702が10,000円に係る視覚情報7であり、アイコン703が1,000円に係る視覚情報7である場合、図5で示されるように、アイコン702が、アイコン703よりも大きく表示される。
(1-3)アイコン70の中に、抽出したキーワード60が含まれる場合、視覚情報生成部336は、金額の大きなキーワード60については、アイコン70に含まれる他のキーワード60よりも大きい文字又は太字で表示させるように制御する。図5の例では、アイコン702が、アイコン703よりも大きい文字で表示される。
(1-4)視覚情報生成部336は、第1の文字情報61及び第2の文字情報62からキーワード60が抽出されている場合、第1の文字情報61から抽出されたものであるか、第2の文字情報62から抽出されたものであるかによって、表示態様が異なるように視覚情報7を生成してもよい。例えば、第1の文字情報61から抽出されたキーワード60に係る視覚情報7は青色で表示させ、第2の文字情報62から抽出されたキーワード60に係る視覚情報7は赤色で表示させるように制御してもよい。
(2)第1の文字情報61と、第2の文字情報62とが識別されている場合、第2の文字情報62から、キーワード60のみが抽出されてもよい。これにより、第2のユーザ5aによる発言に含まれるキーワード60と、前記キーワード60に対応する音声データの再生時点のみが把握可能となり、面談音声を再生する者は、顧客がどのようなキーワード60をどんなタイミングで使っているのか把握することが可能となる等、面談音声を他の営業担当者の教育等に用いることができる。
(3)情報処理装置3は、コンピュータに専用プログラムがインストールされることによって実施されてもよい。
(4)本実施形態の態様は、プログラムであってもよい。プログラムは、コンピュータに、情報処理装置3の各ステップを実行させる。
(5)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、文字情報生成ステップ、抽出ステップと、視覚情報生成ステップとを備える。文字情報生成ステップでは、面談の音声データから面談のトークスクリプトを含む文字情報6を生成する。抽出ステップでは、文字情報6から、キーワード60を抽出する。視覚情報生成ステップでは、抽出されたキーワード60と、音声データにおけるキーワード60が出現した再生時点とが対応付けられた視覚情報7を生成する。
 さらに、次に記載の各態様で提供されてもよい。
 前記情報処理装置において、前記キーワードは、複数のキーワードであり、前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、もの。
 前記情報処理装置において、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、もの。
 前記情報処理装置において、前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、もの。
 前記情報処理装置において、前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、もの。
 前記情報処理装置において、前記面談は、第1のユーザと、第2のユーザとによって実施され、前記文字情報生成ステップでは、前記音声データから前記第1のユーザのトークスクリプトを含む第1の文字情報と、前記第2のユーザのトークスクリプトを含む第2の文字情報とを生成し、前記抽出ステップでは、前記第1の文字情報から、前記キーワードを抽出する、もの。
 前記情報処理装置において、識別ステップをさらに実行するように構成され、前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第1のユーザによる音声と、前記第2のユーザによる音声とを識別し、前記文字情報生成ステップでは、前記第1のユーザによる音声から、前記第1の文字情報を生成し、前記第2のユーザによる音声から、前記第2の文字情報を生成する、もの。
 前記情報処理装置において、受付ステップと、面談音声生成ステップとをさらに実行するように構成され、前記受付ステップでは、前記第1のユーザによる第1の音声データと、前記第2のユーザによる第2の音声データとをそれぞれ受け付け、前記面談音声生成ステップでは、前記第1の音声データと、前記第2の音声データとを識別可能に含む前記音声データを生成する、もの。
 前記情報処理装置において、前記第1のユーザは営業担当者であり、前記第2のユーザは顧客であり、前記音声データは、前記営業担当者と前記顧客との商談を含む、もの。
 前記情報処理装置において、前記キーワードは、単位である、もの。
 前記情報処理装置において、前記キーワードは、通貨である、もの。
 プログラムであって、コンピュータに、前記情報処理装置の各ステップを実行させる、もの。
 情報処理方法であって、文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、前記抽出ステップでは、前記文字情報から、キーワードを抽出し、前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、方法。
 もちろん、この限りではない。
 最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1   :システム
2   :音声再生端末
3   :情報処理装置
30  :通信バス
31  :通信部
32  :記憶部
33  :制御部
331 :受付部
332 :識別部
333 :面談音声生成部
334 :文字情報生成部
335 :抽出部
336 :視覚情報生成部
4   :第1のユーザ端末
4a  :第1のユーザ
5   :第2のユーザ端末
5a  :第2のユーザ
6   :文字情報
60  :キーワード
61  :第1の文字情報
62  :第2の文字情報
7   :視覚情報
70  :アイコン
71  :シークバー
701 :アイコン
702 :アイコン
703 :アイコン

Claims (17)

  1.  文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを実行するように構成され、
     前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
     前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
     前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
     情報処理装置。
  2.  前記キーワードは、複数のキーワードであり、
     前記視覚情報生成ステップでは、前記複数のキーワードの登場順を識別可能な視覚情報を生成する、
     請求項1に記載の情報処理装置。
  3.  前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データの再生箇所を示すシークバーとが対応付けられた視覚情報を生成する、
     請求項1に記載の情報処理装置。
  4.  前記視覚情報生成ステップでは、前記シークバーにおける前記キーワードが出現した再生時点を把握可能な位置に、前記再生時点に対応する前記キーワードを含むアイコンを生成する、
     請求項3に記載の情報処理装置。
  5.  前記アイコンの前記把握可能な位置は、前記シークバーにおける前記キーワードが出現した前記再生時点の上下左右の少なくともいずれかである、
     請求項4に記載の情報処理装置。
  6.  前記抽出ステップでは、前記文字情報から、金額に関するキーワードを抽出し、
     前記視覚情報生成ステップでは、前記金額に応じて表示態様が異なるように、前記キーワードを示すアイコンを含む視覚情報を生成する、
     請求項1に記載の情報処理装置。
  7.  前記視覚情報生成ステップでは、前記金額が一定以上の場合に前記アイコンを生成する、
     請求項6に記載の情報処理装置。
  8.  前記視覚情報生成ステップでは、前記金額に応じて表示の大きさ又は色が異なるように前記アイコンを生成する、
     請求項6に記載の情報処理装置。
  9.  前記面談は、2人以上のユーザによって実施され、
     前記視覚情報生成ステップでは、前記キーワードを示すアイコンの表示態様が前記ユーザ毎に異なるようにした視覚情報を生成する、
     請求項1に記載の情報処理装置。
  10.  前記面談は、第1のユーザと、第2のユーザとによって実施され、
     前記文字情報生成ステップでは、前記音声データから前記第1のユーザのトークスクリプトを含む第1の文字情報と、前記第2のユーザのトークスクリプトを含む第2の文字情報とを生成し、
     前記抽出ステップでは、前記第1の文字情報から、前記キーワードを抽出する、
     請求項1に記載の情報処理装置。
  11.  識別ステップをさらに実行するように構成され、
     前記識別ステップでは、前記音声データに対して音声認識処理を実行し、前記音声データに含まれる前記第1のユーザによる音声と、前記第2のユーザによる音声とを識別し、
     前記文字情報生成ステップでは、
     前記第1のユーザによる音声から、前記第1の文字情報を生成し、
     前記第2のユーザによる音声から、前記第2の文字情報を生成する、
     請求項10に記載の情報処理装置。
  12.  受付ステップと、面談音声生成ステップとをさらに実行するように構成され、
     前記受付ステップでは、前記第1のユーザによる第1の音声データと、前記第2のユーザによる第2の音声データとをそれぞれ受け付け、
     前記面談音声生成ステップでは、前記第1の音声データと、前記第2の音声データとを識別可能に含む前記音声データを生成する、
     請求項10に記載の情報処理装置。
  13.  前記第1のユーザは営業担当者であり、前記第2のユーザは顧客であり、
     前記音声データは、前記営業担当者と前記顧客との商談を含む、
     請求項10に記載の情報処理装置。
  14.  前記キーワードは、単位を含む、
     請求項1に記載の情報処理装置。
  15.  前記キーワードは、通貨を含む、
     請求項1に記載の情報処理装置。
  16.  コンピュータに、請求項1に記載の情報処理装置の各ステップを実行させる、
     プログラム。
  17.  文字情報生成ステップと、抽出ステップと、視覚情報生成ステップとを備え、
     前記文字情報生成ステップでは、面談の音声データから前記面談のトークスクリプトを含む文字情報を生成し、
     前記抽出ステップでは、前記文字情報から、キーワードを抽出し、
     前記視覚情報生成ステップでは、抽出された前記キーワードと、前記音声データにおける前記キーワードが出現した再生時点とが対応付けられた視覚情報を生成する、
     情報処理装置の情報処理方法。
PCT/JP2021/031234 2020-09-17 2021-08-25 情報処理装置、プログラム及び情報処理方法 WO2022059446A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/023,874 US20230334260A1 (en) 2020-09-17 2021-08-25 Information processing device, program, and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-156000 2020-09-17
JP2020156000A JP6953597B1 (ja) 2020-09-17 2020-09-17 情報処理装置、プログラム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2022059446A1 true WO2022059446A1 (ja) 2022-03-24

Family

ID=78119276

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031234 WO2022059446A1 (ja) 2020-09-17 2021-08-25 情報処理装置、プログラム及び情報処理方法

Country Status (3)

Country Link
US (1) US20230334260A1 (ja)
JP (2) JP6953597B1 (ja)
WO (1) WO2022059446A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP2010041286A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 話者判別プログラム、話者判別装置、および話者判別方法
JP2010175684A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
WO2015037073A1 (ja) * 2013-09-11 2015-03-19 株式会社日立製作所 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JP2019050482A (ja) * 2017-09-08 2019-03-28 オリンパス株式会社 情報取得機器、表示方法およびプログラム
JP6606697B1 (ja) * 2019-05-24 2019-11-20 株式会社ナレッジフロー 通話システム、及び通話プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6128146B2 (ja) * 2015-02-24 2017-05-17 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6618992B2 (ja) * 2015-04-10 2019-12-11 株式会社東芝 発言提示装置、発言提示方法およびプログラム
JP6746923B2 (ja) * 2016-01-20 2020-08-26 株式会社リコー 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP2010041286A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 話者判別プログラム、話者判別装置、および話者判別方法
JP2010175684A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
WO2015037073A1 (ja) * 2013-09-11 2015-03-19 株式会社日立製作所 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JP2019050482A (ja) * 2017-09-08 2019-03-28 オリンパス株式会社 情報取得機器、表示方法およびプログラム
JP6606697B1 (ja) * 2019-05-24 2019-11-20 株式会社ナレッジフロー 通話システム、及び通話プログラム

Also Published As

Publication number Publication date
JP6953597B1 (ja) 2021-10-27
JP2022050312A (ja) 2022-03-30
JP2022049784A (ja) 2022-03-30
US20230334260A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN106716921A (zh) 会话历史范围控制
US20210065695A1 (en) Program storage medium, method, and apparatus for determining point at which trend of conversation changed
JP2011039860A (ja) 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
CN107037959A (zh) 修改对话窗口
US20220353220A1 (en) Shared reactions within a video communication session
WO2013018731A1 (ja) カウンセリングシステム、カウンセリング装置、及びクライアント端末
JP2020064493A (ja) オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム
CN111797271A (zh) 多人听音乐实现方法、装置、存储介质及电子设备
US20210021439A1 (en) Measuring and Responding to Attention Levels in Group Teleconferences
WO2022059446A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP2021157419A (ja) 対話型業務支援システムおよび対話型業務支援方法
US11348368B2 (en) Measuring and transmitting emotional feedback in group teleconferences
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN115118820A (zh) 一种通话处理方法、装置、计算机设备及存储介质
WO2021153618A1 (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
KR20230102753A (ko) 아바타를 통해 영상의 음성을 수어로 통역하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2023053940A1 (ja) 情報処理システム、プログラム及び情報処理方法
JP6807586B1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2022239053A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7048115B1 (ja) 情報処理装置、プログラム及び情報処理方法
US12026978B2 (en) Measuring and transmitting emotional feedback in group teleconferences
WO2022091981A1 (ja) 情報処理システム
JP2022139283A (ja) 情報処理装置、情報処理方法及びプログラム
KR20240083879A (ko) 대화 기반 감정 일기 서비스 장치, 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21869133

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 03.07.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21869133

Country of ref document: EP

Kind code of ref document: A1