WO2025041244A1 - プログラム、方法、情報処理装置、システム - Google Patents
プログラム、方法、情報処理装置、システム Download PDFInfo
- Publication number
- WO2025041244A1 WO2025041244A1 PCT/JP2023/030069 JP2023030069W WO2025041244A1 WO 2025041244 A1 WO2025041244 A1 WO 2025041244A1 JP 2023030069 W JP2023030069 W JP 2023030069W WO 2025041244 A1 WO2025041244 A1 WO 2025041244A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- dialogue
- analysis data
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- This disclosure relates to a program, a method, an information processing device, and a system.
- Patent Document 1 discloses a technique for analyzing call information.
- the present disclosure has been made to solve the above-mentioned problems, and its purpose is to provide a technology for creating input data such as prompts to be input into a generation AI of a large-scale language model or the like to obtain answer content (feedback such as comments) from analytical data related to a dialogue in a manner that is easy for a user to understand.
- a program that causes a computer having a processor and a storage unit to process information regarding a dialogue between multiple users, the program executing an analysis data acquisition step in which the processor acquires analysis data obtained by analyzing the dialogue, and an input data creation step in which input data to be input to a generation AI is created based on the analysis data acquired in the analysis data acquisition step.
- a generation AI such as a large-scale language model to obtain answers (feedback such as comments) in a format that is easy for users to understand.
- FIG. 2 is a block diagram showing the functional configuration of the system 1.
- FIG. 2 is a block diagram showing the functional configuration of the server 10.
- FIG. 2 is a block diagram showing a functional configuration of a first user terminal 20.
- FIG. 2 is a block diagram showing a functional configuration of a second user terminal 30.
- FIG. 13 is a diagram showing the data structure of a user table 1012.
- FIG. 11 is a diagram showing the data structure of a group table 1013.
- FIG. 11 is a diagram showing the data structure of a dialogue table 1014.
- FIG. 10 is a diagram showing the data structure of a label table 1015.
- FIG. 11 is a diagram showing the data structure of a speech segment table 1016.
- FIG. 10 is a diagram showing the data structure of a comment table 1021.
- 13 is a flowchart showing an operation of a comment process. 13 is a screen example showing a comment processing operation.
- FIG. 2 is a block diagram showing the basic hardware configuration of
- the system 1 in the present disclosure is an information processing system that provides an information processing service for efficiently managing inquiries from customers via telephone or the like.
- the system 1 comprises information processing devices, namely, a server 10, a first user terminal 20, a second user terminal 30, a voice server (PBX) 50, and a generation AI 80, which are connected via a network N.
- FIG. 1 is a block diagram showing the functional configuration of the system 1.
- FIG. 2 is a block diagram showing the functional configuration of the server 10.
- FIG. 3 is a block diagram showing the functional configuration of the first user terminal 20.
- FIG. FIG. 4 is a block diagram showing the functional configuration of the second user terminal 30.
- Each information processing device is configured by a computer equipped with an arithmetic unit and a storage device.
- the basic hardware configuration of the computer and the basic functional configuration of the computer realized by the hardware configuration will be described later.
- the server 10 the first user terminal 20, the second user terminal 30, the voice server (PBX) 50, and the generation AI 80, descriptions that overlap with the basic hardware configuration of the computer and the basic functional configuration of the computer described later will be omitted.
- the server 10 is an information processing device that provides an information processing service that executes predetermined information processing in response to inquiries from customers by telephone or the like.
- the server 10 in the present disclosure is an information processing device that provides an online interactive service (online interactive service) between a first user who is an operator and a second user who is a customer.
- the server 10 in the present disclosure may also be capable of providing an online interactive service between three or more users including a plurality of operators and a plurality of customers. It should be noted that the customer does not necessarily have to be a user of the information processing service according to the present disclosure.
- the server 10 includes a memory unit 101 and a control unit 104 .
- the storage unit 101 of the server 10 includes an application program 1011 , a user table 1012 , a group table 1013 , a dialogue table 1014 , a label table 1015 , a voice segment table 1016 , and a comment table 1021 .
- the application program 1011 is a program for causing the control unit 104 of the server 10 to function as each functional unit.
- the application programs 1011 include applications such as a web browser application.
- the user table 1012 is a table that stores and manages user information. When a user registers to use a service, the user's information is stored in a new record in the user table 1012. This allows the user to use the service according to the present disclosure.
- the user table 1012 is a table having a user ID as a primary key, and columns of a user ID, a group ID, and a user name.
- FIG. 5 is a diagram showing the data structure of the user table 1012. As shown in FIG.
- the user ID is an item for storing user identification information for identifying a user.
- the user identification information is an item for which a unique value is set for each user.
- the group ID is an item for storing group identification information for identifying a group. One or more pieces of group identification information are stored in association with each user, thereby expressing that the user belongs to one or more groups.
- the user name is an item for storing the name of the user. The user name may be set to any character string such as a nickname instead of a name.
- the group table 1013 is a table that stores and manages information (group information) about groups to which a user belongs. Groups include any groups, such as companies, corporations, corporate groups, clubs, various organizations, etc. Groups may be defined for more detailed subgroups, such as company departments (sales department, general affairs department, customer support department, etc.).
- the group table 1013 is a table having a group ID as a primary key, and columns of group ID, group name, and group attribute.
- FIG. 6 is a diagram showing the data structure of the group table 1013. As shown in FIG.
- the group ID is an item for storing group identification information for identifying a group.
- the group identification information is an item in which a unique value is set for each piece of group information.
- the group name is an item for storing the name of the group. Any character string can be set as the group name.
- the group attribute is an item for storing information on group attributes such as group type (company, corporate group, other organization, etc.) and industry (real estate, finance, etc.).
- the dialogue table 1014 is a table for storing and managing information (dialogue information) related to a dialogue carried out between a user and a customer.
- the dialogue table 1014 is a table having a dialogue ID as a primary key, and columns of a dialogue ID, a user ID, a customer ID, a dialogue category, a sending/receiving type, audio data, and video data.
- FIG. 7 is a diagram showing the data structure of the dialogue table 1014. As shown in FIG.
- the dialogue ID is an item for storing dialogue identification information for identifying a dialogue.
- the dialogue identification information is an item in which a unique value is set for each piece of dialogue information.
- the user ID is an item for storing user identification information for identifying a user in a dialogue between a user and a customer. A plurality of user IDs may be associated with each piece of dialogue information.
- the customer ID is an item for storing user identification information for identifying a customer in a dialogue between a user and a customer. User IDs of multiple customers may be associated with each piece of dialogue information.
- the dialogue category is an item for storing the type (category) of the dialogue between the user and the customer. The dialogue data is classified by the dialogue category.
- the communication type is an item for storing information for distinguishing whether the conversation between the user and the customer was sent by the user (outbound) or received by the user (inbound). In addition, when a conversation involves three or more users, the communication type "room" is stored.
- the audio data is an item for storing audio data collected by a microphone. It may also store reference information (path) for an audio data file located in another location. The audio data may be in any format, such as AAC, ATRAC, mp3, or mp4.
- the voice data may be in a format in which an identifier is set that allows the user's voice and the customer's voice to be independently identifiable.
- the control unit 104 of the server 10 can perform independent analysis processing on the user's voice and the customer's voice.
- the user ID and the customer ID can be identified based on the voice data of the user and the customer.
- video data including audio information may be used instead of audio data.
- audio data in the present disclosure includes audio data included in video data.
- data in other data formats associated with various data may be stored. For example, data such as contract documents, minutes, presentation files, or emails may be included.
- the video data is an item for storing video data captured by a camera or the like.
- the video data may be in any data format, such as MP4, MOV, WMV, AVI, or AVCHD.
- the video data may be in a format in which identifiers are set that allow the user's video and the customer's video to be independently identifiable.
- the control unit 104 of the server 10 can perform independent analysis processing on the user's video and the customer's video.
- the user ID and the customer ID can be identified based on the video data of the user and the customer.
- the label table 1015 is a table for storing and managing information relating to labels (label information).
- the label table 1015 is a table having columns for a conversation ID and label data.
- FIG. 8 is a diagram showing the data structure of the label table 1015.
- the dialogue ID is an item for storing dialogue identification information for identifying a dialogue.
- the label data is an item for storing label information for managing dialogues.
- the label information is additional information for managing dialogue information, such as a classification name, a label, a classification label, and a tag.
- the label data may be a character string indicating the name of the label information, or may be a label ID for referencing the name of the label information stored in another table.
- the label data includes classification information according to the emotional state of a speaker in a particular dialogue.
- the classification data includes classification information for classifying the speaker's response in a particular dialogue as good or bad.
- the voice section table 1016 is a table for storing and managing information (voice section information) relating to a plurality of voice sections included in the dialogue information.
- the voice segment table 1016 is a table having a segment ID as a primary key, and columns of segment ID, dialogue ID, speaker ID, start date and time, end date and time, segment audio data, segment video data, and segment reading text.
- FIG. 9 is a diagram showing the data structure of the speech segment table 1016. As shown in FIG.
- the section ID is an item for storing section identification information for identifying a speech section.
- the section identification information is an item in which a unique value is set for each piece of speech section information.
- the dialogue ID is an item for storing dialogue identification information for identifying a dialogue with which the voice section information is associated.
- the speaker ID is an item for storing speaker identification information for identifying a speaker to which the voice section information is associated. Specifically, the speaker ID is an item for storing a plurality of user IDs and customer IDs that have participated in the dialogue.
- the start date and time is an item for storing the start date and time of an audio section or a video section.
- the end date and time is an item for storing the end date and time of the audio section and the video section.
- the section audio data is an item that stores audio data included in an audio section. It may store reference information (path) for an audio data file located in another location. Also, based on the start date and time and the end date and time, it may store a reference to audio data for the period from the start date and time to the end date and time of the audio data in the dialogue table 1014. Also, the section audio data may include audio data included in the section video data.
- the format of the audio data may be any data format such as AAC, ATRAC, mp3, mp4, etc., and may include a plurality of types of data formats.
- the section video data is an item that stores video data included in the audio section. It may store reference information (path) to a video data file located in another location.
- the section reading text is an item that stores text information of the content spoken by a speaker in the section audio data included in the audio section. Specifically, the section reading text may be generated manually or by using a learning model such as any machine learning or deep learning based on the section audio data and the section video data.
- the comment table 1021 is a table for storing and managing information related to answers (answer information).
- the comment table 1021 is a table having columns for instruction statement, analysis data, input data, and comment data.
- FIG. 10 is a diagram showing the data structure of the comment table 1021. As shown in FIG.
- the instruction sentence is an item for storing a character string related to an instruction sentence for generating input data. Specifically, the instruction sentence is input and edited in response to an input operation by a user, or an instruction sentence input by a user selecting a predetermined input candidate is stored.
- the analysis data is an item for storing information (analysis information) obtained by analyzing dialogue information, voice section information, etc. The analysis data specifically includes the following information.
- the control unit 104 of the server 10 includes a user registration control unit 1041 and a presentation unit 1042.
- the control unit 104 executes an application program 1011 stored in the storage unit 101, thereby realizing each functional unit.
- the user registration control unit 1041 performs processing to store information about users who wish to use the service according to the present disclosure in the user table 1012 .
- the information stored in the user table 1012 is generated when a user opens a web page operated by a service provider from any information processing terminal, inputs information into a specific input form, and transmits the information to the server 10.
- the user registration control unit 1041 stores the received information in a new record in the user table 1012, completing the user registration. This allows the user stored in the user table 1012 to use the service.
- the service provider may carry out a predetermined examination to restrict whether or not the user is permitted to use the service.
- the user ID may be any character string or number that can identify the user, any character string or number desired by the user, or an arbitrary character string or number may be automatically set by the user registration control unit 1041.
- the presentation unit 1042 executes the presentation process. Details will be described later.
- the first user terminal 20 is an information processing device operated by a user who uses the service.
- the first user terminal 20 may be, for example, a stationary PC (Personal Computer) or a laptop PC, or may be a mobile terminal such as a smartphone or a tablet.
- the first user terminal 20 may be a wearable terminal such as an HMD (Head Mount Display) or a wristwatch terminal.
- the first user terminal 20 includes a storage unit 201 , a control unit 204 , an input device 206 , and an output device 208 .
- the storage unit 201 of the first user terminal 20 includes a first user ID 2011 and an application program 2012 .
- the first user ID 2011 stores the user identification information of the operator.
- the operator transmits the first user ID 2011 from the first user terminal 20 to the voice server (PBX) 60.
- the voice server (PBX) 60 identifies the operator based on the first user ID 2011 and provides the operator with the services disclosed herein.
- the first user ID 2011 includes information such as a session ID that is temporarily assigned by the voice server (PBX) 60 when identifying the operator using the first user terminal 20.
- the application program 2012 may be pre-stored in the storage unit 201, or may be configured to be downloaded from a web server operated by a service provider via a communication IF.
- the application programs 2012 include applications such as a web browser application.
- the application program 2012 includes an interpreted programming language such as JavaScript (registered trademark) that runs on a web browser application stored on the first user terminal 20 .
- the control unit 204 of the first user terminal 20 includes an input control unit 2041 and an output control unit 2042.
- the control unit 204 executes an application program 2012 stored in the storage unit 201, thereby realizing each functional unit.
- the input device 206 of the first user terminal 20 includes a camera 2061 , a microphone 2062 , a position information sensor 2063 , a motion sensor 2064 , and a keyboard 2065 .
- the output device 208 of the first user terminal 20 includes a display 2081 and a speaker 2082 .
- the second user terminal 30 is an information processing device operated by a customer who uses the service.
- the second user terminal 30 may be, for example, a mobile terminal such as a smartphone or a tablet, a stationary personal computer (PC) or a laptop PC, or a wearable terminal such as a head mounted display (HMD) or a wristwatch terminal.
- the second user terminal 30 includes a storage unit 301 , a control unit 304 , an input device 306 , and an output device 308 .
- the storage unit 301 of the second user terminal 30 includes an application program 3012 and a telephone number 3013 .
- the application program 3012 may be pre-stored in the storage unit 301, or may be configured to be downloaded from a web server operated by a service provider via a communication IF.
- Application programs 3012 include applications such as a web browser application.
- the application program 3012 includes an interpreted programming language such as JavaScript (registered trademark) that runs on a web browser application stored on the second user terminal 30 .
- the control unit 304 of the second user terminal 30 includes an input control unit 3041 and an output control unit 3042.
- the control unit 304 executes an application program 3012 stored in the storage unit 301, thereby realizing each functional unit.
- the input device 306 of the second user terminal 30 includes a camera 3061 , a microphone 3062 , a position information sensor 3063 , a motion sensor 3064 , and a touch device 3065 .
- the output device 308 of the second user terminal 30 includes a display 3081 , a speaker 3082 , and a transmission unit 6041 .
- the transmission unit 6041 is a control unit that executes a process of transmitting evaluation data received from a user at the external server 60 to the server 10.
- the voice server (PBX) 50 is an information processing device that functions as a switchboard that connects the network N and the telephone network T to each other, thereby enabling a conversation between the first user terminal 20 and the second user terminal 30 .
- the voice server (PBX) 50 includes a storage unit 501 .
- the storage unit 501 of the voice server (PBX) 50 includes an application program 5011 .
- the application program 5011 is a program for causing the control unit 504 of the voice server (PBX) 50 to function as each functional unit.
- the application programs 5011 include applications such as a web browser application.
- the generation AI 80 is a type of artificial intelligence model (deep learning model) that outputs output data such as a character string or an image based on input data such as a character string or an image.
- a large language model LLM that outputs output data related to a character string based on input data related to a character string will be described as an example.
- LLM include OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard.
- FIG. 11 is a flowchart showing the comment processing operation.
- FIG. 12 is a screen example showing the comment processing operation.
- ⁇ Dialogue processing> The following describes the process of receiving an incoming call from a first user (operator) to a second user (customer) and making a call from the first user (operator) to the second user (customer), thereby enabling the first user and the second user to interact with each other.
- Other methods for enabling a first user and a second user to have a dialogue are not limited to the above.
- a process in which a first user has a dialogue with a second user in a virtual dialogue space called a room will be described as a room dialogue process.
- the invention disclosed herein is applicable to incoming call processing, outgoing call processing, or any other method for enabling a first user and a second user to have a conversation.
- Room Interaction Processing There is a method in which a virtual conversation space called a room for conversation between a first user and a second user is created on the server 10, and the first user and the second user can access the room via a web browser or an application program stored in the first user terminal 20 and the second user terminal 30, thereby enabling conversation.
- the voice server (PBX) 60 is not required.
- the first user who will be the organizer of the dialogue operates the input device 206 of the first user terminal 20 to send a request for holding a dialogue to the server 10.
- the control unit 104 of the server 10 receives the request, it issues room identification information such as a unique room ID and sends a response to the first user terminal 20.
- the first user sends the received room identification information to the second user, who is the dialogue partner, by any communication means such as email or chat.
- the first user can enter the room by operating the input device 206 of the first user terminal 20, accessing a URL that provides a service related to the room of the server 10 using a web browser or the like, and inputting the room identification information.
- the second user can enter the room by operating the input device 306 of the second user terminal 30, accessing a URL that provides a service related to the room of the server 10 using a web browser or the like, and inputting the room identification information.
- the first user and the second user can have a dialogue via the first user terminal 20 and the second user terminal 30, respectively, in a virtual dialogue space called a room associated with each other by the room identification information.
- a room identification information By inputting the room identification information, in addition to the first user and the second user, one or more other users can enter one room. This allows three or more users to have a conversation via their respective user terminals in a virtual conversation space called a room that is associated with each other by the room identification information.
- the interactive processing does not necessarily have to be performed by all participants joining the room. For example, in a conference with multiple participants held in a conference room or the like, multiple participants may enter the room via a single information terminal and the interactive processing may be performed.
- the interactive processing does not necessarily have to be performed online, and may be performed using an information terminal that acquires video and audio of the contents of a conference with multiple participants held in a conference room or the like.
- the interactive processing may be performed in an application that facilitates the conference.
- the system 1 may provide an online interactive service (video interactive service) including video data.
- video interactive service video interactive service
- the control unit 204 of the first user terminal 20 and the control unit 304 of the second user terminal 30 transmit video data captured by the camera 2061 of the first user terminal 20 and the camera 3061 of the second user terminal 30, respectively, to the server 10.
- the server 10 Based on the received video data, the server 10 transmits the video data captured by the camera 2061 of the first user terminal 20 to the second user terminal 30, and transmits the video data captured by the camera 3061 of the second user terminal 30 to the first user terminal 20.
- the control unit 204 of the first user terminal 20 displays the received video data captured by the camera 3061 of the second user terminal 30 on the display 2081.
- the control unit 304 of the second user terminal 30 displays the received video data captured by the camera 2061 of the first user terminal 20 on the display 3081.
- the server 10 may transmit video data of some or all of the multiple users participating in the online dialogue to the first user terminal 20 and the second user terminal 30.
- the control unit 204 of the first user terminal 20 displays the received video data of some or all of the multiple users participating in the online dialogue arranged on one screen on the display 2081 of the first user terminal 20. This allows the dialogue status of the multiple users participating in the online dialogue to be confirmed. The same process may be performed in the second user terminal 30.
- the control unit 104 of the server 10 executes a voice extraction step of extracting a plurality of section voice data for each speech section from the voice data acquired in the voice acquisition step.
- the voice extraction step includes a step of identifying a speaker for each of the plurality of section voice data.
- the control unit 104 of the server 10 acquires (accepts) the dialogue ID, voice data, and video data stored in the dialogue table 1014.
- the control unit 104 of the server 10 detects a section (utterance section) in which speech sounds are continuously present from the acquired (accepted) voice data and video data, and extracts the voice data and video data for each utterance section as section voice data and section video data, respectively.
- voice recognition information may be removed from the text, and the voice recognition information may be stored in the voice section table 1016.
- the call process is a series of processes in which the user selects a customer to whom he/she wishes to make a call from among multiple customers displayed on the screen of the first user terminal 20, and makes a call to the customer by performing a call operation.
- a case in which the second user is selected as a customer will be described as an example.
- the user operates the first user terminal 20 to launch a web browser and access the website of the CRM service provided by the CRM system 50.
- the user can display a list of his/her own customers on the display 2081 of the first user terminal 20 by opening a customer management screen provided by the CRM service.
- the first user terminal 20 transmits the CRM ID 2013 and a request to display a list of customers to the CRM system 50.
- the CRM system 50 searches the customer table 5012 and transmits information about the user's customers, such as the customer ID, name, telephone number, customer attributes, customer organization name, and customer organization attributes, to the first user terminal 20.
- the first user terminal 20 displays the received information about the customers on the display 2081 of the first user terminal 20.
- the first user terminal 20 controls the speaker 2082 etc. to ring to indicate that a call is being made by the voice server (PBX) 60.
- the display 2081 of the first user terminal 20 also displays information indicating that a call is being made by the voice server (PBX) 60 to the customer. For example, the display 2081 of the first user terminal 20 may display the words "Calling".
- the user's voice collected by the microphone 2062 of the first user terminal 20 is output from the speaker 3082 of the second user terminal 30.
- the customer's voice collected by the microphone 3062 of the second user terminal 30 is output from the speaker 2082 of the first user terminal 20.
- the presentation unit 1042 of the server 10 stores the created analysis data in the analysis data field of the new record (target record) in the comment table 1021.
- the instruction sentence may be configured such that one predetermined instruction sentence is set and stored in advance as a default value.
- the instruction sentence may be configured such that a predetermined instruction sentence is selected from a plurality of instruction sentences and stored.
- the input of a command may be accepted on the presentation processing page in step S101.
- a plurality of command statements may be presented to the user on the presentation processing page, and a predetermined command statement selected by an input operation by the user may be stored.
- the user may select a predetermined command statement according to the content of a comment that the user wishes to obtain in the presentation processing.
- character strings relating to a plurality of instruction statements may be stored in the instruction statement field of the target record of the comment table 1021. In this way, the instruction statement and the analysis data are stored in association with each other in the target record of the comment table 1021.
- the input data creation step executes a step of creating input data based on at least one of information indicating one or more operators or one or more groups whose dialogue is judged to be excellent based on a score for judging the quality of dialogue for each operator or group to which multiple operators belong, and information indicating one or more operators or one or more groups whose dialogue is judged to be poor based on a score for judging the quality of dialogue for each operator or group to which multiple operators belong.
- the input data may include analysis data for each user (users A to C) included in the group.
- [Input data] Based on the analysis data, please compare and explain the characteristics of each user in target group A.
- # Target group A consists of user A, user B, user C, and user D # Analysis data: ⁇ Comparison results (ranking information) Comparison results for user A: (Voice score: 1st, Language score: 2nd, Index score: 4th, Dialogue score: 2nd) Comparison results for User B: (Voice score: 2nd, Language score: 1st, Index score: 3rd, Dialogue score: 4th) Comparison results for user C: (Voice score: 4th, Language score: 3rd, Index score: 1st, Dialogue score: 2nd) Comparison results for user D: (Voice score: 3rd place, Language score: 4th place, Index score: 2nd place, Dialogue score: 1st place) Dialogue score: 70 points (group average) ⁇ Speech features
- the presentation unit 1042 of the server 10 stores the created input data in the input data field of the target record in the comment table 1021.
- step S105 the presentation unit 1042 of the server 10 executes an answer receiving step of receiving the answer content obtained by sending the input data created in the input data creation step to the generation AI. Specifically, the presentation unit 1042 of the server 10 transmits the input data created in step S104 as input data (prompt) to the generation AI 80. The generation AI 80 outputs answer data to the input data as a response to the server 10. The presentation unit 1042 of the server 10 receives and accepts the answer data to the input data.
- step S106 the presenting unit 1042 of the server 10 executes a comment presenting step of presenting a comment message including the answer content received in the answer receiving step to a predetermined operator.
- the presentation unit 1042 of the server 10 creates comment data based on the answer content received in step S105.
- the presentation unit 1042 of the server 10 creates comment data by combining at least one of the target user, information identifying each user belonging to the target group, and the analysis period with the answer content.
- the answer content itself may be used as comment data.
- each step may be repeatedly executed to obtain comment data.
- Comment data An example of comment data is shown below.
- User A name, affiliation, etc.
- # Good points and areas for improvement in speaking style (answers from Generative AI 80)
- the presentation unit 1042 of the server 10 stores the created comment data in the comment data item of the target record in the comment table 1021.
- step S106 the presenting unit 1042 of the server 10 executes a comment presenting step of presenting a comment message including the answer content received in the answer receiving step to a predetermined user.
- 12 is an example of a comment screen D1 showing the operation of comment processing.
- the comment screen D1 includes comment information D11 and analysis data D12.
- the comment information includes an instruction D111 and a response content D112 from the generation AI 80.
- the analysis data D12 includes content in which each data of the voice feature amount, the language feature amount, and the dialogue-related index included in the analysis data already described is visually visualized by using graphs or the like.
- the presentation unit 1042 of the server 10 transmits the created comment information to the first user terminal 20.
- the presentation unit 1042 of the server 10 may transmit a message (comment message) including the comment information to the email address, chat account, etc. of the first user.
- the display 2081 of the first user terminal 20 presents the received comment message to the first user.
- the control unit 204 of the first user terminal 20 displays the comment data in the comment information D11 of the comment screen D1.
- the control unit 204 of the first user terminal 20 displays the answer content from the generation AI 80 in the answer content D112 of the comment screen D1.
- the control unit 204 of the first user terminal 20 may display the instruction text in the instruction text D111 of the comment screen D1.
- the control unit 204 of the first user terminal 20 may display the analysis data created in step S103 in the analysis data D12 of the comment screen D1.
- the comment presenting step executes a step of presenting a comment message at every predetermined period.
- the presentation unit 1042 of the server 10 may be configured to periodically (daily, weekly, monthly) execute the presentation process and periodically distribute comment messages based on comment information on target users and target groups to a predetermined user, such as an administrator engaged in management work for managing multiple operators.
- a comment presenting step is executed to present a comment message including the analysis data acquired in the analysis data acquiring step and the answer content received in the answer receiving step.
- the presentation unit 1042 of the server 10 may include the analysis data created in step S103 in the comment information.
- the presentation unit 1042 of the server 10 transmits a comment message including the analysis data to the first user terminal 20.
- the control unit 204 of the first user terminal 20 displays the comment information together with the analysis data in the analysis data D12 of the comment screen D1. This allows the first user to check the content of the analysis data that is the source of the comment information together with the comment information. The first user can easily and deeply understand the content of the analysis data by referring to the content of the comment message.
- the processor 901 is hardware for executing a set of instructions written in a program.
- the processor 901 is composed of an arithmetic unit, registers, peripheral circuits, etc.
- the auxiliary storage device 903 is a storage device for saving data and programs. Examples include flash memory, HDD (Hard Disc Drive), optical magnetic disk, CD-ROM, DVD-ROM, semiconductor memory, etc.
- HDD Hard Disc Drive
- optical magnetic disk CD-ROM, DVD-ROM, semiconductor memory, etc.
- the communication IF 991 is an interface for inputting and outputting signals for communicating with other computers via a network using a wired or wireless communication standard.
- the network is composed of the Internet, a LAN, various mobile communication systems constructed by wireless base stations, etc.
- the network includes 3G, 4G, 5G mobile communication systems, LTE (Long Term Evolution), wireless networks that can connect to the Internet through a predetermined access point (e.g., Wi-Fi (registered trademark)), etc.
- communication protocols include, for example, Z-Wave (registered trademark), ZigBee (registered trademark), Bluetooth (registered trademark), etc.
- the network also includes a network that is directly connected by a USB (Universal Serial Bus) cable, etc.
- computers 90 can be realized virtually by distributing all or part of each hardware configuration across multiple computers 90 and connecting them together via a network.
- the concept of computer 90 includes not only a computer 90 housed in a single housing or case, but also a virtualized computer system.
- the computer includes at least the functional units of a control unit, a storage unit, and a communication unit.
- the functional units of the computer 90 can also be realized by distributing all or part of each functional unit across multiple computers 90 that are interconnected via a network.
- the concept of computer 90 includes not only a single computer 90 but also a virtualized computer system.
- the control unit is realized by the processor 901 reading out various programs stored in the auxiliary storage device 903, expanding them in the main storage device 902, and executing processing in accordance with the programs.
- the control unit can realize functional units that perform various information processing depending on the type of program.
- the computer is realized as an information processing device that performs information processing.
- the storage unit is realized by a main storage device 902 and an auxiliary storage device 903.
- the storage unit stores data, various programs, and various databases.
- the processor 901 can secure a storage area corresponding to the storage unit in the main storage device 902 or the auxiliary storage device 903 in accordance with a program.
- the control unit can cause the processor 901 to execute processes for adding, updating, and deleting data stored in the storage unit in accordance with various programs.
- the term database refers to a relational database, which is used to manage sets of data called masters and tables in a tabular format structurally defined by rows and columns, by associating them with each other.
- a table is called a table or master
- a column in a table is called a column
- a row in a table is called a record.
- relationships between tables and masters can be set and associated.
- a column that serves as a primary key for uniquely identifying a record is set in each table and each master, but setting a primary key to a column is not essential.
- the control unit can cause the processor 901 to add, delete, or update records in a specific table or master stored in the storage unit according to various programs. Furthermore, by storing data, various programs, and various databases in the storage unit, it can be considered that the information processing device and information processing system according to the present disclosure have been manufactured.
- databases and masters in this disclosure may include any data structure (lists, dictionaries, associative arrays, objects, etc.) in which information is structurally defined.
- Data structures also include data that can be considered as data structures by combining data with functions, classes, methods, etc. written in any programming language.
- the communication unit is realized by the communication IF 991.
- the communication unit realizes the function of communicating with other computers 90 via a network.
- the communication unit can receive information transmitted from other computers 90 and input it to the control unit.
- the control unit can cause the processor 901 to execute information processing on the received information in accordance with various programs.
- the communication unit can transmit information output from the control unit to other computers 90.
- a program that causes a computer having a processor and a memory unit to process information regarding a dialogue between multiple users, the program executing an analysis data acquisition step (S103) in which the processor acquires analysis data obtained by analyzing the dialogue, and an input data creation step (S104) in which the processor creates input data to be input to a generation AI based on the analysis data acquired in the analysis data acquisition step.
- This makes it possible to create input data such as prompts to be input into a generation AI of a large-scale language model, etc., to obtain answer content (comments) in a form that is easy for users to understand, from analytical data regarding dialogue between multiple users.
- a predetermined dialogue such as at least one of speech features related to the voice spoken by the speaker, language features related to the content of the dialogue, and the number of calls and duration of the dialogue.
- the input data creation step (S104) is a step of creating input data based on at least one of an instruction statement for outputting improvements in the dialogue based on the analysis data, an instruction statement for outputting items that have changed in the dialogue based on the analysis data, an instruction statement for outputting the goal achievement status of an operator or a group to which multiple operators belong based on the analysis data, and an instruction statement for outputting comparison results for multiple operators or multiple groups based on the analysis data.
- input data such as prompts can be created based on analytical data regarding the dialogue to be input into a generation AI such as a large-scale language model to obtain appropriate response content (comments) for the operator to improve the content of the dialogue.
- a generation AI such as a large-scale language model
- the input data creation step (S104) is a step of creating input data based on at least one of information indicating one or more operators or one or more groups whose dialogue is judged to be excellent based on a score for judging the quality of the dialogue for each operator or group to which multiple operators belong, and information indicating one or more operators or one or more groups whose dialogue is judged to be poor based on a score for judging the quality of the dialogue for each operator or group to which multiple operators belong, the program described in any of Appendices 1 to 4.
- the analysis data acquisition step (S103) is a step of acquiring analysis data obtained by analyzing a dialogue performed by a specified operator, and the processor executes an answer receiving step (S105) in which the processor receives answer content obtained by sending the input data created in the input data creation step to the generation AI, and a comment presenting step (S106) in which the processor presents a comment message including the answer content received in the answer receiving step to the specified operator.
- an answer receiving step (S105) in which the processor receives answer content obtained by sending the input data created in the input data creation step to the generation AI
- a comment presenting step (S106) in which the processor presents a comment message including the answer content received in the answer receiving step to the specified operator.
- the analysis data acquisition step (S103) is a step of acquiring analysis data for each of multiple operators by analyzing multiple conversations performed by multiple operators, and the processor executes an answer receiving step (S105) in which the processor receives answer content obtained by sending the input data created in the input data creation step to the generation AI, and a comment presenting step (S106) in which the processor presents a comment message including the answer content received in the answer receiving step to a specified user.
- This allows managers and other executives who manage operators to obtain responses (comments) regarding conversations between multiple operators they manage from the generation AI in a manner that is easy for users to understand.
- An information processing device comprising a control unit and a memory unit, wherein the control unit executes all of the steps executed in the invention according to any one of Supplementary Note 1 to Supplementary Note 9.
- This makes it possible to create input data such as prompts to be input into a generation AI of a large-scale language model, etc., to obtain answer content (comments) in a form that is easy for users to understand, from analytical data regarding dialogue between multiple users.
- Appendix 12 A system comprising means for performing all the steps performed in any one of claims 1 to 9. This makes it possible to create input data such as prompts to be input into a generation AI of a large-scale language model, etc., to obtain answer content (comments) in a form that is easy for users to understand, from analytical data regarding dialogue between multiple users.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
プロセッサと、記憶部とを備えるコンピュータに、複数のユーザ間の対話に関する情報を処理させるプログラムであって、プロセッサが、対話に対する解析を行うことにより得られる解析データを取得する解析データ取得ステップと、解析データ取得ステップにおいて取得した解析データに基づき、生成AIに入力される入力データを作成する入力データ作成ステップと、を実行するプログラム。
Description
本開示は、プログラム、方法、情報処理装置、システムに関する。
通話情報を解析する技術が知られている。
特許文献1には、通話情報を解析する技術が開示されている。
特許文献1には、通話情報を解析する技術が開示されている。
複数のユーザ間で行われた対話に関する解析データについて、単に解析データの提示を受けるのみではユーザにとっては内容が理解し難いという課題がある。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント等のフィードバック)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成する技術を提供することである。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント等のフィードバック)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成する技術を提供することである。
プロセッサと、記憶部とを備えるコンピュータに、複数のユーザ間の対話に関する情報を処理させるプログラムであって、プロセッサが、対話に対する解析を行うことにより得られる解析データを取得する解析データ取得ステップと、解析データ取得ステップにおいて取得した解析データに基づき、生成AIに入力される入力データを作成する入力データ作成ステップと、を実行するプログラム。
本開示によれば、対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント等のフィードバック)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
<システム1の構成>
本開示におけるシステム1は、顧客からの電話等による問合せを効率的に管理するための情報処理サービスを提供する情報処理システムである。
システム1は、ネットワークNを介して接続された、サーバ10、第1ユーザ端末20、第2ユーザ端末30、音声サーバ(PBX)50、生成AI80の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、第1ユーザ端末20の機能構成を示すブロック図である。
図4は、第2ユーザ端末30の機能構成を示すブロック図である。
本開示におけるシステム1は、顧客からの電話等による問合せを効率的に管理するための情報処理サービスを提供する情報処理システムである。
システム1は、ネットワークNを介して接続された、サーバ10、第1ユーザ端末20、第2ユーザ端末30、音声サーバ(PBX)50、生成AI80の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、第1ユーザ端末20の機能構成を示すブロック図である。
図4は、第2ユーザ端末30の機能構成を示すブロック図である。
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ10、第1ユーザ端末20、第2ユーザ端末30、音声サーバ(PBX)50、生成AI80のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
<サーバ10の構成>
サーバ10は、顧客からの電話等による問合せに応じて所定の情報処理を実行する情報処理サービスを提供する情報処理装置である。
本開示におけるサーバ10は、オペレータである第1ユーザと顧客である第2ユーザとの間でオンラインで行われる対話サービス(オンライン対話サービス)を提供する情報処理装置である。なお、本開示におけるサーバ10は、複数のオペレータ、複数の顧客を含む三者以上のユーザ間でオンラインで行われる対話サービスも提供可能としても良い。
なお、顧客は本開示にかかる情報処理サービスのユーザである必要は必ずしもない。
サーバ10は、記憶部101、制御部104を備える。
サーバ10は、顧客からの電話等による問合せに応じて所定の情報処理を実行する情報処理サービスを提供する情報処理装置である。
本開示におけるサーバ10は、オペレータである第1ユーザと顧客である第2ユーザとの間でオンラインで行われる対話サービス(オンライン対話サービス)を提供する情報処理装置である。なお、本開示におけるサーバ10は、複数のオペレータ、複数の顧客を含む三者以上のユーザ間でオンラインで行われる対話サービスも提供可能としても良い。
なお、顧客は本開示にかかる情報処理サービスのユーザである必要は必ずしもない。
サーバ10は、記憶部101、制御部104を備える。
<サーバ10の記憶部101の構成>
サーバ10の記憶部101は、アプリケーションプログラム1011、ユーザテーブル1012、グループテーブル1013、対話テーブル1014、ラベルテーブル1015、音声区間テーブル1016、コメントテーブル1021を備える。
サーバ10の記憶部101は、アプリケーションプログラム1011、ユーザテーブル1012、グループテーブル1013、対話テーブル1014、ラベルテーブル1015、音声区間テーブル1016、コメントテーブル1021を備える。
アプリケーションプログラム1011は、サーバ10の制御部104を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
ユーザテーブル1012は、ユーザの情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル1012の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。本開示においては、
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、グループID、ユーザ名のカラムを有するテーブルである。
図5は、ユーザテーブル1012のデータ構造を示す図である。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、グループID、ユーザ名のカラムを有するテーブルである。
図5は、ユーザテーブル1012のデータ構造を示す図である。
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザ識別情報は、ユーザごとにユニークな値が設定されている項目である。
グループIDは、グループを識別するためのグループ識別情報を記憶する項目である。ユーザごとに1または複数のグループ識別情報が関連付けて記憶されることにより、ユーザが1または複数のグループに所属することが表現される。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
グループIDは、グループを識別するためのグループ識別情報を記憶する項目である。ユーザごとに1または複数のグループ識別情報が関連付けて記憶されることにより、ユーザが1または複数のグループに所属することが表現される。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
グループテーブル1013は、ユーザが所属するグループに関する情報(グループ情報)を記憶し管理するテーブルである。グループは、会社、法人、企業グループ、サークル、各種団体など任意のグループ、グループが含まれる。グループは、会社の部署(営業部、総務部、カスタマーサポート部)などのより詳細なサブグループごとに定義しても良い。
グループテーブル1013は、グループIDを主キーとして、グループID、グループ名、グループ属性のカラムを有するテーブルである。
図6は、グループテーブル1013のデータ構造を示す図である。
グループテーブル1013は、グループIDを主キーとして、グループID、グループ名、グループ属性のカラムを有するテーブルである。
図6は、グループテーブル1013のデータ構造を示す図である。
グループIDは、グループを識別するためのグループ識別情報を記憶する項目である。グループ識別情報は、グループ情報ごとにユニークな値が設定されている項目である。
グループ名は、グループの名称を記憶する項目である。グループ名は任意の文字列を設定できる。
グループ属性は、グループ種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などのグループの属性に関する情報を記憶する項目である。
グループ名は、グループの名称を記憶する項目である。グループ名は任意の文字列を設定できる。
グループ属性は、グループ種別(会社、企業グループ、その他団体など)、業種(不動産、金融など)などのグループの属性に関する情報を記憶する項目である。
対話テーブル1014は、ユーザと顧客との間で行われる対話に関連する情報(対話情報)を記憶し管理するためのテーブルである。
対話テーブル1014は、対話IDを主キーとして、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データのカラムを有するテーブルである。
図7は、対話テーブル1014のデータ構造を示す図である。
対話テーブル1014は、対話IDを主キーとして、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データのカラムを有するテーブルである。
図7は、対話テーブル1014のデータ構造を示す図である。
対話IDは、対話を識別するための対話識別情報を記憶する項目である。対話識別情報は、対話情報ごとにユニークな値が設定されている項目である。
ユーザIDは、ユーザと顧客との間で行われる対話において、ユーザを識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数のユーザIDが関連づけられていても良い。
顧客IDは、ユーザと顧客との間で行われる対話において、顧客を識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数の顧客のユーザIDが関連づけられていても良い。
対話カテゴリは、ユーザと顧客との間で行われた対話の種類(カテゴリ)を記憶する項目である。対話データは、対話カテゴリにより分類される。対話カテゴリには、ユーザと顧客との間で行われる対話の目的などに応じて、テレフォンユーザー、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた対話が、ユーザが発信した(アウトバウンド)ものか、ユーザが受信した(インバウンド)もののいずれかを区別するための情報を記憶する項目である。また、3者以上のユーザによる対話の際には、ルームという受発信種別が記憶される。
音声データは、マイクにより集音された音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の音声データに基づき、ユーザID、顧客IDを特定できる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む。また、各種データに関連付けられた他のデータフォーマットのデータも保存するようにしてもよい。例えば、契約書面、議事録、プレゼンテーションファイルまたはメール等のデータを含めるようにしてもよい。
動画データは、カメラ等による撮影された動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
動画データは、ユーザの動画と顧客の動画とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの動画、顧客の動画に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の動画データに基づき、ユーザID、顧客IDを特定できる。
ユーザIDは、ユーザと顧客との間で行われる対話において、ユーザを識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数のユーザIDが関連づけられていても良い。
顧客IDは、ユーザと顧客との間で行われる対話において、顧客を識別するためのユーザ識別情報を記憶する項目である。対話情報ごとに、複数の顧客のユーザIDが関連づけられていても良い。
対話カテゴリは、ユーザと顧客との間で行われた対話の種類(カテゴリ)を記憶する項目である。対話データは、対話カテゴリにより分類される。対話カテゴリには、ユーザと顧客との間で行われる対話の目的などに応じて、テレフォンユーザー、テレマーケティング、カスタマーサポート、テクニカルサポートなどの値が記憶される。
受発信種別は、ユーザと顧客との間で行われた対話が、ユーザが発信した(アウトバウンド)ものか、ユーザが受信した(インバウンド)もののいずれかを区別するための情報を記憶する項目である。また、3者以上のユーザによる対話の際には、ルームという受発信種別が記憶される。
音声データは、マイクにより集音された音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良い。
音声データは、ユーザの音声と顧客の音声とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの音声、顧客の音声に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の音声データに基づき、ユーザID、顧客IDを特定できる。
本開示において、音声データに替えて、音声情報を含む動画データを用いても構わない。また、本開示における音声データは、動画データに含まれる音声データも含む。また、各種データに関連付けられた他のデータフォーマットのデータも保存するようにしてもよい。例えば、契約書面、議事録、プレゼンテーションファイルまたはメール等のデータを含めるようにしてもよい。
動画データは、カメラ等による撮影された動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良い。
動画データは、ユーザの動画と顧客の動画とが、それぞれ独立して識別可能な識別子が設定された形式のデータであっても良い。この場合、サーバ10の制御部104は、ユーザの動画、顧客の動画に対してそれぞれ独立した解析処理を実行できる。また、ユーザ、顧客の動画データに基づき、ユーザID、顧客IDを特定できる。
ラベルテーブル1015は、ラベルに関する情報(ラベル情報)を記憶し管理するためのテーブルである。
ラベルテーブル1015は、対話ID、ラベルデータのカラムを有するテーブルである。
図8は、ラベルテーブル1015のデータ構造を示す図である。
ラベルテーブル1015は、対話ID、ラベルデータのカラムを有するテーブルである。
図8は、ラベルテーブル1015のデータ構造を示す図である。
対話IDは、対話を識別するための対話識別情報を記憶する項目である。
ラベルデータは、対話を管理するためのラベル情報を記憶する項目である。ラベル情報は、分類名、ラベル、分類ラベル、タグなど、対話情報を管理するための付加的な情報である。
ラベルデータはラベル情報の名称を示す文字列でも良いし、他のテーブルに記憶されたラベル情報の名称を参照するためのラベルID等でも良い。
ラベルデータは、特定の対話における話者の感情状態に応じた分類情報を含む。分類データは、特定の対話において話者の応対の善し悪しを分類するための分類情報を含む。
ラベルデータは、対話を管理するためのラベル情報を記憶する項目である。ラベル情報は、分類名、ラベル、分類ラベル、タグなど、対話情報を管理するための付加的な情報である。
ラベルデータはラベル情報の名称を示す文字列でも良いし、他のテーブルに記憶されたラベル情報の名称を参照するためのラベルID等でも良い。
ラベルデータは、特定の対話における話者の感情状態に応じた分類情報を含む。分類データは、特定の対話において話者の応対の善し悪しを分類するための分類情報を含む。
音声区間テーブル1016は、対話情報に含まれる複数の音声区間に関する情報(音声区間情報)を記憶し管理するためのテーブルである。
音声区間テーブル1016は、区間IDを主キーとして、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストのカラムを有するテーブルである。
図9は、音声区間テーブル1016のデータ構造を示す図である。
音声区間テーブル1016は、区間IDを主キーとして、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストのカラムを有するテーブルである。
図9は、音声区間テーブル1016のデータ構造を示す図である。
区間IDは、音声区間を識別するための区間識別情報を記憶する項目である。区間識別情報は、音声区間情報ごとにユニークな値が設定されている項目である。
対話IDは、音声区間情報が関連づけられる対話を識別するための対話識別情報を記憶する項目である。
話者IDは、音声区間情報が関連づけられる話者を識別するための話者識別情報を記憶する項目である。具体的に、話者IDは、対話に参加した、複数のユーザID、顧客IDを記憶する項目である。
開始日時は、音声区間、動画区間の開始日時を記憶する項目である。
終了日時は、音声区間、動画区間の終了日時を記憶する項目である。
区間音声データは、音声区間に含まれる音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の音声データの開始日時から終了日時までの期間の音声データに対する参照を記憶しても良い。また、区間音声データは、区間動画データに含まれる音声データを含むものとしても構わない。
音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良いし、複数種類のデータフォーマットを含んでもよい。
区間動画データは、音声区間に含まれる動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の動画データの開始日時から終了日時までの期間の動画データに対する参照を記憶しても良い。
動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良いし、複数種類のデータフォーマットを含んでもよい。
区間読上テキストは、音声区間に含まれる区間音声データにおいて話者により発話された内容のテキスト情報を記憶する項目である。具体的に、区間読上テキストは、区間音声データ、区間動画データに基づき、人手、任意の機械学習、深層学習等の学習モデルを用いることにより生成しても良い。
対話IDは、音声区間情報が関連づけられる対話を識別するための対話識別情報を記憶する項目である。
話者IDは、音声区間情報が関連づけられる話者を識別するための話者識別情報を記憶する項目である。具体的に、話者IDは、対話に参加した、複数のユーザID、顧客IDを記憶する項目である。
開始日時は、音声区間、動画区間の開始日時を記憶する項目である。
終了日時は、音声区間、動画区間の終了日時を記憶する項目である。
区間音声データは、音声区間に含まれる音声データを記憶する項目である。他の場所に配置された音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の音声データの開始日時から終了日時までの期間の音声データに対する参照を記憶しても良い。また、区間音声データは、区間動画データに含まれる音声データを含むものとしても構わない。
音声データのフォーマットは、AAC,ATRAC、mp3、mp4など任意のデータフォーマットで良いし、複数種類のデータフォーマットを含んでもよい。
区間動画データは、音声区間に含まれる動画データを記憶する項目である。他の場所に配置された動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、開始日時、終了日時に基づき対話テーブル1014の動画データの開始日時から終了日時までの期間の動画データに対する参照を記憶しても良い。
動画データのフォーマットは、MP4、MOV、WMV、AVI、AVCHDなど任意のデータフォーマットで良いし、複数種類のデータフォーマットを含んでもよい。
区間読上テキストは、音声区間に含まれる区間音声データにおいて話者により発話された内容のテキスト情報を記憶する項目である。具体的に、区間読上テキストは、区間音声データ、区間動画データに基づき、人手、任意の機械学習、深層学習等の学習モデルを用いることにより生成しても良い。
コメントテーブル1021は、回答に関する情報(回答情報)を記憶し管理するためのテーブルである。
コメントテーブル1021は、指示文、解析データ、入力データ、コメントデータのカラムを有するテーブルである。
図10は、コメントテーブル1021のデータ構造を示す図である。
コメントテーブル1021は、指示文、解析データ、入力データ、コメントデータのカラムを有するテーブルである。
図10は、コメントテーブル1021のデータ構造を示す図である。
指示文は、入力データを生成するための指示文に関する文字列を記憶する項目である。具体的に、指示文は、ユーザによる入力操作に応じて入力および編集されたり、ユーザが所定の入力候補を選択することにより入力された指示文が記憶される。
解析データは、対話情報、音声区間情報等に対して解析した情報(解析情報)を記憶する項目である。解析データは、具体的に以下の情報を含む。
・発話者により発話された音声に関する音声特徴量
具体的に、音声特徴量はユーザが発話と通話先が発話との比率(Talk:Listen比率)、ユーザの発話と通話先の発話との間で被りが生じた回数(被り回数)、沈黙が生じた回数(沈黙回数)、ユーザの発話または通話先の発話の周波数(ユーザの基本周波数、通話先の基本周波数)、ユーザの発話または通話先の発話の抑揚(ユーザの抑揚の強弱、通話先の抑揚の強弱)等を含む。
なお、解析データは、ユーザおよび通話先の発話における、ピッチ(基本周波数)、音声強度(音量)、スペクトル特性(発話音声の周波数領域の特性、声紋、音色等を含む)、発話音声の音声速度、個々の音節や単語、フレーズ等の音声の長さ、音声のリズム、声質(はっきりした声、かすれ声など)などを含む。
・発話された内容に関する言語特徴量
具体的に、言語特徴量は対話に含まれる所定のキーワードの出現回数、出現頻度、単語の多様性に関する指標、発話文の長さ、名詞、動詞、形容詞等の品詞の使用頻度を示す指標、感情語の使用、トピックの分布に関する情報を含む。
・対話に関する架電回数および通話時間
架電回数は、特定の期間(日、週、月など)の期間における架電回数を含む。通話時間は、一つ一つの通話がどの程度の時間続いたかを示す指標である。
解析データは、ユーザまたはグループごとに複数の対話における上記特徴量を含む解析データに基づく平均値、中央値、最大値、最小値等の統計値を含む。解析データは、ユーザまたはグループごとに上記特徴量を含む解析データのランキング、順位等の比較結果を含む。解析データに基づく統計値や比較結果については、事前に決定してあるルールに基づいて算出するようにしてもよい。
入力データは、生成AI50へ入力するためのプロンプトとよばれる入力データを記憶する項目である。
コメントデータは、生成AI50へ入力データを入力することに応じて得られる回答データ(レスポンス)に基づき作成される、主にユーザに対して通知されるコメントメッセージのデータ(メッセージ文書)を記憶する項目である。
解析データは、対話情報、音声区間情報等に対して解析した情報(解析情報)を記憶する項目である。解析データは、具体的に以下の情報を含む。
・発話者により発話された音声に関する音声特徴量
具体的に、音声特徴量はユーザが発話と通話先が発話との比率(Talk:Listen比率)、ユーザの発話と通話先の発話との間で被りが生じた回数(被り回数)、沈黙が生じた回数(沈黙回数)、ユーザの発話または通話先の発話の周波数(ユーザの基本周波数、通話先の基本周波数)、ユーザの発話または通話先の発話の抑揚(ユーザの抑揚の強弱、通話先の抑揚の強弱)等を含む。
なお、解析データは、ユーザおよび通話先の発話における、ピッチ(基本周波数)、音声強度(音量)、スペクトル特性(発話音声の周波数領域の特性、声紋、音色等を含む)、発話音声の音声速度、個々の音節や単語、フレーズ等の音声の長さ、音声のリズム、声質(はっきりした声、かすれ声など)などを含む。
・発話された内容に関する言語特徴量
具体的に、言語特徴量は対話に含まれる所定のキーワードの出現回数、出現頻度、単語の多様性に関する指標、発話文の長さ、名詞、動詞、形容詞等の品詞の使用頻度を示す指標、感情語の使用、トピックの分布に関する情報を含む。
・対話に関する架電回数および通話時間
架電回数は、特定の期間(日、週、月など)の期間における架電回数を含む。通話時間は、一つ一つの通話がどの程度の時間続いたかを示す指標である。
解析データは、ユーザまたはグループごとに複数の対話における上記特徴量を含む解析データに基づく平均値、中央値、最大値、最小値等の統計値を含む。解析データは、ユーザまたはグループごとに上記特徴量を含む解析データのランキング、順位等の比較結果を含む。解析データに基づく統計値や比較結果については、事前に決定してあるルールに基づいて算出するようにしてもよい。
入力データは、生成AI50へ入力するためのプロンプトとよばれる入力データを記憶する項目である。
コメントデータは、生成AI50へ入力データを入力することに応じて得られる回答データ(レスポンス)に基づき作成される、主にユーザに対して通知されるコメントメッセージのデータ(メッセージ文書)を記憶する項目である。
<サーバ10の制御部104の構成>
サーバ10の制御部104は、ユーザ登録制御部1041、提示部1042を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
サーバ10の制御部104は、ユーザ登録制御部1041、提示部1042を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
ユーザ登録制御部1041は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル1012に記憶する処理を行う。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用できるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用できるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
提示部1042は提示処理を実行する。詳細は、後述する。
<第1ユーザ端末20の構成>
第1ユーザ端末20は、サービスを利用するユーザが操作する情報処理装置である。第1ユーザ端末20は、例えば、据え置き型のPC(Personal Computer)、ラップトップPCであってもよいし、スマートフォン、タブレット等の携帯端末でもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第1ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
第1ユーザ端末20は、サービスを利用するユーザが操作する情報処理装置である。第1ユーザ端末20は、例えば、据え置き型のPC(Personal Computer)、ラップトップPCであってもよいし、スマートフォン、タブレット等の携帯端末でもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第1ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
<第1ユーザ端末20の記憶部201の構成>
第1ユーザ端末20の記憶部201は、第1ユーザID2011、アプリケーションプログラム2012を備える。
第1ユーザ端末20の記憶部201は、第1ユーザID2011、アプリケーションプログラム2012を備える。
第1ユーザID2011は、オペレータのユーザ識別情報を記憶する。オペレータは、第1ユーザ端末20から第1ユーザID2011を、音声サーバ(PBX)60へ送信する。音声サーバ(PBX)60は、第1ユーザID2011に基づきオペレータを識別し、本開示にかかるサービスをオペレータに対して提供する。なお、第1ユーザID2011には、第1ユーザ端末20を利用しているオペレータを識別するにあたり音声サーバ(PBX)60から一時的に付与されるセッションIDなどの情報を含む。
アプリケーションプログラム2012は、記憶部201に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、第1ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、第1ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
<第1ユーザ端末20の制御部204の構成>
第1ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
第1ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
<第1ユーザ端末20の入力装置206の構成>
第1ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065を備える。
第1ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、キーボード2065を備える。
<第1ユーザ端末20の出力装置208の構成>
第1ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
第1ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
<第2ユーザ端末30の構成>
第2ユーザ端末30は、サービスを利用する顧客が操作する情報処理装置である。第2ユーザ端末30は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第2ユーザ端末30は、記憶部301、制御部304、入力装置306、出力装置308を備える。
第2ユーザ端末30は、サービスを利用する顧客が操作する情報処理装置である。第2ユーザ端末30は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
第2ユーザ端末30は、記憶部301、制御部304、入力装置306、出力装置308を備える。
<第2ユーザ端末30の記憶部301の構成>
第2ユーザ端末30の記憶部301は、アプリケーションプログラム3012、電話番号3013を備える。
第2ユーザ端末30の記憶部301は、アプリケーションプログラム3012、電話番号3013を備える。
アプリケーションプログラム3012は、記憶部301に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム3012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム3012は、第2ユーザ端末30に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
アプリケーションプログラム3012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム3012は、第2ユーザ端末30に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
<第2ユーザ端末30の制御部304の構成>
第2ユーザ端末30の制御部304は、入力制御部3041、出力制御部3042を備える。制御部304は、記憶部301に記憶されたアプリケーションプログラム3012を実行することにより、各機能ユニットが実現される。
第2ユーザ端末30の制御部304は、入力制御部3041、出力制御部3042を備える。制御部304は、記憶部301に記憶されたアプリケーションプログラム3012を実行することにより、各機能ユニットが実現される。
<第2ユーザ端末30の入力装置306の構成>
第2ユーザ端末30の入力装置306は、カメラ3061、マイク3062、位置情報センサ3063、モーションセンサ3064、タッチデバイス3065を備える。
第2ユーザ端末30の入力装置306は、カメラ3061、マイク3062、位置情報センサ3063、モーションセンサ3064、タッチデバイス3065を備える。
<第2ユーザ端末30の出力装置308の構成>
第2ユーザ端末30の出力装置308は、ディスプレイ3081、スピーカ3082、送信部6041を備える。
第2ユーザ端末30の出力装置308は、ディスプレイ3081、スピーカ3082、送信部6041を備える。
送信部6041は、外部サーバ60においてユーザから受け付けた評価データを、サーバ10へ送信する処理を実行する制御部である。
<音声サーバ(PBX)50の構成>
音声サーバ(PBX)50は、ネットワークNと電話網Tとを互いに接続することで第1ユーザ端末20と第2ユーザ端末30との間における対話を可能とする交換機として機能する情報処理装置である。
音声サーバ(PBX)50は、記憶部501を備える。
音声サーバ(PBX)50は、ネットワークNと電話網Tとを互いに接続することで第1ユーザ端末20と第2ユーザ端末30との間における対話を可能とする交換機として機能する情報処理装置である。
音声サーバ(PBX)50は、記憶部501を備える。
<音声サーバ(PBX)50の記憶部501の構成>
音声サーバ(PBX)50の記憶部501は、アプリケーションプログラム5011を備える。
音声サーバ(PBX)50の記憶部501は、アプリケーションプログラム5011を備える。
アプリケーションプログラム5011は、音声サーバ(PBX)50の制御部504を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム5011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム5011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
<生成AI80の構成>
生成AI80は、文字列または画像等の入力データに基づき、文字列または画像等の出力データを出力する人工知能モデル(深層学習モデル)の一種である。本開示においては、主に、文字列にかかる入力データに基づき、文字列にかかる出力データを出力する大規模言語モデル(LLM、Large Language Model)を一例として説明する。LLMは、OpenAI ChatGPT、Microsoft Bing Chat、Google Bard等がある。
生成AI80は、文字列または画像等の入力データに基づき、文字列または画像等の出力データを出力する人工知能モデル(深層学習モデル)の一種である。本開示においては、主に、文字列にかかる入力データに基づき、文字列にかかる出力データを出力する大規模言語モデル(LLM、Large Language Model)を一例として説明する。LLMは、OpenAI ChatGPT、Microsoft Bing Chat、Google Bard等がある。
<システム1の動作>
以下、システム1の各処理について説明する。
図11は、コメント処理の動作を示すフローチャートである。
図12は、コメント処理の動作を示す画面例である。
以下、システム1の各処理について説明する。
図11は、コメント処理の動作を示すフローチャートである。
図12は、コメント処理の動作を示す画面例である。
<対話処理>
第1ユーザ(オペレータ)が第2ユーザ(顧客)から着信(受電)する着信処理、第1ユーザ(オペレータ)から第2ユーザ(顧客)に対し発信(架電)する発信処理により第1ユーザおよび第2ユーザが対話可能な状態となる処理を以下に説明する。
その他、第1ユーザと、第2ユーザとが対話可能状態となる方法はこれらに限られない。例えば、第1ユーザが第2ユーザとの間で対話を行う処理として、ルームとよばれる仮想的な対話空間において複数のユーザ間で対話を行う処理をルーム対話処理として説明する。
本開示にかかる発明は、着信処理、発信処理、任意の方法により、第1ユーザと、第2ユーザとが対話可能状態となる方法に対して適用可能である。
第1ユーザ(オペレータ)が第2ユーザ(顧客)から着信(受電)する着信処理、第1ユーザ(オペレータ)から第2ユーザ(顧客)に対し発信(架電)する発信処理により第1ユーザおよび第2ユーザが対話可能な状態となる処理を以下に説明する。
その他、第1ユーザと、第2ユーザとが対話可能状態となる方法はこれらに限られない。例えば、第1ユーザが第2ユーザとの間で対話を行う処理として、ルームとよばれる仮想的な対話空間において複数のユーザ間で対話を行う処理をルーム対話処理として説明する。
本開示にかかる発明は、着信処理、発信処理、任意の方法により、第1ユーザと、第2ユーザとが対話可能状態となる方法に対して適用可能である。
<ルーム対話処理>
サーバ10上に、第1ユーザと第2ユーザとの間で対話を行うためのルームとよばれる仮想的な対話空間を作成し、第1ユーザおよび第2ユーザが当該ルームへ第1ユーザ端末20、第2ユーザ端末30に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより対話可能状態となる方法がある。この場合、音声サーバ(PBX)60は不要な構成となる。
具体的には、対話の主催者となる第1ユーザが第1ユーザ端末20の入力装置206を操作し、サーバ10へ対話開催に関するリクエストを送信する。サーバ10の制御部104は、リクエストを受信するとユニークなルームIDなどのルーム識別情報を発行し、第1ユーザ端末20へレスポンスを送信する。第1ユーザは、受信したルーム識別情報を、対話相手である第2ユーザへメール、チャットなど任意の通信手段により送信する。第1ユーザは、第1ユーザ端末20の入力装置206を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。同様に、第2ユーザは第2ユーザ端末30の入力装置306を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。これにより、第1ユーザと第2ユーザとはルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれ第1ユーザ端末20、第2ユーザ端末30を介して対話を行うことができる。
ルーム識別情報を入力することにより、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザが1つのルームに入室できる。これにより、三者以上の複数のユーザは、ルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれのユーザ端末を介して対話を行うことができる。
サーバ10上に、第1ユーザと第2ユーザとの間で対話を行うためのルームとよばれる仮想的な対話空間を作成し、第1ユーザおよび第2ユーザが当該ルームへ第1ユーザ端末20、第2ユーザ端末30に記憶されたウェブブラウザまたはアプリケーションプログラムを介してアクセスすることにより対話可能状態となる方法がある。この場合、音声サーバ(PBX)60は不要な構成となる。
具体的には、対話の主催者となる第1ユーザが第1ユーザ端末20の入力装置206を操作し、サーバ10へ対話開催に関するリクエストを送信する。サーバ10の制御部104は、リクエストを受信するとユニークなルームIDなどのルーム識別情報を発行し、第1ユーザ端末20へレスポンスを送信する。第1ユーザは、受信したルーム識別情報を、対話相手である第2ユーザへメール、チャットなど任意の通信手段により送信する。第1ユーザは、第1ユーザ端末20の入力装置206を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。同様に、第2ユーザは第2ユーザ端末30の入力装置306を操作し、ウェブブラウザなどでサーバ10のルームに関するサービスを提供するURLへアクセスし、ルーム識別情報を入力することによりルームに入室できる。これにより、第1ユーザと第2ユーザとはルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれ第1ユーザ端末20、第2ユーザ端末30を介して対話を行うことができる。
ルーム識別情報を入力することにより、第1ユーザ、第2ユーザに加えて、他の1または複数のユーザが1つのルームに入室できる。これにより、三者以上の複数のユーザは、ルーム識別情報により関連付けられたルームとよばれる仮想的な対話空間内で、それぞれのユーザ端末を介して対話を行うことができる。
その他、必ずしも全ての参加者がそれぞれルームに参加することにより対話処理が実行される構成とする必要はない。例えば、会議室等で行われている複数の参加者が参加する会議において複数の参加者が1の情報端末を介してルームに入室し、対話処理が実行する構成としても良い。その他、対話処理は必ずしもオンラインで行われる必要はなく、会議室等で行われている複数の参加者が参加する会議に対して、当該会議内容の動画、音声を取得する情報端末を用いて実行される構成としも良い。例えば、会議をファシリテーションするアプリケーション等において実行される構成としても良い。
<動画対話>
本開示におけるシステム1は、動画データを含むオンライン対話サービス(ビデオ対話サービス)を提供しても良い。例えば、第1ユーザ端末20の制御部204、第2ユーザ端末30の制御部304は、それぞれ、第1ユーザ端末20のカメラ2061、第2ユーザ端末30のカメラ3061により撮影された動画データをサーバ10へ送信する。
サーバ10は、受信した動画データに基づき、第1ユーザ端末20のカメラ2061により撮影された動画データを第2ユーザ端末30へ、第2ユーザ端末30のカメラ3061により撮影された動画データを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第2ユーザ端末30のカメラ3061により撮影された動画データをディスプレイ2081に表示する。第2ユーザ端末30の制御部304は、受信した第1ユーザ端末20のカメラ2061により撮影された動画データをディスプレイ3081に表示する。
サーバ10は、オンライン対話に参加している一部またはすべての複数のユーザの動画データを第1ユーザ端末20、第2ユーザ端末30へ送信しても良い。この場合、第1ユーザ端末20の制御部204は、受信したオンライン対話に参加している一部またはすべての複数のユーザの動画データを一画面に並べて第1ユーザ端末20のディスプレイ2081に表示する。これにより、オンライン対話に参加している複数のユーザの対話状況を確認できる。第2ユーザ端末30においても同様の処理を実行しても良い。
本開示におけるシステム1は、動画データを含むオンライン対話サービス(ビデオ対話サービス)を提供しても良い。例えば、第1ユーザ端末20の制御部204、第2ユーザ端末30の制御部304は、それぞれ、第1ユーザ端末20のカメラ2061、第2ユーザ端末30のカメラ3061により撮影された動画データをサーバ10へ送信する。
サーバ10は、受信した動画データに基づき、第1ユーザ端末20のカメラ2061により撮影された動画データを第2ユーザ端末30へ、第2ユーザ端末30のカメラ3061により撮影された動画データを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した第2ユーザ端末30のカメラ3061により撮影された動画データをディスプレイ2081に表示する。第2ユーザ端末30の制御部304は、受信した第1ユーザ端末20のカメラ2061により撮影された動画データをディスプレイ3081に表示する。
サーバ10は、オンライン対話に参加している一部またはすべての複数のユーザの動画データを第1ユーザ端末20、第2ユーザ端末30へ送信しても良い。この場合、第1ユーザ端末20の制御部204は、受信したオンライン対話に参加している一部またはすべての複数のユーザの動画データを一画面に並べて第1ユーザ端末20のディスプレイ2081に表示する。これにより、オンライン対話に参加している複数のユーザの対話状況を確認できる。第2ユーザ端末30においても同様の処理を実行しても良い。
発信処理、ルーム対話処理においても、ユーザと顧客との間で対話が開始された場合に、着信処理と同様に対話記憶処理を実行する。対話記憶処理は、着信処理のステップS104と同様であるため、説明を省略する。
ルーム対話処理は、本開示にかかる情報処理サービスとは異なる事業者が運営するオンライン会議サービス等により実行されても構わない。オンライン会議サービスは、Zoom、Google Meet、Microsoft Teams等を含む。
<着信処理>
着信処理は、ユーザが顧客から着信(受電)する処理である。
着信処理は、ユーザが顧客から着信(受電)する処理である。
<着信処理の概要>
着信処理は、ユーザが第1ユーザ端末20においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、顧客に適用する応対ルールを特定し、特定した応対ルールに基づく着信判定処理を実行し、判定結果に応じてユーザに接続する処理を実行する一連の処理である。
なお、本開示においては、電話による着信処理を一例として説明するが、任意のオンライン対話サービス等を利用した着信処理に対しても適用可能である。
着信処理は、ユーザが第1ユーザ端末20においてアプリケーションを立ち上げている場合に、顧客がユーザに対して発信した場合に、顧客に適用する応対ルールを特定し、特定した応対ルールに基づく着信判定処理を実行し、判定結果に応じてユーザに接続する処理を実行する一連の処理である。
なお、本開示においては、電話による着信処理を一例として説明するが、任意のオンライン対話サービス等を利用した着信処理に対しても適用可能である。
<着信処理の詳細>
ユーザが顧客から着信(受電)する場合におけるシステム1の着信処理について説明する。
ユーザが顧客から着信(受電)する場合におけるシステム1の着信処理について説明する。
ユーザが顧客から着信する場合、システム1において以下の処理が実行される。
ステップS101において、ユーザは第1ユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム50が提供するCRMサービスのウェブサイトへアクセスする。このとき、ユーザはウェブブラウザにおいて、自身のアカウントにてCRMシステム50にログインし待機しているものとする。なお、ユーザはCRMシステム50にログインしていれば良く、CRMサービスにかかる他の作業などを行っていても良い。
ステップS102において、顧客は、第2ユーザ端末30を操作し、音声サーバ(PBX)60に割り当てられた所定の電話番号を入力し、音声サーバ(PBX)60に対して発信する。音声サーバ(PBX)60は、第2ユーザ端末30の発信を着信イベントとして受信する。
音声サーバ(PBX)60は、サーバ10に対し、着信イベントを送信する。具体的には、音声サーバ(PBX)60は、サーバ10に対して顧客の電話番号3011を含む着信リクエストを送信する。
音声サーバ(PBX)60は、サーバ10に対し、着信イベントを送信する。具体的には、音声サーバ(PBX)60は、サーバ10に対して顧客の電話番号3011を含む着信リクエストを送信する。
ステップS103において、第1ユーザ端末20は、ユーザによる応答操作を受け付ける。応答操作は、例えば、第1ユーザ端末20において不図示の受話器を持ち上げたり、第1ユーザ端末20のディスプレイ2081に「電話に出る」と表示されたボタンを、ユーザがマウス2066を操作して押下する操作などにより実現される。
第1ユーザ端末20は、応答操作を受け付けると、音声サーバ(PBX)60に対し、CRMシステム50、サーバ10を介して応答リクエストを送信する。音声サーバ(PBX)60は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、第1ユーザ端末20は、第2ユーザ端末30と対話可能状態となる。
第1ユーザ端末20のディスプレイ2081は、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「対話中」という文字を表示してもよい。
第1ユーザ端末20は、応答操作を受け付けると、音声サーバ(PBX)60に対し、CRMシステム50、サーバ10を介して応答リクエストを送信する。音声サーバ(PBX)60は、送信されてきた応答リクエストを受信し、音声通信を確立する。これにより、第1ユーザ端末20は、第2ユーザ端末30と対話可能状態となる。
第1ユーザ端末20のディスプレイ2081は、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「対話中」という文字を表示してもよい。
<対話記憶処理>
ステップS104において対話記憶処理が実行される。対話記憶処理は、ユーザと顧客との間で行われる対話に関するデータを記憶する処理である。
ステップS104において対話記憶処理が実行される。対話記憶処理は、ユーザと顧客との間で行われる対話に関するデータを記憶する処理である。
<対話記憶処理の概要>
対話記憶処理は、ユーザと顧客との間で対話が開始された場合に、対話に関するデータを対話テーブル1014に記憶する一連の処理である。
対話記憶処理は、ユーザと顧客との間で対話が開始された場合に、対話に関するデータを対話テーブル1014に記憶する一連の処理である。
<対話記憶処理の詳細>
ステップS104において、サーバ10の制御部104は、対話に関する音声データを取得する音声取得ステップを実行する。
具体的に、ユーザと顧客との間で対話が開始されると、音声サーバ(PBX)60は、ユーザと顧客との間で行われる対話に関する音声データを録音し、サーバ10へ送信する。サーバ10の制御部104は、音声データを受信すると、対話テーブル1014に新たなレコードを作成し、ユーザと顧客との間で行われる対話に関するデータを記憶する。具体的に、サーバ10の制御部104は、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データの内容を対話テーブル1014の新たなレコードに記憶する。
ステップS104において、サーバ10の制御部104は、対話に関する音声データを取得する音声取得ステップを実行する。
具体的に、ユーザと顧客との間で対話が開始されると、音声サーバ(PBX)60は、ユーザと顧客との間で行われる対話に関する音声データを録音し、サーバ10へ送信する。サーバ10の制御部104は、音声データを受信すると、対話テーブル1014に新たなレコードを作成し、ユーザと顧客との間で行われる対話に関するデータを記憶する。具体的に、サーバ10の制御部104は、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データの内容を対話テーブル1014の新たなレコードに記憶する。
サーバ10の制御部104は、発信処理または着信処理において第1ユーザ端末20から、ユーザの第1ユーザID2011を取得し、対話テーブル1014の新たなレコードのユーザIDの項目に記憶する。
サーバ10の制御部104は、発信処理または着信処理において電話番号に基づきCRMシステム50へ問い合わせを行う。CRMシステム50は、顧客テーブル5012を電話番号により検索することにより、顧客IDを取得し、サーバ10へ送信する。サーバ10の制御部104は、取得した顧客IDを対話テーブル1014の新たなレコードの顧客IDの項目に記憶する。
サーバ10の制御部104は、予めユーザまたは顧客ごとに設定された対話カテゴリの値を、対話テーブル1014の新たなレコードの対話カテゴリの項目に記憶する。なお、対話カテゴリは、対話ごとにユーザが値を選択、入力することにより記憶しても良い。
サーバ10の制御部104は、行われている対話がユーザにより発信したものか、顧客から発信されたものかを識別し、対話テーブル1014の新たなレコードの受発信種別の項目にアウトバウンド(ユーザから発信)、インバウンド(顧客から発信)のいずれかの値を記憶する。
サーバ10の制御部104は、発信処理または着信処理において電話番号に基づきCRMシステム50へ問い合わせを行う。CRMシステム50は、顧客テーブル5012を電話番号により検索することにより、顧客IDを取得し、サーバ10へ送信する。サーバ10の制御部104は、取得した顧客IDを対話テーブル1014の新たなレコードの顧客IDの項目に記憶する。
サーバ10の制御部104は、予めユーザまたは顧客ごとに設定された対話カテゴリの値を、対話テーブル1014の新たなレコードの対話カテゴリの項目に記憶する。なお、対話カテゴリは、対話ごとにユーザが値を選択、入力することにより記憶しても良い。
サーバ10の制御部104は、行われている対話がユーザにより発信したものか、顧客から発信されたものかを識別し、対話テーブル1014の新たなレコードの受発信種別の項目にアウトバウンド(ユーザから発信)、インバウンド(顧客から発信)のいずれかの値を記憶する。
サーバ10の制御部104は、音声サーバ(PBX)60から受信する音声データを、対話テーブル1014の新たなレコードの音声データの項目に記憶する。なお、音声データは他の場所に音声データファイルとして記憶し、対話終了後に、音声データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、対話終了後に音声データを記憶する構成としても良い。
また、ビデオ対話サービスにおいては、サーバ10の制御部104は、第1ユーザ端末20、第2ユーザ端末30のから受信する動画データを、対話テーブル1014の新たなレコードの動画データの項目に記憶する。なお、動画データは他の場所に動画データファイルとして記憶し、対話終了後に、動画データファイルに対する参照情報(パス)を記憶するものとしても良い。また、サーバ10の制御部104は、対話終了後に動画データを記憶する構成としても良い。
サーバ10の制御部104は、音声取得ステップにおいて取得した音声データから、発話区間ごとに複数の区間音声データを抽出する音声抽出ステップを実行する。音声抽出ステップは、複数の区間音声データごとの話者を特定するステップを含む。
具体的に、サーバ10の制御部104は、対話テーブル1014に記憶された対話ID、音声データ、動画データを取得する(受け付ける)。サーバ10の制御部104は、取得(受付)した音声データ、動画データから、発話音声が連続して存在する区間(発話区間)を検出し、発話区間のそれぞれに対して音声データ、動画データを、それぞれ、区間音声データ、区間動画データとして抽出する。例えば、音声データ、動画データを、発話音声がない無言区間により分割することにより、区間音声データ、区間動画データを抽出しても良い。また、音声データ、動画データに含まれる発話内容について、分節、文、段落等の文章単位で、音声データ、動画データを分割することにより、区間音声データ、区間動画データを抽出しても良い。区間音声データ、区間動画データは、発話区間ごとに話者のユーザID、発話区間の開始日時、発話区間の終了日時と関連づけられる。
具体的に、サーバ10の制御部104は、対話テーブル1014に記憶された対話ID、音声データ、動画データを取得する(受け付ける)。サーバ10の制御部104は、取得(受付)した音声データ、動画データから、発話音声が連続して存在する区間(発話区間)を検出し、発話区間のそれぞれに対して音声データ、動画データを、それぞれ、区間音声データ、区間動画データとして抽出する。例えば、音声データ、動画データを、発話音声がない無言区間により分割することにより、区間音声データ、区間動画データを抽出しても良い。また、音声データ、動画データに含まれる発話内容について、分節、文、段落等の文章単位で、音声データ、動画データを分割することにより、区間音声データ、区間動画データを抽出しても良い。区間音声データ、区間動画データは、発話区間ごとに話者のユーザID、発話区間の開始日時、発話区間の終了日時と関連づけられる。
サーバ10の制御部104は、音声抽出ステップにおいて抽出した複数の区間音声データごとに、話者により発話した内容のテキスト情報である複数の区間読上テキストを生成するテキスト生成ステップを実行する。
具体的に、サーバ10の制御部104は、抽出された区間音声データ、区間動画データの発話内容に対してテキスト認識を行うことにより、区間音声データ、区間動画データを文字(テキスト)である区間読上テキストに変換し、文字に起こす。なお、テキスト認識の具体的手法は特に限定されない。例えば信号処理技術、AI(人工知能)を利用した機械学習や深層学習等によって変換してもよい。
具体的に、サーバ10の制御部104は、抽出された区間音声データ、区間動画データの発話内容に対してテキスト認識を行うことにより、区間音声データ、区間動画データを文字(テキスト)である区間読上テキストに変換し、文字に起こす。なお、テキスト認識の具体的手法は特に限定されない。例えば信号処理技術、AI(人工知能)を利用した機械学習や深層学習等によって変換してもよい。
サーバ10の制御部104は、処理対象の対話ID、話者のユーザID(第1ユーザID2011または第2ユーザID3011)、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストを、それぞれ、音声区間テーブル1016の新たなレコードの対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストの項目に記憶する。
音声区間テーブル1016には、音声データの発話区間ごとの区間読上テキストが、開始日時、話者と関連づけられ連続的な時系列データとして記憶される。ユーザは、音声区間テーブル1016に記憶された区間読上テキストを確認することにより、音声データの内容を確認することなしにテキスト情報として対話内容を確認できる。
なお、テキスト認識処理の際に、予めテキストに含まれるフィラーなどのユーザと顧客との間で行われた対話を把握する上で無意味な情報をテキストから除外して、音声認識情報を音声区間テーブル1016に記憶する構成としても良い。
<発信処理>
発信処理は、ユーザ(第1ユーザ)から顧客(第2ユーザ)に対し発信(架電)する処理である。
発信処理は、ユーザ(第1ユーザ)から顧客(第2ユーザ)に対し発信(架電)する処理である。
<発信処理の概要>
発信処理は、ユーザは第1ユーザ端末20の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。本開示においては、顧客として第2ユーザを選択する場合を一例として説明する。
発信処理は、ユーザは第1ユーザ端末20の画面に表示された複数の顧客のうち発信を希望する顧客を選択し、発信操作を行うことにより、顧客に対して発信を行なう一連の処理である。本開示においては、顧客として第2ユーザを選択する場合を一例として説明する。
<発信処理の詳細>
ユーザから顧客に発信する場合におけるシステム1の発信処理について説明する。
ユーザから顧客に発信する場合におけるシステム1の発信処理について説明する。
ユーザが顧客に発信する場合、システム1において以下の処理が実行される。
ユーザは第1ユーザ端末20を操作することにより、ウェブブラウザを起動し、CRMシステム50が提供するCRMサービスのウェブサイトへアクセスする。ユーザは、CRMサービスが提供する顧客管理画面を開くことにより自身の顧客を第1ユーザ端末20のディスプレイ2081へ一覧表示できる。
具体的に、第1ユーザ端末20は、CRMID2013および顧客を一覧表示する旨のリクエストをCRMシステム50へ送信する。CRMシステム50は、リクエストを受信すると、顧客テーブル5012を検索し、顧客ID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報を第1ユーザ端末20に送信する。第1ユーザ端末20は、受信した顧客に関する情報を第1ユーザ端末20のディスプレイ2081に表示する。
具体的に、第1ユーザ端末20は、CRMID2013および顧客を一覧表示する旨のリクエストをCRMシステム50へ送信する。CRMシステム50は、リクエストを受信すると、顧客テーブル5012を検索し、顧客ID、氏名、電話番号、顧客属性、顧客組織名、顧客組織属性などのユーザの顧客に関する情報を第1ユーザ端末20に送信する。第1ユーザ端末20は、受信した顧客に関する情報を第1ユーザ端末20のディスプレイ2081に表示する。
ユーザは、第1ユーザ端末20のディスプレイ2081に一覧表示された顧客から発信を希望する顧客(第2ユーザ)を押下し選択する。顧客が選択された状態で、第1ユーザ端末20のディスプレイ2081に表示された「発信」ボタンまたは、電話番号ボタンを押下することにより、CRMシステム50に対し電話番号を含むリクエストを送信する。リクエストを受信したCRMシステム50は、電話番号を含むリクエストをサーバ10へ送信する。リクエストを受信したサーバ10は、音声サーバ(PBX)60に対し、発信リクエストを送信する。音声サーバ(PBX)60は、発信リクエストを受信すると、受信した電話番号に基づき第2ユーザ端末30に対し発信(呼出し)を行う。
これに伴い、第1ユーザ端末20は、スピーカ2082などを制御し音声サーバ(PBX)60により発信(呼出し)が行われている旨を示す鳴動を行う。また、第1ユーザ端末20のディスプレイ2081は、音声サーバ(PBX)60により顧客に対して発信(呼出し)が行われている旨を示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「呼出中」という文字を表示してもよい。
顧客は、第2ユーザ端末30において不図示の受話器を持ち上げたり、第2ユーザ端末30の入力装置306に着信時に表示される「受信」ボタンなどを押下することにより、第2ユーザ端末30は対話可能状態となる。これに伴い、音声サーバ(PBX)60は、第2ユーザ端末30による応答がなされたことを示す情報(以下、「応答イベント」と呼ぶ)を、サーバ10、CRMシステム50などを介して第1ユーザ端末20に送信する。
これにより、ユーザと顧客は、それぞれ第1ユーザ端末20、第2ユーザ端末30を用いて対話可能状態となり、ユーザと顧客との間で対話できるようになる。具体的には、第1ユーザ端末20のマイク2062により集音されたユーザの音声は、第2ユーザ端末30のスピーカ3082から出力される。同様に、第2ユーザ端末30のマイク3062から集音された顧客の音声は、第1ユーザ端末20のスピーカ2082から出力される。
これにより、ユーザと顧客は、それぞれ第1ユーザ端末20、第2ユーザ端末30を用いて対話可能状態となり、ユーザと顧客との間で対話できるようになる。具体的には、第1ユーザ端末20のマイク2062により集音されたユーザの音声は、第2ユーザ端末30のスピーカ3082から出力される。同様に、第2ユーザ端末30のマイク3062から集音された顧客の音声は、第1ユーザ端末20のスピーカ2082から出力される。
第1ユーザ端末20のディスプレイ2081は、対話可能状態になると、応答イベントを受信し、対話が行われていることを示す情報を表示する。例えば、第1ユーザ端末20のディスプレイ2081は、「応答中」という文字を表示してもよい。
<提示処理>
提示処理は、ユーザまたはユーザが所属するグループにおける過去の対話情報に基づき、ユーザの対話応対の特徴を要約した対話要約情報や、対話応対を改善するためのアドバイスを含む音声特徴量する処理である。
オペレータ等のユーザは、コメント情報の内容を確認することにより自身の対話応対の改善に活用できる。また、管理職等の複数のオペレータからなるグループを管理する立場のユーザにとっては、自身が管理するグループの対話応対の改善にコメント情報の内容を活用できる。
提示処理は、ユーザまたはユーザが所属するグループにおける過去の対話情報に基づき、ユーザの対話応対の特徴を要約した対話要約情報や、対話応対を改善するためのアドバイスを含む音声特徴量する処理である。
オペレータ等のユーザは、コメント情報の内容を確認することにより自身の対話応対の改善に活用できる。また、管理職等の複数のオペレータからなるグループを管理する立場のユーザにとっては、自身が管理するグループの対話応対の改善にコメント情報の内容を活用できる。
<提示処理の概要>
提示処理は、提示処理の対象ユーザを特定し、当該ユーザの対話情報を取得し、対話情報に基づき解析データを作成し、解析データに基づき入力データを作成し、入力データを生成AIへ送信することにより得られる回答結果に基づきコメント情報を作成し、作成したコメント情報を提示する一連の処理である。
提示処理は、提示処理の対象ユーザを特定し、当該ユーザの対話情報を取得し、対話情報に基づき解析データを作成し、解析データに基づき入力データを作成し、入力データを生成AIへ送信することにより得られる回答結果に基づきコメント情報を作成し、作成したコメント情報を提示する一連の処理である。
<提示処理の詳細>
以下に、提示処理の詳細を説明する。
本開示においては、一例として第1ユーザが提示処理を実行する構成を開示するが、提示処理は任意のユーザにより実行可能なものとしても良い。また、管理者等のマネジメント業務に従事するユーザのみが実行可能なものとしても良い。提示処理の実行権限は、任意のユーザに設定できるものとしても構わないし、ユーザーの実行権限ごとに実行可能な処理を切り替えるようにしもてよい。
また、本開示においては一例として第1ユーザによる操作に基づき提示処理が実行される構成を一例として開示するがこれに限られない。例えば、後述するステップS101において提示処理の対象となるユーザIDの特定と、当該特定された対象ユーザ、対象グループに対して、コメント情報の配信先にかかるユーザを予め関連付けて記憶しておく構成としても良い。この場合、サーバ10の提示部1042は、定期的(毎日、1週間、1ヶ月)に提示処理を実行し作成した対象ユーザ、対象グループに関するコメント情報に基づくコメントメッセージを、配信先にかかるユーザに対して定期的に配信する構成としても良い。なお、ユーザーにコメント情報を提示する場合に、その対象の期間及び対象範囲等を指定可能としてもよい。
以下に、提示処理の詳細を説明する。
本開示においては、一例として第1ユーザが提示処理を実行する構成を開示するが、提示処理は任意のユーザにより実行可能なものとしても良い。また、管理者等のマネジメント業務に従事するユーザのみが実行可能なものとしても良い。提示処理の実行権限は、任意のユーザに設定できるものとしても構わないし、ユーザーの実行権限ごとに実行可能な処理を切り替えるようにしもてよい。
また、本開示においては一例として第1ユーザによる操作に基づき提示処理が実行される構成を一例として開示するがこれに限られない。例えば、後述するステップS101において提示処理の対象となるユーザIDの特定と、当該特定された対象ユーザ、対象グループに対して、コメント情報の配信先にかかるユーザを予め関連付けて記憶しておく構成としても良い。この場合、サーバ10の提示部1042は、定期的(毎日、1週間、1ヶ月)に提示処理を実行し作成した対象ユーザ、対象グループに関するコメント情報に基づくコメントメッセージを、配信先にかかるユーザに対して定期的に配信する構成としても良い。なお、ユーザーにコメント情報を提示する場合に、その対象の期間及び対象範囲等を指定可能としてもよい。
ステップS101において、サーバ10の提示部1042は、提示処理の対象となるユーザID(対象ユーザID)を特定する。
第1ユーザは、第1ユーザ端末20の入力装置206を操作することにより、ウェブブラウザ等に提示処理を実行するためのページ(提示処理ページ)のURLを入力し、提示処理ページを開く。第1ユーザ端末20の制御部204は、提示処理ページを開くためのリクエストを、サーバ10へ送信する。サーバ10の制御部104は、受信したリクエストに基づき、提示処理ページを生成し第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した提示処理ページを第1ユーザ端末20のディスプレイ2081に表示する。
第1ユーザは、第1ユーザ端末20の入力装置206を操作することにより、ウェブブラウザ等に提示処理を実行するためのページ(提示処理ページ)のURLを入力し、提示処理ページを開く。第1ユーザ端末20の制御部204は、提示処理ページを開くためのリクエストを、サーバ10へ送信する。サーバ10の制御部104は、受信したリクエストに基づき、提示処理ページを生成し第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、受信した提示処理ページを第1ユーザ端末20のディスプレイ2081に表示する。
第1ユーザは、第1ユーザ端末20の入力装置206を操作することにより、提示処理ページに含まれる対象ユーザIDを入力するための入力欄に提示処理の対象となるユーザのユーザID、ユーザ名等を入力する。なお、提示処理ページは、ユーザテーブル1012に記憶されたユーザID、ユーザ名等のユーザ識別情報を第1ユーザに対して一覧表示し、当該一覧表示されたユーザ識別情報に対する選択操作に応じて、対象ユーザIDの入力を受け付けても良い。第1ユーザ端末20の制御部204は、入力された対象ユーザIDをサーバ10へ送信する。サーバ10の提示部1042は、対象ユーザIDを受信し、特定する。
また、提示処理ページは複数のユーザID等の入力を受付可能としても良い。例えば、提示処理ページは、グループテーブル1013に記憶されたグループID、グループ名等のグループ識別情報を第1ユーザに対して一覧表示し、当該一覧表示されたグループ識別情報に対する選択操作に応じて、グループID(対象グループのグループID)の入力を受け付ける。第1ユーザ端末20の制御部204は、入力されたグループIDをサーバ10へ送信する。サーバ10の提示部1042は、受信したグループIDに基づきユーザテーブル1012のグループIDの項目を検索し、当該選択されたグループに所属する1または複数のユーザのユーザIDを特定する。
ステップS102において、サーバ10の制御部104は、ステップS101において特定した1または複数の対象ユーザID(以下、対象ユーザIDとよぶ)に基づき、対話情報を取得する。
具体的に、サーバ10の提示部1042は、特定した対象ユーザIDに基づき、対話テーブル1014のユーザIDの項目を検索し、1または複数の対話情報を取得する。具体的に、対話情報は、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データを含む。
サーバ10の提示部1042は、取得した対話情報に含まれる対話IDに基づき、ラベルテーブル1015の対話IDの項目を検索し、1または複数のラベル情報を取得する。
サーバ10の提示部1042は、取得した対話情報に含まれる対話IDに基づき、音声区間テーブル1016の対話IDの項目を検索し、1または複数の音声区間情報を取得する。音声区間情報は、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストを含む。
本開示における対話情報は、所定の対話情報に対して対話IDに基づき関連付けられたラベル情報、音声区間情報のほか、任意の対話に関する情報を含んでも良い。
具体的に、サーバ10の提示部1042は、特定した対象ユーザIDに基づき、対話テーブル1014のユーザIDの項目を検索し、1または複数の対話情報を取得する。具体的に、対話情報は、対話ID、ユーザID、顧客ID、対話カテゴリ、受発信種別、音声データ、動画データを含む。
サーバ10の提示部1042は、取得した対話情報に含まれる対話IDに基づき、ラベルテーブル1015の対話IDの項目を検索し、1または複数のラベル情報を取得する。
サーバ10の提示部1042は、取得した対話情報に含まれる対話IDに基づき、音声区間テーブル1016の対話IDの項目を検索し、1または複数の音声区間情報を取得する。音声区間情報は、区間ID、対話ID、話者ID、開始日時、終了日時、区間音声データ、区間動画データ、区間読上テキストを含む。
本開示における対話情報は、所定の対話情報に対して対話IDに基づき関連付けられたラベル情報、音声区間情報のほか、任意の対話に関する情報を含んでも良い。
ステップS103において、サーバ10の提示部1042は、対話に対する解析を行うことにより得られる解析データを取得する解析データ取得ステップを実行する。
具体的に、サーバ10の提示部1042は、ステップS102において取得した対話情報に含まれる音声データ、動画データ等、音声区間情報に含まれる、区間音声データ、区間動画データ等を解析することにより、以下の音声特徴量、言語特徴量を含む解析データを作成する。また、サーバ10の提示部1042は、対話情報のレコード数、音声データ、動画データ等を解析することにより、対話に関する架電回数および通話時間などの対話に関する指標を含む解析データを作成する。なお、本ステップにおいて解析データを作成する場合に限られず、事前に作成しておいた解析データを本ステップの対象に含めるようにしてもよい。
具体的に、サーバ10の提示部1042は、ステップS102において取得した対話情報に含まれる音声データ、動画データ等、音声区間情報に含まれる、区間音声データ、区間動画データ等を解析することにより、以下の音声特徴量、言語特徴量を含む解析データを作成する。また、サーバ10の提示部1042は、対話情報のレコード数、音声データ、動画データ等を解析することにより、対話に関する架電回数および通話時間などの対話に関する指標を含む解析データを作成する。なお、本ステップにおいて解析データを作成する場合に限られず、事前に作成しておいた解析データを本ステップの対象に含めるようにしてもよい。
・発話者により発話された音声に関する音声特徴量
音声特徴量は、オペレータによる発話と顧客による発話との比率(Talk:Listen比率)、オペレータによる発話と顧客による発話との間で被りが生じた回数(被り回数)、沈黙が生じた回数(沈黙回数)、オペレータによる発話または顧客による発話の周波数(オペレータの基本周波数、顧客の基本周波数)、オペレータによる発話または顧客による発話の抑揚(オペレータの抑揚の強弱、顧客の抑揚の強弱)等を含む。
音声特徴量は、オペレータおよび顧客の発話における、ピッチ(基本周波数)、音声強度(音量)、スペクトル特性(発話音声の周波数領域の特性、声紋、音色等を含む)、発話音声の音声速度、個々の音節や単語、フレーズ等の音声の長さ、音声のリズム、声質(はっきりした声、かすれ声など)などを含む。
音声特徴量は、上記音声特徴量に基づき算定される音声特徴量の善し悪しを示すスコア情報(音声スコア)を含む。
音声特徴量は、オペレータによる発話と顧客による発話との比率(Talk:Listen比率)、オペレータによる発話と顧客による発話との間で被りが生じた回数(被り回数)、沈黙が生じた回数(沈黙回数)、オペレータによる発話または顧客による発話の周波数(オペレータの基本周波数、顧客の基本周波数)、オペレータによる発話または顧客による発話の抑揚(オペレータの抑揚の強弱、顧客の抑揚の強弱)等を含む。
音声特徴量は、オペレータおよび顧客の発話における、ピッチ(基本周波数)、音声強度(音量)、スペクトル特性(発話音声の周波数領域の特性、声紋、音色等を含む)、発話音声の音声速度、個々の音節や単語、フレーズ等の音声の長さ、音声のリズム、声質(はっきりした声、かすれ声など)などを含む。
音声特徴量は、上記音声特徴量に基づき算定される音声特徴量の善し悪しを示すスコア情報(音声スコア)を含む。
・発話された内容に関する言語特徴量
言語特徴量は、対話に含まれる所定のキーワードの出現回数、出現頻度、単語の多様性に関する指標、発話文の長さ、名詞、動詞、形容詞等の品詞の使用頻度を示す指標、感情語の使用、トピックの分布に関する情報を含む。
言語特徴量は、上記言語特徴量に基づき算定される言語特徴量の善し悪しを示すスコア情報(言語スコア)を含む。
言語特徴量は、対話に含まれる所定のキーワードの出現回数、出現頻度、単語の多様性に関する指標、発話文の長さ、名詞、動詞、形容詞等の品詞の使用頻度を示す指標、感情語の使用、トピックの分布に関する情報を含む。
言語特徴量は、上記言語特徴量に基づき算定される言語特徴量の善し悪しを示すスコア情報(言語スコア)を含む。
・対話に関する架電回数および通話時間などの対話に関する指標
架電回数は、特定の期間(日、週、月など)の期間における架電回数を含む。通話時間は、一つ一つの通話がどの程度の時間続いたかを示す指標である。
対話に関する指標は、対話に関する指標に基づき算定される対話に関する指標の善し悪しを示すスコア情報(指標スコア)を含む。
架電回数は、特定の期間(日、週、月など)の期間における架電回数を含む。通話時間は、一つ一つの通話がどの程度の時間続いたかを示す指標である。
対話に関する指標は、対話に関する指標に基づき算定される対話に関する指標の善し悪しを示すスコア情報(指標スコア)を含む。
その他、音声スコア、言語スコア、指標スコアを組み合わせて得られる対話応対の善し悪しを総合的に示す対話スコア情報(対話スコア)を含んでも良い。
なお、解析データは、ユーザまたはグループごとに複数の対話における音声特徴量、言語特徴量、指標を含む解析データ(以下、特徴量等)の平均値、中央値、最大値、最小値等の統計値としても良い。具体的に、ステップS101において複数のユーザが特定されている場合には、複数のユーザにおける音声特徴量、言語特徴量、対話に関する指標の統計値を、解析データとしても良い。
解析データは、ユーザまたはグループごとに特徴量等を含む解析データのランキング、順位等の比較結果を含む。具体的に、ユーザAが、音声スコアが1位、言語スコアが2位、指標スコアが4位、対話スコア等が2位である場合において、ユーザAの比較結果を(1、2、4、2)と表現するものとする。この場合に、ユーザB、ユーザC、ユーザDの比較結果をそれぞれ、(2、1、3、4)、(4、3、1、2)、(3、4、2、1)とすることができる。比較結果は、このように複数のユーザ間における解析データの善し悪しを比較する情報を含む。また、解析データとして、所定の期間における比較を含むようにしてもよい。例えば、平均値などの月ごとの比較値を含めることにより改善度合い等の指標とすることもできる。
解析データは、ユーザまたはグループごとの複数の対話における読上テキストにかかる情報を含んでも良い。具体的に、音声区間テーブル1016の区間読上テキストを参照し、対話にかかる読上テキストを解析データに含めることができる。
ステップS103において、解析データ取得ステップは、所定のオペレータにより行われた対話に対する解析を行うことにより得られる解析データを取得するステップを実行する。
具体的に、ステップS101において所定のオペレータにかかるユーザのユーザIDが対象ユーザIDとして特定された場合には、サーバ10の提示部1042は、当該所定のオペレータの解析データを作成し、取得する。
具体的に、ステップS101において所定のオペレータにかかるユーザのユーザIDが対象ユーザIDとして特定された場合には、サーバ10の提示部1042は、当該所定のオペレータの解析データを作成し、取得する。
ステップS103において、解析データ取得ステップは、複数のオペレータにより行われた複数の対話に対する解析を行うことにより得られる複数のオペレータのそれぞれに関する解析データを取得するステップを実行する。
具体的に、ステップS101において複数のオペレータにかかるユーザのユーザIDが対象ユーザIDとして特定された場合には、サーバ10の提示部1042は、当該複数のオペレータの解析データを作成し、取得する。
具体的に、ステップS101において複数のオペレータにかかるユーザのユーザIDが対象ユーザIDとして特定された場合には、サーバ10の提示部1042は、当該複数のオペレータの解析データを作成し、取得する。
ステップS103において、解析データ取得ステップは、所定の期間における解析データを取得するステップを実行する。
具体的に、サーバ10の提示部1042は、提示処理を実行する日時または任意の日時から所定期間内の対話情報に基づき、所定期間外の対話情報を除外し、解析データを作成し、取得しても良い。例えば、サーバ10の提示部1042は、直近1ヶ月以内の対話情報に基づき、解析データを作成し取得しても良い。
最近の対話情報に基づくコメント情報を提供することがユーザの対話応対の改善に関しては有益であると考えられるためである。
具体的に、サーバ10の提示部1042は、提示処理を実行する日時または任意の日時から所定期間内の対話情報に基づき、所定期間外の対話情報を除外し、解析データを作成し、取得しても良い。例えば、サーバ10の提示部1042は、直近1ヶ月以内の対話情報に基づき、解析データを作成し取得しても良い。
最近の対話情報に基づくコメント情報を提供することがユーザの対話応対の改善に関しては有益であると考えられるためである。
サーバ10の提示部1042は、作成した解析データをコメントテーブル1021の新たなレコード(対象レコード)の解析データの項目に記憶する。
コメントテーブル1021の対象レコードの指示文の項目には、後述する入力データを生成するための指示文に関する文字列が記憶される。なお、指示文の例を以下に例示する。
・「対象ユーザの対話応対の特徴を解析データに基づき説明してください。」
・「対象ユーザの対話応対の変化している特徴を解析データに基づき説明してください。」
・「対象ユーザの対話応対の目標達成状況を解析データに基づき説明してください。」
・「対象ユーザの対話応対の改善点を解析データに基づき説明してください。」
・「解析データに基づき、対象ユーザの対話応対の参考になる他のユーザを提案してください。」
・「対象グループの対話応対の特徴を解析データに基づき説明してください。」
・「対象グループの対話応対の改善点を解析データに基づき説明してください。」
・「解析データに基づき対象グループに含まれる各ユーザの特徴を比較して説明してください。」
・「解析データに基づき対象グループに含まれるユーザのうち、上位者(スコアが優れているユーザ)、改善者(スコアが改善されているユーザ)、下位者(スコアが劣っているユーザ)、改悪者(スコアが悪化しているユーザ)を特定してください。」
・「解析データに基づき、改善点、変化している項目、目標達成可能性、比較結果を出力してください。」
・「対象ユーザの対話応対の特徴を解析データに基づき説明してください。」
・「対象ユーザの対話応対の変化している特徴を解析データに基づき説明してください。」
・「対象ユーザの対話応対の目標達成状況を解析データに基づき説明してください。」
・「対象ユーザの対話応対の改善点を解析データに基づき説明してください。」
・「解析データに基づき、対象ユーザの対話応対の参考になる他のユーザを提案してください。」
・「対象グループの対話応対の特徴を解析データに基づき説明してください。」
・「対象グループの対話応対の改善点を解析データに基づき説明してください。」
・「解析データに基づき対象グループに含まれる各ユーザの特徴を比較して説明してください。」
・「解析データに基づき対象グループに含まれるユーザのうち、上位者(スコアが優れているユーザ)、改善者(スコアが改善されているユーザ)、下位者(スコアが劣っているユーザ)、改悪者(スコアが悪化しているユーザ)を特定してください。」
・「解析データに基づき、改善点、変化している項目、目標達成可能性、比較結果を出力してください。」
本開示における指示文は、生成AI80に解析データに対する解析結果を出力させるための指示文を含む。指示文は、生成AI80に対して実行させたいタスクを直接的かつ明示的に指示するゼロショットプロンプトと呼ばれる形式の指示文を含む。また、指示文は、少数の入出力事例により生成AI80に対して実行させたいタスクを指示するフューショットプロンプトと呼ばれる形式の指示文を含む。
例えば、フューショットプロンプトと呼ばれる形式の指示文においては、入力データである「解析データ」に対して、当該解析データに対する「解析結果、解析内容等を示す文章」を出力データとする、入力データおよび出力データのペアからなる入出力事例を指示文に含める。
例えば、フューショットプロンプトと呼ばれる形式の指示文においては、入力データである「解析データ」に対して、当該解析データに対する「解析結果、解析内容等を示す文章」を出力データとする、入力データおよび出力データのペアからなる入出力事例を指示文に含める。
また、所定の企業における複数の所属組織、グループ等の解析データを対象として、次のような指示文を記憶しても良い。
・「解析データに基づき、上位グループ(スコアが優れているグループ)、改善グループ(スコアが改善されているグループ)、下位グループ(スコアが劣っているグループ)、改悪グループ(スコアが悪化しているグループ)を特定してください。」
・「解析データに基づき、上位グループ(スコアが優れているグループ)、改善グループ(スコアが改善されているグループ)、下位グループ(スコアが劣っているグループ)、改悪グループ(スコアが悪化しているグループ)を特定してください。」
その他、入力データを生成するための指示文は、対話に関する読上テキスト(解析データ)に基づき、当該対話において話し方の良い部分、改善部分などの提案を支持する指示文を含んでも良い。
・「対象ユーザの対話応対における良い部分、改善部分を、読上テキストに基づき説明してください。」
・「対象グループの対話応対における良い部分、改善部分を、読上テキストに基づき説明してください。」
・「対象ユーザの対話応対における良い部分、改善部分を、読上テキストに基づき説明してください。」
・「対象グループの対話応対における良い部分、改善部分を、読上テキストに基づき説明してください。」
指示文は、所定の1の指示文が規定値として予め設定され記憶される構成としても良い。
指示文は、複数の指示文のうち所定の指示文が選択され記憶される構成としても良い。
例えば、ステップS101の提示処理ページにおいて、指示文の入力を受け付ける構成としても良い。具体的に、提示処理ページにおいて複数の指示文をユーザに対して提示し、ユーザによる入力操作により選択された所定の指示文が記憶される構成としても良い。例えば、ユーザは、提示処理において得たいコメントの内容に応じて、所定の指示文を選択する構成としても良い。
なお、コメントテーブル1021の対象レコードの指示文の項目には複数の指示文にかかる文字列が記憶される構成としても構わない。これにより、コメントテーブル1021の対象レコードにおいて指示文と解析データとが関連づけて記憶される。
指示文は、複数の指示文のうち所定の指示文が選択され記憶される構成としても良い。
例えば、ステップS101の提示処理ページにおいて、指示文の入力を受け付ける構成としても良い。具体的に、提示処理ページにおいて複数の指示文をユーザに対して提示し、ユーザによる入力操作により選択された所定の指示文が記憶される構成としても良い。例えば、ユーザは、提示処理において得たいコメントの内容に応じて、所定の指示文を選択する構成としても良い。
なお、コメントテーブル1021の対象レコードの指示文の項目には複数の指示文にかかる文字列が記憶される構成としても構わない。これにより、コメントテーブル1021の対象レコードにおいて指示文と解析データとが関連づけて記憶される。
ステップS104において、サーバ10の提示部1042は、解析データ取得ステップにおいて取得した解析データに基づき、生成AIに入力される入力データを作成する入力データ作成ステップを実行する。
入力データ作成ステップは、解析データに基づき、対話における改善点を出力させるための指示文と、解析データに基づき、対話における変化している項目を出力させるための指示文と、解析データに基づき、オペレータまたは複数のオペレータが所属するグループの目標達成状況を出力させるための指示文と、解析データに基づき、複数のオペレータまたは複数のグループごとの比較結果を出力させるための指示文と、のうち少なくともいずれか1つに基づく入力データを作成するステップを実行する。
具体的に、サーバ10の提示部1042は、コメントテーブル1021に記憶された指示文および解析データに基づきプロンプトと呼ばれる生成AIへ入力する入力データを作成する。
入力データ作成ステップは、解析データに基づき、対話における改善点を出力させるための指示文と、解析データに基づき、対話における変化している項目を出力させるための指示文と、解析データに基づき、オペレータまたは複数のオペレータが所属するグループの目標達成状況を出力させるための指示文と、解析データに基づき、複数のオペレータまたは複数のグループごとの比較結果を出力させるための指示文と、のうち少なくともいずれか1つに基づく入力データを作成するステップを実行する。
具体的に、サーバ10の提示部1042は、コメントテーブル1021に記憶された指示文および解析データに基づきプロンプトと呼ばれる生成AIへ入力する入力データを作成する。
入力データの例を以下に示す。
〔入力データ〕
対象ユーザAの対話応対の特徴を解析データに基づき説明してください。
# 解析データ:
対話スコア70点
・音声特徴量:
音声スコア:60点
Talk:Listen比率:0.6 (ユーザが話す時間とリスナーが話す時間の比率)
被り回数:10 (ユーザとリスナーの発話が重なった回数)
沈黙回数:15 (会話中に沈黙が生じた回数)
基本周波数:110 (ユーザの発話の基本周波数)
抑揚の強弱:0.5 (ユーザの発話の抑揚の強さ)
・言語特徴量:
言語スコア:30点
キーワードの出現回数:20 (対話中の特定のキーワードの出現回数)
単語の多様性:0.75 (使用された単語の多様性を示す指標)
発話文の長さ:50 (ユーザの平均発話文の長さ)
名詞の使用頻度:0.3 (名詞の使用頻度)
動詞の使用頻度:0.2 (動詞の使用頻度)
形容詞の使用頻度:0.1 (形容詞の使用頻度)
感情語の使用:5 (感情を表す単語の使用回数)
トピックの分布:{トピックA: 0.4, トピックB: 0.3, トピックC: 0.3} (各トピックに対する発話の割合)
・対話に関する指標:(グループ平均)
指標スコア:80点
架電回数:100回 (特定の期間(例えば一週間)における架電回数)
通話時間:300分 (同期間内の通話の合計時間)
# 出力結果:
〔入力データ〕
対象ユーザAの対話応対の特徴を解析データに基づき説明してください。
# 解析データ:
対話スコア70点
・音声特徴量:
音声スコア:60点
Talk:Listen比率:0.6 (ユーザが話す時間とリスナーが話す時間の比率)
被り回数:10 (ユーザとリスナーの発話が重なった回数)
沈黙回数:15 (会話中に沈黙が生じた回数)
基本周波数:110 (ユーザの発話の基本周波数)
抑揚の強弱:0.5 (ユーザの発話の抑揚の強さ)
・言語特徴量:
言語スコア:30点
キーワードの出現回数:20 (対話中の特定のキーワードの出現回数)
単語の多様性:0.75 (使用された単語の多様性を示す指標)
発話文の長さ:50 (ユーザの平均発話文の長さ)
名詞の使用頻度:0.3 (名詞の使用頻度)
動詞の使用頻度:0.2 (動詞の使用頻度)
形容詞の使用頻度:0.1 (形容詞の使用頻度)
感情語の使用:5 (感情を表す単語の使用回数)
トピックの分布:{トピックA: 0.4, トピックB: 0.3, トピックC: 0.3} (各トピックに対する発話の割合)
・対話に関する指標:(グループ平均)
指標スコア:80点
架電回数:100回 (特定の期間(例えば一週間)における架電回数)
通話時間:300分 (同期間内の通話の合計時間)
# 出力結果:
ステップS104において、入力データ作成ステップは、オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていると判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていないと判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、のうち少なくともいずれか1つに基づく入力データを作成するステップを実行する。
入力データの例を以下に示す。
入力データは、グループに含まれるそれぞれのユーザ(ユーザA~C)の解析データを含めても良い。
〔入力データ〕
解析データに基づき対象グループAに含まれる各ユーザの特徴を比較して説明してください。
# 対象グループA:ユーザA、ユーザB、ユーザC、ユーザDから構成される
# 解析データ:
・比較結果(ランキング情報)
ユーザAの比較結果:(音声スコア:1位、言語スコア:2位、指標スコア:4位、対話スコア:2位)
ユーザBの比較結果:(音声スコア:2位、言語スコア:1位、指標スコア:3位、対話スコア:4位)
ユーザCの比較結果:(音声スコア:4位、言語スコア:3位、指標スコア:1位、対話スコア:2位)
ユーザDの比較結果:(音声スコア:3位、言語スコア:4位、指標スコア:2位、対話スコア:1位)
対話スコア:70点(グループ平均)
・音声特徴量:(グループ平均)
音声スコア:60点
Talk:Listen比率:0.6 (ユーザが話す時間とリスナーが話す時間の比率)
被り回数:10 (ユーザとリスナーの発話が重なった回数)
沈黙回数:15 (会話中に沈黙が生じた回数)
基本周波数:110 (ユーザの発話の基本周波数)
抑揚の強弱:0.5 (ユーザの発話の抑揚の強さ)
・言語特徴量:(グループ平均)
言語スコア:30点
キーワードの出現回数:20 (対話中の特定のキーワードの出現回数)
単語の多様性:0.75 (使用された単語の多様性を示す指標)
発話文の長さ:50 (ユーザの平均発話文の長さ)
名詞の使用頻度:0.3 (名詞の使用頻度)
動詞の使用頻度:0.2 (動詞の使用頻度)
形容詞の使用頻度:0.1 (形容詞の使用頻度)
感情語の使用:5 (感情を表す単語の使用回数)
トピックの分布:{トピックA: 0.4, トピックB: 0.3, トピックC: 0.3} (各トピックに対する発話の割合)
・対話に関する指標:(グループ平均)
指標スコア:80点
架電回数:100回 (特定の期間(例えば一週間)における架電回数)
通話時間:300分 (同期間内の通話の合計時間)
入力データは、グループに含まれるそれぞれのユーザ(ユーザA~C)の解析データを含めても良い。
〔入力データ〕
解析データに基づき対象グループAに含まれる各ユーザの特徴を比較して説明してください。
# 対象グループA:ユーザA、ユーザB、ユーザC、ユーザDから構成される
# 解析データ:
・比較結果(ランキング情報)
ユーザAの比較結果:(音声スコア:1位、言語スコア:2位、指標スコア:4位、対話スコア:2位)
ユーザBの比較結果:(音声スコア:2位、言語スコア:1位、指標スコア:3位、対話スコア:4位)
ユーザCの比較結果:(音声スコア:4位、言語スコア:3位、指標スコア:1位、対話スコア:2位)
ユーザDの比較結果:(音声スコア:3位、言語スコア:4位、指標スコア:2位、対話スコア:1位)
対話スコア:70点(グループ平均)
・音声特徴量:(グループ平均)
音声スコア:60点
Talk:Listen比率:0.6 (ユーザが話す時間とリスナーが話す時間の比率)
被り回数:10 (ユーザとリスナーの発話が重なった回数)
沈黙回数:15 (会話中に沈黙が生じた回数)
基本周波数:110 (ユーザの発話の基本周波数)
抑揚の強弱:0.5 (ユーザの発話の抑揚の強さ)
・言語特徴量:(グループ平均)
言語スコア:30点
キーワードの出現回数:20 (対話中の特定のキーワードの出現回数)
単語の多様性:0.75 (使用された単語の多様性を示す指標)
発話文の長さ:50 (ユーザの平均発話文の長さ)
名詞の使用頻度:0.3 (名詞の使用頻度)
動詞の使用頻度:0.2 (動詞の使用頻度)
形容詞の使用頻度:0.1 (形容詞の使用頻度)
感情語の使用:5 (感情を表す単語の使用回数)
トピックの分布:{トピックA: 0.4, トピックB: 0.3, トピックC: 0.3} (各トピックに対する発話の割合)
・対話に関する指標:(グループ平均)
指標スコア:80点
架電回数:100回 (特定の期間(例えば一週間)における架電回数)
通話時間:300分 (同期間内の通話の合計時間)
サーバ10の提示部1042は、作成した入力データを、コメントテーブル1021の対象レコードの入力データの項目に記憶する。
ステップS105において、サーバ10の提示部1042は、入力データ作成ステップにおいて作成した入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップを実行する。
具体的に、サーバ10の提示部1042は、ステップS104において作成した入力データを生成AI80へ入力データ(プロンプト)として送信する。生成AI80は、入力データに対して回答データをレスポンスとしてサーバ10へ出力する。サーバ10の提示部1042は、入力データに対する回答データを受信し、受け付ける。
具体的に、サーバ10の提示部1042は、ステップS104において作成した入力データを生成AI80へ入力データ(プロンプト)として送信する。生成AI80は、入力データに対して回答データをレスポンスとしてサーバ10へ出力する。サーバ10の提示部1042は、入力データに対する回答データを受信し、受け付ける。
ステップS106において、サーバ10の提示部1042は、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のオペレータへ提示するコメント提示ステップを実行する。
具体的に、サーバ10の提示部1042は、ステップS105において受信した回答内容に基づきコメントデータを作成する。
サーバ10の提示部1042は、対象ユーザ、対象グループに所属する各ユーザを特定する情報、解析期間を、回答内容の少なくともいずれか1つ以上を組み合わせてコメントデータを作成する。なお、回答内容そのものをコメントデータとしても構わない。なお、本フローチャートの処理において、コメントデータを得るために各ステップを繰り返し実行してもよい。
具体的に、サーバ10の提示部1042は、ステップS105において受信した回答内容に基づきコメントデータを作成する。
サーバ10の提示部1042は、対象ユーザ、対象グループに所属する各ユーザを特定する情報、解析期間を、回答内容の少なくともいずれか1つ以上を組み合わせてコメントデータを作成する。なお、回答内容そのものをコメントデータとしても構わない。なお、本フローチャートの処理において、コメントデータを得るために各ステップを繰り返し実行してもよい。
コメントデータの例を以下に示す。
〔コメントデータ〕
ユーザA(氏名、所属等)の期間(Y-M-DからY-M-D)における対話応対の特徴は以下の通りです。
# 対話応対の特徴:
(生成AI80からの回答内容)
〔コメントデータ〕
ユーザA(氏名、所属等)の期間(Y-M-DからY-M-D)における対話応対の特徴は以下の通りです。
# 対話応対の特徴:
(生成AI80からの回答内容)
コメントデータの例を以下に示す。
〔コメントデータ〕
グループAの期間(Y-M-DからY-M-D)における各ユーザの特徴は以下の通りです。
・ユーザA(氏名、所属等)
・ユーザB(氏名、所属等)
・ユーザC(氏名、所属等)
・ユーザD(氏名、所属等)
# 各ユーザの特徴:
(生成AI80からの回答内容)
〔コメントデータ〕
グループAの期間(Y-M-DからY-M-D)における各ユーザの特徴は以下の通りです。
・ユーザA(氏名、所属等)
・ユーザB(氏名、所属等)
・ユーザC(氏名、所属等)
・ユーザD(氏名、所属等)
# 各ユーザの特徴:
(生成AI80からの回答内容)
コメントデータの例を以下に示す。
〔コメントデータ〕
ユーザA(氏名、所属等)の期間(Y-M-DからY-M-D)における対話応対において話し方の良い点、改善部分は以下の通りです。
# 話し方の良い点、改善部分
(生成AI80からの回答内容)
〔コメントデータ〕
ユーザA(氏名、所属等)の期間(Y-M-DからY-M-D)における対話応対において話し方の良い点、改善部分は以下の通りです。
# 話し方の良い点、改善部分
(生成AI80からの回答内容)
サーバ10の提示部1042は、作成したコメントデータを、コメントテーブル1021の対象レコードのコメントデータの項目に記憶する。
ステップS106において、サーバ10の提示部1042は、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のユーザへ提示するコメント提示ステップを実行する。
図12は、コメント処理の動作を示すコメント画面D1にかかる画面例である。コメント画面D1は、コメント情報D11、解析データD12を含む。コメント情報は、指示文D111、生成AI80からの回答内容D112を含む。解析データD12は、既に説明した解析データに含まれる音声特徴量、言語特徴量、対話に関する指標の各データをグラフ等により視覚的に可視化したコンテンツを含む。
具体的に、サーバ10の提示部1042は、作成したコメント情報を第1ユーザ端末20へ送信する。例えば、サーバ10の提示部1042は、第1ユーザのメールアドレス、チャットアカウント等に対して、コメント情報を含むメッセージ(コメントメッセージ)を送信しても良い。第1ユーザ端末20のディスプレイ2081は、受信したコメントメッセージを第1ユーザに対して提示する。
第1ユーザ端末20の制御部204は、コメントデータをコメント画面D1のコメント情報D11に表示する。第1ユーザ端末20の制御部204は、生成AI80からの回答内容を、コメント画面D1の回答内容D112に表示する。第1ユーザ端末20の制御部204は、指示文をコメント画面D1の指示文D111に表示しても良い。また、第1ユーザ端末20の制御部204は、ステップS103において作成した解析データをコメント画面D1の解析データD12に表示しても良い。
図12は、コメント処理の動作を示すコメント画面D1にかかる画面例である。コメント画面D1は、コメント情報D11、解析データD12を含む。コメント情報は、指示文D111、生成AI80からの回答内容D112を含む。解析データD12は、既に説明した解析データに含まれる音声特徴量、言語特徴量、対話に関する指標の各データをグラフ等により視覚的に可視化したコンテンツを含む。
具体的に、サーバ10の提示部1042は、作成したコメント情報を第1ユーザ端末20へ送信する。例えば、サーバ10の提示部1042は、第1ユーザのメールアドレス、チャットアカウント等に対して、コメント情報を含むメッセージ(コメントメッセージ)を送信しても良い。第1ユーザ端末20のディスプレイ2081は、受信したコメントメッセージを第1ユーザに対して提示する。
第1ユーザ端末20の制御部204は、コメントデータをコメント画面D1のコメント情報D11に表示する。第1ユーザ端末20の制御部204は、生成AI80からの回答内容を、コメント画面D1の回答内容D112に表示する。第1ユーザ端末20の制御部204は、指示文をコメント画面D1の指示文D111に表示しても良い。また、第1ユーザ端末20の制御部204は、ステップS103において作成した解析データをコメント画面D1の解析データD12に表示しても良い。
ステップS106において、コメント提示ステップは、所定の期間ごとにコメントメッセージを提示するステップを実行する。
具体的に、本開示においては一例として第1ユーザによる操作に基づき提示処理が実行される構成を一例として開示するがこれに限られない。サーバ10の提示部1042は、定期的(毎日、1週間、1ヶ月)ごとに提示処理を実行し作成した対象ユーザ、対象グループに関するコメント情報に基づくコメントメッセージを、複数のオペレータを管理するマネジメント業務に従事する管理者等の所定のユーザに対して定期的に配信する構成としても良い。
具体的に、本開示においては一例として第1ユーザによる操作に基づき提示処理が実行される構成を一例として開示するがこれに限られない。サーバ10の提示部1042は、定期的(毎日、1週間、1ヶ月)ごとに提示処理を実行し作成した対象ユーザ、対象グループに関するコメント情報に基づくコメントメッセージを、複数のオペレータを管理するマネジメント業務に従事する管理者等の所定のユーザに対して定期的に配信する構成としても良い。
ステップS106において、コメント提示ステップは、解析データ取得ステップにおいて取得した解析データとともに、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを提示するステップを実行する。
具体的に、サーバ10の提示部1042は、コメント情報にステップS103において作成した解析データを含めても良い。サーバ10の提示部1042は、解析データを含むコメントメッセージを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、解析データとともにコメント情報をコメント画面D1の解析データD12に表示する。これにより、第1ユーザは、コメント情報とともにコメント情報の元となる解析データの内容を確認することができる。第1ユーザは、コメントメッセージの内容を参考に、解析データの内容を簡単にかつより深く理解することができる。
具体的に、サーバ10の提示部1042は、コメント情報にステップS103において作成した解析データを含めても良い。サーバ10の提示部1042は、解析データを含むコメントメッセージを第1ユーザ端末20へ送信する。第1ユーザ端末20の制御部204は、解析データとともにコメント情報をコメント画面D1の解析データD12に表示する。これにより、第1ユーザは、コメント情報とともにコメント情報の元となる解析データの内容を確認することができる。第1ユーザは、コメントメッセージの内容を参考に、解析データの内容を簡単にかつより深く理解することができる。
<コンピュータの基本ハードウェア構成>
図13は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
図13は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
プロセッサ901とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ901は、演算装置、レジスタ、周辺回路等から構成される。
主記憶装置902とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
補助記憶装置903とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、HDD(Hard Disc Drive)、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
通信IF991とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
なお、各ハードウェア構成の全部または一部を複数のコンピュータ90に分散して設け、ネットワークを介して相互に接続することによりコンピュータ90を仮想的に実現することができる。このように、コンピュータ90は、単一の筐体、ケースに収納されたコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
<コンピュータ90の基本機能構成>
コンピュータ90の基本ハードウェア構成(図13)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
コンピュータ90の基本ハードウェア構成(図13)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
なお、コンピュータ90が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ90に分散して設けても実現することができる。コンピュータ90は、単一のコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
制御部は、プロセッサ901が補助記憶装置903に記憶された各種プログラムを読み出して主記憶装置902に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。
記憶部は、主記憶装置902、補助記憶装置903により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ901は、プログラムに従って記憶部に対応する記憶領域を主記憶装置902または補助記憶装置903に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。
データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。
なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体(リスト、辞書、連想配列、オブジェクトなど)を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。
通信部は、通信IF991により実現される。通信部は、ネットワークを介して他のコンピュータ90と通信を行う機能を実現する。通信部は、他のコンピュータ90から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ901に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ90へ送信することができる。
<付記>
以上の各実施形態で説明した事項を以下に付記する。
以上の各実施形態で説明した事項を以下に付記する。
(付記1)
プロセッサと、記憶部とを備えるコンピュータに、複数のユーザ間の対話に関する情報を処理させるプログラムであって、プロセッサが、対話に対する解析を行うことにより得られる解析データを取得する解析データ取得ステップ(S103)と、解析データ取得ステップにおいて取得した解析データに基づき、生成AIに入力される入力データを作成する入力データ作成ステップ(S104)と、を実行するプログラム。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
プロセッサと、記憶部とを備えるコンピュータに、複数のユーザ間の対話に関する情報を処理させるプログラムであって、プロセッサが、対話に対する解析を行うことにより得られる解析データを取得する解析データ取得ステップ(S103)と、解析データ取得ステップにおいて取得した解析データに基づき、生成AIに入力される入力データを作成する入力データ作成ステップ(S104)と、を実行するプログラム。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
(付記2)
解析データは、発話者により発話された音声に関する音声特徴量、発話された内容に関する言語特徴量、対話に関する架電回数および通話時間の少なくとも何れか1つの、所定の対話に関する情報を含む、付記1記載のプログラム。
これにより、複数のユーザ間で行われた対話に関する音声特徴量、言語特徴量、架電回数、通話情報等の数値データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
解析データは、発話者により発話された音声に関する音声特徴量、発話された内容に関する言語特徴量、対話に関する架電回数および通話時間の少なくとも何れか1つの、所定の対話に関する情報を含む、付記1記載のプログラム。
これにより、複数のユーザ間で行われた対話に関する音声特徴量、言語特徴量、架電回数、通話情報等の数値データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
(付記3)
解析データは、対話を行った複数のユーザの複数の対話における特徴量の統計値、または、対話を行った複数のユーザ同士の特徴量を比較した比較結果を含む、付記1または2記載のプログラム。
これにより、ユーザごとの特徴量の平均値、中央値などの統計値、ユーザ同士の特徴量を比較したランキング等の比較結果に基づき、ユーザ、または複数のユーザが所属するグループの対話を評価できる。
解析データは、対話を行った複数のユーザの複数の対話における特徴量の統計値、または、対話を行った複数のユーザ同士の特徴量を比較した比較結果を含む、付記1または2記載のプログラム。
これにより、ユーザごとの特徴量の平均値、中央値などの統計値、ユーザ同士の特徴量を比較したランキング等の比較結果に基づき、ユーザ、または複数のユーザが所属するグループの対話を評価できる。
(付記4)
入力データ作成ステップ(S104)は、解析データに基づき、対話における改善点を出力させるための指示文と、解析データに基づき、対話における変化している項目を出力させるための指示文と、解析データに基づき、オペレータまたは複数のオペレータが所属するグループの目標達成状況を出力させるための指示文と、解析データに基づき、複数のオペレータまたは複数のグループごとの比較結果を出力させるための指示文と、のうち少なくともいずれか1つに基づく入力データを作成するステップである、付記1から3のいずれか記載のプログラム。
これにより、ユーザが対話により顧客応対を行うオペレータ等の場合において、対話に関する解析データに基づいて、オペレータが対話内容を改善することの適した回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
入力データ作成ステップ(S104)は、解析データに基づき、対話における改善点を出力させるための指示文と、解析データに基づき、対話における変化している項目を出力させるための指示文と、解析データに基づき、オペレータまたは複数のオペレータが所属するグループの目標達成状況を出力させるための指示文と、解析データに基づき、複数のオペレータまたは複数のグループごとの比較結果を出力させるための指示文と、のうち少なくともいずれか1つに基づく入力データを作成するステップである、付記1から3のいずれか記載のプログラム。
これにより、ユーザが対話により顧客応対を行うオペレータ等の場合において、対話に関する解析データに基づいて、オペレータが対話内容を改善することの適した回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
(付記5)
入力データ作成ステップ(S104)は、オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていると判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていないと判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、のうち少なくともいずれか1つに基づく入力データを作成するステップである、付記1から4のいずれか記載のプログラム。
これにより、ユーザが対話により顧客応対を行うオペレータ等の場合において、対話が優れているオペレータ、オペレータが所属するグループ、または、対話が優れていないオペレータ、オペレータが所属するグループ等を回答内容(コメント)として得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
入力データ作成ステップ(S104)は、オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていると判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていないと判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、のうち少なくともいずれか1つに基づく入力データを作成するステップである、付記1から4のいずれか記載のプログラム。
これにより、ユーザが対話により顧客応対を行うオペレータ等の場合において、対話が優れているオペレータ、オペレータが所属するグループ、または、対話が優れていないオペレータ、オペレータが所属するグループ等を回答内容(コメント)として得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
(付記6)
解析データ取得ステップ(S103)は、所定のオペレータにより行われた対話に対する解析を行うことにより得られる解析データを取得するステップであり、プロセッサが、入力データ作成ステップにおいて作成した入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップ(S105)と、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のオペレータへ提示するコメント提示ステップ(S106)と、を実行する、付記1から5のいずれか記載のプログラム。
これにより、オペレータ等のユーザは、生成AIからユーザが理解しやすい態様で対話に関する回答内容(コメント)を得ることができる。
解析データ取得ステップ(S103)は、所定のオペレータにより行われた対話に対する解析を行うことにより得られる解析データを取得するステップであり、プロセッサが、入力データ作成ステップにおいて作成した入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップ(S105)と、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のオペレータへ提示するコメント提示ステップ(S106)と、を実行する、付記1から5のいずれか記載のプログラム。
これにより、オペレータ等のユーザは、生成AIからユーザが理解しやすい態様で対話に関する回答内容(コメント)を得ることができる。
(付記7)
解析データ取得ステップ(S103)は、複数のオペレータにより行われた複数の対話に対する解析を行うことにより得られる複数のオペレータのそれぞれに関する解析データを取得するステップであり、プロセッサが、入力データ作成ステップにおいて作成した入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップ(S105)と、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のユーザへ提示するコメント提示ステップ(S106)と、を実行する、付記1から5のいずれか記載のプログラム。
これにより、オペレータ等を管理するマネジャー等の管理職は、自身が管理する複数のオペレータの対話に関して、生成AIからユーザが理解しやすい態様で対話に関する回答内容(コメント)を得ることができる。
解析データ取得ステップ(S103)は、複数のオペレータにより行われた複数の対話に対する解析を行うことにより得られる複数のオペレータのそれぞれに関する解析データを取得するステップであり、プロセッサが、入力データ作成ステップにおいて作成した入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップ(S105)と、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のユーザへ提示するコメント提示ステップ(S106)と、を実行する、付記1から5のいずれか記載のプログラム。
これにより、オペレータ等を管理するマネジャー等の管理職は、自身が管理する複数のオペレータの対話に関して、生成AIからユーザが理解しやすい態様で対話に関する回答内容(コメント)を得ることができる。
(付記8)
解析データ取得ステップ(S103)は、所定の期間における解析データを取得するステップであり、コメント提示ステップ(S106)は、所定の期間ごとにコメントメッセージを提示するステップである、付記6または7記載のプログラム。
これにより、生成AIから所定期間ごとにユーザが理解しやすい態様で対話に関する回答内容(コメント)を得ることができる。
解析データ取得ステップ(S103)は、所定の期間における解析データを取得するステップであり、コメント提示ステップ(S106)は、所定の期間ごとにコメントメッセージを提示するステップである、付記6または7記載のプログラム。
これにより、生成AIから所定期間ごとにユーザが理解しやすい態様で対話に関する回答内容(コメント)を得ることができる。
(付記9)
コメント提示ステップ(S106)は、解析データ取得ステップにおいて取得した解析データとともに、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを提示するステップである、付記6から8のいずれか記載のプログラム。
これにより、回答内容とともに対話に関する解析データを確認することができる。より効果的に解析データを確認できる。
コメント提示ステップ(S106)は、解析データ取得ステップにおいて取得した解析データとともに、回答受信ステップにおいて受信した回答内容を含むコメントメッセージを提示するステップである、付記6から8のいずれか記載のプログラム。
これにより、回答内容とともに対話に関する解析データを確認することができる。より効果的に解析データを確認できる。
(付記10)
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、付記1から付記9のいずれかに係る発明において実行される全てのステップを実行する方法。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、付記1から付記9のいずれかに係る発明において実行される全てのステップを実行する方法。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
(付記11)
制御部と、記憶部とを備える情報処理装置であって、制御部が、付記1から付記9のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
制御部と、記憶部とを備える情報処理装置であって、制御部が、付記1から付記9のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
(付記12)
付記1から付記9のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
付記1から付記9のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
これにより、複数のユーザ間で行われた対話に関する解析データについて、ユーザが理解しやすい態様で回答内容(コメント)を得るための大規模言語モデル等の生成AIへ入力するためのプロンプト等の入力データを作成できる。
1 システム、10 サーバ、101 記憶部、104 制御部、106 入力装置、108 出力装置、20 第1ユーザ端末、201 記憶部、204 制御部、206 入力装置、208 出力装置、30 第2ユーザ端末、301 記憶部、304 制御部、306 入力装置、308 出力装置、50 音声サーバ(PBX)、501 記憶部、504 制御部、506 入力装置、508 出力装置、80 生成AI、801 記憶部、804 制御部、806 入力装置、808 出力装置
Claims (12)
- プロセッサと、記憶部とを備えるコンピュータに、複数のユーザ間の対話に関する情報を処理させるプログラムであって、
前記プロセッサが、
前記対話に対する解析を行うことにより得られる解析データを取得する解析データ取得ステップと、
前記解析データ取得ステップにおいて取得した前記解析データに基づき、生成AIに入力される入力データを作成する入力データ作成ステップと、
を実行するプログラム。 - 前記解析データは、発話者により発話された音声に関する音声特徴量、発話された内容に関する言語特徴量、対話に関する架電回数および通話時間の少なくとも何れか1つの、所定の対話に関する情報を含む、
請求項1記載のプログラム。 - 前記解析データは、対話を行った複数のユーザの複数の対話における特徴量の統計値、または、対話を行った複数のユーザ同士の特徴量を比較した比較結果を含む、
請求項1記載のプログラム。 - 前記入力データ作成ステップは、
前記解析データに基づき、対話における改善点を出力させるための指示文と、
前記解析データに基づき、対話における変化している項目を出力させるための指示文と、
前記解析データに基づき、オペレータまたは複数のオペレータが所属するグループの目標達成状況を出力させるための指示文と、
前記解析データに基づき、複数のオペレータまたは複数のグループごとの比較結果を出力させるための指示文と、
のうち少なくともいずれか1つに基づく前記入力データを作成するステップである、
請求項1記載のプログラム。 - 前記入力データ作成ステップは、
オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていると判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、
オペレータまたは複数のオペレータが所属するグループごとの、対話の善し悪しを判断するためのスコアに基づき、対話が優れていないと判定される1または複数のオペレータ、もしくは、1または複数のグループを示す情報と、
のうち少なくともいずれか1つに基づく前記入力データを作成するステップである、
請求項1記載のプログラム。 - 前記解析データ取得ステップは、所定のオペレータにより行われた前記対話に対する解析を行うことにより得られる前記解析データを取得するステップであり、
前記プロセッサが、
前記入力データ作成ステップにおいて作成した前記入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップと、
前記回答受信ステップにおいて受信した前記回答内容を含むコメントメッセージを前記所定のオペレータへ提示するコメント提示ステップと、
を実行する、
請求項1記載のプログラム。 - 前記解析データ取得ステップは、複数のオペレータにより行われた複数の対話に対する解析を行うことにより得られる前記複数のオペレータのそれぞれに関する前記解析データを取得するステップであり、
前記プロセッサが、
前記入力データ作成ステップにおいて作成した前記入力データを、生成AIに送信することにより得られる回答内容を受信する回答受信ステップと、
前記回答受信ステップにおいて受信した回答内容を含むコメントメッセージを所定のユーザへ提示するコメント提示ステップと、
を実行する、
請求項1記載のプログラム。 - 前記解析データ取得ステップは、所定の期間における前記解析データを取得するステップであり、
前記コメント提示ステップは、前記所定の期間ごとに前記コメントメッセージを提示するステップである、
請求項6記載のプログラム。 - 前記コメント提示ステップは、前記解析データ取得ステップにおいて取得した前記解析データとともに、前記回答受信ステップにおいて受信した前記回答内容を含む前記コメントメッセージを提示するステップである、
請求項6記載のプログラム。 - プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項9のいずれかに係る発明において実行される全てのステップを実行する方法。
- 制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項9のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
- 請求項1から請求項9のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/030069 WO2025041244A1 (ja) | 2023-08-22 | 2023-08-22 | プログラム、方法、情報処理装置、システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/030069 WO2025041244A1 (ja) | 2023-08-22 | 2023-08-22 | プログラム、方法、情報処理装置、システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025041244A1 true WO2025041244A1 (ja) | 2025-02-27 |
Family
ID=94731875
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2023/030069 Pending WO2025041244A1 (ja) | 2023-08-22 | 2023-08-22 | プログラム、方法、情報処理装置、システム |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025041244A1 (ja) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017161850A (ja) * | 2016-03-11 | 2017-09-14 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
| JP2023034235A (ja) * | 2021-08-30 | 2023-03-13 | 株式会社日立製作所 | テキスト要約方法、テキスト要約システム |
-
2023
- 2023-08-22 WO PCT/JP2023/030069 patent/WO2025041244A1/ja active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017161850A (ja) * | 2016-03-11 | 2017-09-14 | 株式会社東芝 | 会議支援装置、会議支援方法、及び会議支援プログラム |
| JP2023034235A (ja) * | 2021-08-30 | 2023-03-13 | 株式会社日立製作所 | テキスト要約方法、テキスト要約システム |
Non-Patent Citations (1)
| Title |
|---|
| SHIRAMATSU SHUN, SUENAGA AYAHA, YOSHIMURA YUKI, ITO TAKAYUKI: "How Can We Utilize ChatGPT and Large-scale Language Models for Consensus-Building and Crowd Co-creation?", MATERIALS FOR THE 97TH JSAI SIG-SLUD, 8 March 2023 (2023-03-08), pages 30 - 37, XP093280615, DOI: 10.11517/jsaislud.97.0_30 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2157571B1 (en) | Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method | |
| US9053096B2 (en) | Language translation based on speaker-related information | |
| KR101932876B1 (ko) | 연락 센터용 지능형 자동 에이전트 | |
| US9245254B2 (en) | Enhanced voice conferencing with history, language translation and identification | |
| US20130144619A1 (en) | Enhanced voice conferencing | |
| JP2023543032A (ja) | 自然言語会話から意図をマイニングすることによるボットオーサリングに関するシステム及び方法 | |
| US20090055186A1 (en) | Method to voice id tag content to ease reading for visually impaired | |
| JP2019207648A (ja) | 対話型業務支援システム | |
| CN101656800A (zh) | 自动应答装置及方法、会话情节编辑装置、会话服务器 | |
| JP7096172B2 (ja) | キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法 | |
| US10657957B1 (en) | Real-time voice processing systems and methods | |
| JP2023076430A (ja) | プログラム、情報処理システム及び情報処理方法 | |
| WO2019142976A1 (ko) | 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치 | |
| JP7168262B1 (ja) | プログラム、情報処理システム及び情報処理方法 | |
| Coman | IVR systems used in call center management: a scientometric analysis of the literature | |
| JP7169031B1 (ja) | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 | |
| JP7386590B1 (ja) | プログラム、方法、情報処理装置、システム | |
| WO2025041244A1 (ja) | プログラム、方法、情報処理装置、システム | |
| JP2019207647A (ja) | 対話型業務支援システム | |
| JP7169030B1 (ja) | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 | |
| US20250379836A1 (en) | Artificial intelligence-based message generation device and method | |
| Tirumala et al. | Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts | |
| JP7223469B1 (ja) | 発話情報資料化装置 | |
| JP7672025B1 (ja) | プログラム、方法、情報処理装置、システム | |
| WO2024257325A1 (ja) | プログラム、情報処理装置、製造方法、情報処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23949705 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2025541198 Country of ref document: JP Kind code of ref document: A |