WO2011074260A1 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
WO2011074260A1
WO2011074260A1 PCT/JP2010/007296 JP2010007296W WO2011074260A1 WO 2011074260 A1 WO2011074260 A1 WO 2011074260A1 JP 2010007296 W JP2010007296 W JP 2010007296W WO 2011074260 A1 WO2011074260 A1 WO 2011074260A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
speech recognition
call
telephone
voice
Prior art date
Application number
PCT/JP2010/007296
Other languages
English (en)
French (fr)
Inventor
長友 健太郎
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2011545985A priority Critical patent/JPWO2011074260A1/ja
Publication of WO2011074260A1 publication Critical patent/WO2011074260A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to a speech recognition system, a speech recognition device management device, a speech recognition device management method, and a speech recognition device management program, and in particular, a speech recognition system for speech, a speech recognition device management device, and a speech recognition device. And a management program for a speech recognition apparatus.
  • Patent Document 1 Japanese Patent Laid-Open No. 2005-110034.
  • the telephone answering support system of Patent Literature 1 has an interface in a CTI (Computer Telephony Integration) server, and receives customer information of a telephone call received by a private branch exchange having a plurality of extension telephones via a local area network.
  • a telephone answering support system that supports a person who responds to a telephone call by displaying the information on a screen of an information device connected to the CTI server, wherein the CTI server includes a caller of the telephone call and a person who receives the telephone call.
  • a voice recognition means for recognizing a voice signal of a call exchanged between the voice recognition means and outputting character data; and an information storage means for storing character data output from the voice recognition means. Either or both of the character data output from the recognition means and the character data stored in the information storage means are displayed on the screen as characters. That.
  • An object of the present invention is to provide a speech recognition system, a speech recognition device management device, a speech recognition device management method, and a speech recognition device management program that improve speech recognition accuracy, which are the above-described problems.
  • the speech recognition system of the present invention includes a plurality of users' telephone terminals that make calls with each other, Call control means for controlling the call between the telephone terminals of a plurality of users; Voice receiving means for individually receiving voice data from a plurality of user telephone terminals during the call between the plurality of users; Voice recognition means for recognizing each of the voice data from the telephone terminals of the plurality of users received individually; Is provided.
  • the management apparatus for the speech recognition apparatus of the present invention Call control means for controlling the call between the telephone terminals of a plurality of users who call each other; Voice receiving means for individually receiving the voice data from the telephone terminals of the plurality of users during the call between the plurality of users; A voice recognition control unit connected to a plurality of voice recognition devices, and causing the voice recognition device to recognize the voice data of the phone terminals of the plurality of users individually received from the phone terminals of the plurality of users; , Is provided.
  • the management method of the present invention is a management method of a speech recognition apparatus,
  • the management device of the voice recognition device is Connected to multiple users' phone terminals, Controlling calls between the telephone terminals of a plurality of the users, During the call between the plurality of users, individually receiving voice data from a plurality of the user's telephone terminals,
  • the voice recognition device respectively recognizes the voice data from the telephone terminals of the plurality of users received individually.
  • the management program for a speech recognition apparatus of the present invention is a management program executed by a computer that implements a management apparatus for a plurality of speech recognition apparatuses, A procedure for controlling the call between the telephone terminals of the plurality of users; A procedure of individually receiving voice data from a plurality of telephone terminals of the users during the call between the plurality of users; A management program for a speech recognition apparatus for causing a computer to execute a procedure for causing the speech recognition apparatus to recognize the speech data from the telephone terminals of a plurality of users received individually.
  • a plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.
  • the plurality of procedures of the method and computer program of the present invention are not limited to being executed at different timings. For this reason, another procedure may occur during the execution of a certain procedure, or some or all of the execution timing of a certain procedure and the execution timing of another procedure may overlap.
  • a voice recognition system a voice recognition device management device, a voice recognition device management method, and a voice recognition device management program that improve voice recognition accuracy are provided.
  • FIG. 1 is a functional block diagram showing a configuration of a speech recognition system 1 according to an embodiment of the present invention.
  • the speech recognition system 1 controls a call between a plurality of users U1 and U2 (speakers) IP (Internet Protocol) telephones 12 and a plurality of users U1 and U2 IP telephones 12 talking to each other.
  • U1 and U2 peakers
  • IP Internet Protocol
  • the voice control unit management device 100
  • the voice receiving unit 112 that individually receives voice data from the IP telephones 12 of the plurality of users U1 and U2 during a call between the plurality of users U1 and U2, and the individual reception
  • a voice recognition unit voice recognition server 200 (ASR (Automatic Speech Recognition) 210 (ASR1, ASR2))) that recognizes voice data from the IP telephones 12 of the plurality of users U1 and U2 respectively.
  • ASR Automatic Speech Recognition
  • the speech recognition system 1 includes a plurality of user terminals 10, a management device 100, a speech recognition server 200, and a speech recognition result storage unit 220.
  • the user terminal 10 includes an IP telephone 12 and a PC (Personal Computer) terminal 14.
  • the IP telephone 12 includes, for example, a PC soft phone, a mobile phone, and a PHS (Personal Handyphone System).
  • an extension IP phone will be described as an example.
  • the present invention is not limited to this, and an analog fixed phone can also be included, and an external phone via a PBX (Private Branch eXchange) Can also be included.
  • PBX Principal Branch eXchange
  • the IP telephone 12 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), a communication unit, an operation unit such as an operation switch, a display unit such as a display, A voice input / output unit such as a speaker and a microphone, and a clock are provided.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • a communication unit an operation unit such as an operation switch
  • a display unit such as a display
  • a voice input / output unit such as a speaker and a microphone
  • a clock a clock
  • the PC terminal 14 includes, for example, a CPU, a memory, a hard disk, and a communication device (not shown), and is connected to an input device such as a keyboard and a mouse and an output device such as a display and a printer, a thin client terminal, or the like. It is realizable with the apparatus which does. Then, the CPU reads out a program stored in the hard disk to the memory and executes it, thereby realizing each function of each unit described later.
  • the user terminal 10 includes the IP telephone 12 and the PC terminal 14, but is not limited thereto. For example, if the application program is executed on the PC terminal 14 instead of the IP telephone 12 and a PC softphone that realizes the function of the telephone terminal is used, the IP telephone 12 is not necessary. In this case, the user terminal 10 can be the PC terminal 14 only.
  • the management device 100 includes, for example, a CPU, a memory, a hard disk, and a communication device (not shown), and is connected to an input device such as a keyboard and a mouse and an output device such as a display and a printer, or a computer corresponding thereto. It is realizable with the apparatus which does. Then, the CPU reads out a program stored in the hard disk to the memory and executes it, thereby realizing each function of each unit described later.
  • the management apparatus 100 can include a SIP (Session Initiation Protocol) server (not shown).
  • the management apparatus 100 and the IP telephone 12 of the user terminal 10 are connected via, for example, a network including an IP extension telephone network and a SIP network (not shown).
  • a network including an IP extension telephone network and a SIP network (not shown).
  • the telephone of the user terminal 10 is not further illustrated, and is a public telephone network or a local telephone network via a base station, a mobile phone network, and a PBX.
  • the management apparatus 100 and the PC terminal 14 of the user terminal 10 are connected via a network such as a LAN (Local Area Network).
  • LAN Local Area Network
  • the voice recognition server 200 includes, for example, a CPU, a memory, a hard disk, and a communication device (not shown), and is connected to an input device such as a keyboard and a mouse, an output device such as a display and a printer, or a personal computer. It can be realized by a corresponding device. Each function of each unit can be realized by the CPU reading the program stored in the hard disk into the memory and executing it.
  • Each component of the speech recognition system 1 includes an arbitrary computer CPU, memory, a program for realizing the components shown in the figure loaded in the memory, a storage unit such as a hard disk for storing the program, and a network connection interface. It is realized by any combination of hardware and software. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus. Each figure described below shows functional unit blocks, not hardware unit configurations.
  • the management device 100 includes a transmission request receiving unit 102, a management table 104, a management unit 106, a transmission unit 108, an incoming call detection unit 110, and a voice reception unit 112.
  • the call request accepting unit 102 sends a call from the PC terminal 14 of the user terminal 10 of the caller user (here, user U1) to the IP phone 12 of the user terminal 10 of the callee user (here, user U2). Accept the request.
  • the outgoing call request includes, for example, the telephone number of the IP telephone 12 of the user U1 as the caller and the telephone number of the IP telephone 12 of the user U2 as the callee.
  • an application program for making a transmission request to the management apparatus 100 is installed in the user's PC terminal 14, and the program is executed or a predetermined website is accessed using a browser.
  • the call request screen 120 of FIG. 2 can be displayed on the display. The user can perform a call request operation using the call request screen 120.
  • the call request screen 120 includes a caller telephone number display field 122, a callee telephone number input field 124, a call button 126, and a change button 128.
  • the user can place a call by inputting the destination telephone number in the destination telephone number input field 124 and operating the call button 126.
  • the call button 126 When the user operates the call button 126, the caller telephone number displayed in the caller telephone number display field 122 and the callee telephone number input by the user in the callee telephone number input field 124 are the management device 100. Is transmitted to (FIG. 1), and is received by the transmission request receiving unit 102 (FIG. 1).
  • the change button 128 in FIG. 2 is operated, the caller telephone number display field 122 is switched to the input field, and the caller telephone number can be changed.
  • the management table 104 in FIG. 1 associates, for example, user identification information (user ID) and terminal identification information (phone number) of the user's IP telephone 12 for each user, as shown in FIG.
  • the management table 104 includes a user ID, but is not always necessary, and the user can be managed by terminal identification information such as a telephone number.
  • the management table 104 is configured to register the terminal identification information of the user's IP telephone 12 in advance.
  • the present invention is not limited to this, and the management apparatus 100 receives an incoming call from the IP telephone 12.
  • the terminal identification information of the incoming terminal may be registered in the management table 104 and managed.
  • the management unit 106 selects and manages the voice recognition units (ASR1, ASR2) for recognizing the voice data of each of the source and destination users from the plurality of voice recognition units (ASR1, ASR2). For example, as shown in FIG. 3B, the management unit 106 further includes, in the management table 104, identification information of the connection destination ASR 210 for each IP telephone 12 of each user, for example, an IP phone set in each ASR 210. Are stored and managed in association with each other.
  • the management unit 106 refers to the management table 104 and extracts the ASR 210 previously associated with each user, thereby selecting the ASR 210 corresponding to the transmission source or the transmission destination. It is not limited to this.
  • the voice recognition unit (ASR 210) for recognizing voice data of each user's call can be selected according to the operating status of the ASR 210, the priority order of the ASR 210, and a prescribed rule.
  • the sending unit 108 responds to the accepted call request and follows the instruction from the management unit 106, the IP phone 12 of the caller user, A call is made to the IP telephone 12 and the voice recognition unit (ASR 210) of the previous user. That is, when the transmission request receiving unit 102 receives a transmission request, the management unit 106 recognizes the voice data of each user at the transmission source and the transmission destination from the plurality of voice recognition units (ASR1, ASR2). Each part (ASR1, ASR2) is selected, and the sending part 108 is instructed to make a call to each.
  • the incoming call detection unit 110 detects an incoming call from the IP telephone 12 of the originating user and the IP telephone 12 of the user terminal 10 of the outgoing user.
  • the sending unit 108 sends the call to the IP phone 12 of the caller user and the call detection unit 110 calls the caller user according to the instruction of the management unit 106.
  • the caller 108 sends the call to the IP telephone 12 of the user of the callee in accordance with an instruction from the manager 106.
  • the incoming call detection unit 110 detects an incoming call of the IP telephone 12 of the destination user, based on the identification information of the ASR 210 selected by the management unit 106, the transmission unit 108 sets the source and destination user's information.
  • a call is sent to each ASR 210 as a call request from the IP telephone 12.
  • the voice receiving unit 112 individually receives voice data from the IP telephones 12 of a plurality of users during a call between the plurality of users, and passes it to the voice recognition server 200.
  • the voice recognition server 200 includes an automatic call reception unit 202 and a plurality of ASRs 210.
  • the automatic call reception unit 202 receives a call from the IP telephone 12 of each user of the call source and the call destination, and notifies each voice recognition unit (ASR1, ASR2) corresponding to the received identification information.
  • the automatic call reception unit 202 can be included in each voice recognition unit (ASR1, ASR2), or the voice recognition unit (ASR1, ASR2) may receive a call directly.
  • the IP telephones 12 of the source and destination users are connected to the voice recognition units (ASR1, ASR2) corresponding to the source and destination users, respectively, and the source and destination users
  • the voice recognition units (ASR 1 and ASR 2) receive the voice data of the telephone call of the IP telephone 12.
  • the voice recognition result storage unit 220 stores, for each user, the voice recognition result of the voice recognition unit (ASR1, ASR2) in association with the user identification information of the user.
  • the speech recognition result storage unit 220 includes, for example, a recognition result table 222 as shown in FIG. 4, and the recognition result table 222 includes a user ID, a recognition date and time, a recognition result file storage location, and a file.
  • Recognition result file information for acquiring a recognition result file such as a path including a name is stored in association with each other.
  • the recognition result file is, for example, a text file, and is stored in the storage unit of the storage location indicated by the recognition result file information in the recognition result table 222.
  • the voice recognition result storage unit 220 may be, for example, another storage device connected via a network, another recording medium, or the like.
  • the recognition result table 222 is configured to store the recognition result file in association with the user ID, but is not limited thereto.
  • the user ID is not necessarily required.
  • the recognition result file may be associated with terminal identification information such as a telephone number of a telephone such as the user IP telephone 12.
  • the speech recognition system 1 of the present embodiment further includes a distribution server 300 and a user information storage unit 302.
  • Distribution server 300 includes an authentication unit 304 and a presentation unit 306.
  • the user information storage unit 302 stores, for example, a user ID, a password, a telephone number, and a terminal IP address in association with each user.
  • the user's telephone number may not be included in the user information storage unit 302.
  • the terminal IP address is information on a destination for providing the user with the voice recognition result. For example, the IP address of the PC terminal 14 of the user terminal 10 or the voice recognition result is displayed on the PC terminal 14 of the user.
  • Application program identification information for example, a port number or the like.
  • the authentication unit 304 when the authentication unit 304 is accessed from the browser (not shown) of the PC terminal 14 of each user via the network 3 such as a LAN, the authentication unit 304 requests the user to input a user ID and password. Then, the input is accepted, the user information storage unit 302 is referred to, and the accepted user ID and password are authenticated.
  • the presentation unit 306 refers to the recognition result table 222 (FIG. 4) of the user information storage unit 302 and the speech recognition result storage unit 220, and performs speech recognition on the recognized user recognition result file. Read from the result storage unit 220.
  • the presentation unit 306 is, for example, a web server, and outputs the speech recognition result read from the speech recognition result storage unit 220 to a web page accessible by the user. Then, the user operates the PC terminal 14 to access the corresponding web page of the voice recognition server 200 using a browser, thereby displaying the voice recognition result on the display unit (not shown) of the user's PC terminal 14. Can do. Thereby, the user can see the voice recognition result.
  • the screen may be displayed in conjunction with the same application program.
  • the speech recognition system 1 includes an ASP (Application Service), and when the user accesses the ASP from the browser and starts the application program for the call monitor of the speech recognition system 1 of the present invention, When a call request screen is displayed and an input of a telephone number of a call destination is accepted and then voice recognition is started, a recognition result screen for displaying the result may be opened.
  • the call request screen and the recognition result screen may be displayed simultaneously, or the recognition result screen may be displayed after the connection is established or after the voice recognition result is obtained.
  • the recognition result of the voice data uttered by the user U1 is displayed on the screen 310 of the PC terminal 14 of the user U1, and the voice data uttered by the user U2 is recognized.
  • the result is displayed on the screen 312 of the PC terminal 14 of the user U2.
  • the recognition results of the speech data spoken by the users U1 and U2 may be displayed on the same screen 314 on the PC terminals 14 of the users U1 and U2.
  • the presenting unit 306 can present the voice recognition result output from each ASR 210 to the user's PC terminal 14 via the network 3 in real time.
  • “presenting in real time” includes a delay corresponding to a transmission time of the voice data from the IP telephone 12 to the ASR 210, a voice recognition time in the ASR 210, and a reply time of a recognition result from the ASR 210 to the PC terminal 14. Therefore, it is presented with a slight delay after the user speaks, and the communication environment and communication status between the IP telephone 12 and the ASR 210, or between the distribution server 300 and the PC terminal 14, or the processing capability and congestion of the ASR 210, etc. Due to this, the delay time changes.
  • the distribution server 300 reads the voice recognition result once stored in the voice recognition result storage unit 220, but the present invention is not limited to this.
  • the recognition result may be directly output from the ASR 210 to the distribution server 300 without storing the recognition result from the ASR 210 in the voice recognition result storage unit 220.
  • the voice recognition result stored in the voice recognition result storage unit 220 can be referred to as a history at any time after a call.
  • the screen 316 may display the recognition date and time, the identification information of the transmission source and the transmission destination, for example, the telephone number, and the voice recognition result.
  • the identification information of the transmission source and the transmission destination is not limited to the telephone number, and can include user information associated with the user ID, such as a name, a department, and the like.
  • the speech recognition result may include both the transmission source and the transmission destination as shown in FIG. 7C, or may be displayed for each user.
  • whether to allow the recognition result to be provided to other users may be set for each user, and the authority to access the recognition result of other users may be set according to the management level May be.
  • the computer program of the present embodiment is a management program executed by a computer for realizing the management device 100 of a plurality of voice recognition devices (ASR 210), and includes a procedure for controlling calls between a plurality of users' IP telephones 12, and a plurality of procedures.
  • the computer program of this embodiment may be recorded on a computer-readable recording medium.
  • the recording medium is not particularly limited, and various forms can be considered.
  • the program may be loaded from a recording medium into a computer memory, or downloaded to a computer through a network and loaded into the memory.
  • FIGS. 8 and 9 are flowcharts showing an example of the operation of the speech recognition system 1 of the present embodiment. Hereinafter, a description will be given with reference to FIGS.
  • the management apparatus 100 is connected to the IP telephones 12 of a plurality of users via a network, and makes a call via the network between the IP telephones 12 of a plurality of users.
  • the voice data from the IP telephones 12 of the plurality of users are individually received during the call between the plurality of users, and the voice data from the IP telephones 12 of the plurality of users received individually is controlled.
  • Are recognized by the ASR 210 step S121).
  • FIG. 8 is a flowchart showing an example of the procedure of the speech recognition process of the speech recognition system 1 of the present embodiment.
  • the transmission request reception unit 102 of the management apparatus 100 receives a transmission request from the PC terminal 14 of the user U1 to the user U2 (YES in step S101)
  • the management unit 106 notifies the management unit 104.
  • the call request may be sent including the telephone number of the user U1.
  • the calling unit 108 calls the telephone number of the IP telephone 12 of the user U1 that is the calling source (step S105).
  • the incoming call detection unit 110 of the management apparatus 100 detects the incoming call of the user U1 who is the transmission source and notifies the management unit 106 (YES in step S107). . Then, the management unit 106 refers to the management table 104 and makes a call to the telephone number of the IP telephone 12 of the destination user U2 included in the call request (step S111).
  • the incoming call detection unit 110 of the management apparatus 100 detects the incoming call of the user U2 as the transmission destination and notifies the management unit 106 (YES in step S113). .
  • the management unit 106 refers to the management table 104, assigns ASR1 and ASR2 to the user U1 and the user U2, respectively, and transmits to each (step S115).
  • the automatic receiving unit 202 of the voice recognition server 200 automatically receives each incoming call (step S117).
  • a call can be made between the IP telephone 12 of the user U1, the IP telephone 12 of the user U2, the ASR1, and the ASR2.
  • the user U1 and the user U2 start utterance (YES in step S119)
  • the utterance voice data of the user U1 is transmitted to the ASR1 via the voice reception unit 112 and is recognized by the ASR1, and the utterance voice data of the user U1.
  • the utterance voice data of the user U2 is transmitted to the ASR2 via the voice reception unit 112 and is recognized by the ASR2, and the utterance voice data of the user U2 is transferred to the IP telephone 12 of the user U1 (step S121).
  • the text data of the speech recognition result obtained by each ASR 210 is recorded for each user in the speech recognition result storage unit 220 (step S123).
  • the storage location of the text data file of the recognition result, the path of the file name, and the recognition date / time information are recorded in the recognition result table 222.
  • the user U1 and the user U2 can listen to each other's uttered voices, and can also perform speech recognition processing on the uttered voice data individually input to each ASR 210 for each user. That is, even when both of them speak at the same time, only one voice data is input to the ASR 210. Therefore, the quality of the speech data to be recognized is improved and the recognition accuracy is improved as compared with the case where the voices of both the user U1 and the user U2 are mixed.
  • a call request to user U2 is made from PC terminal 14 (not shown in FIG. 10) of user U1.
  • the ASR1 is selected as ASR210 for recognizing and processing the voice data of user U1, and ASR1 performs a call process to IP telephone 12 of user U1 to enable a call between user U1 and ASR1 (step S301).
  • ASR2 is selected as the ASR 210 for recognizing and processing the voice data of user U2, and ASR2 performs a call process to user U2's IP telephone 12 to enable a call between user U2 and ASR2 (step S302).
  • a call process is performed from the IP telephone 12 of the user U1 to the IP telephone 12 of the user U2, and a call between the IP telephone 12 of the user U1 and the IP telephone 12 of the user U2 becomes possible (step S303).
  • the speech voice data from the IP telephone 12 of the user U1 is transferred to the ASR1 (step S311), and transferred from the ASR1 to the IP telephone 12 of the user U2 (step S312).
  • the speech voice data from the IP telephone 12 of the user U2 is transferred to the ASR2 (step S314), and transferred from the ASR2 to the IP telephone 12 of the user U1 (step S315).
  • two or more parties can make a call.
  • FIG. 10 can handle only a two-party call.
  • a call is established between the three persons of the ASR 210 and the IP telephone 12 of the user of the management apparatus 100 for each user. . That is, for example, a call can be made between the IP telephone 12 of the user U1 and the ASR1, between the ASR1 and the management apparatus 100, and between the management apparatus 100 and the IP telephone 12 of the user U1 (not shown). In addition, a call can be made between the IP telephone 12 of the user U2 and the ASR2, between the ASR2 and the management apparatus 100, and between the management apparatus 100 and the IP telephone 12 of the user U2 (not shown). Furthermore, a call can be established between the IP telephone 12 and the ASR 3 of the user U3, between the ASR 3 and the management apparatus 100, and between the management apparatus 100 and the IP telephone 12 of the user U3 (not shown).
  • the speech voice data from the IP telephones 12 of the user U1, the user U2, and the user U3 are transmitted to the ASR1, ASR2, and ASR3, respectively (steps S321, S322, and S323), and ASR1, ASR2, and ASR3 To the management apparatus 100 (steps S331, S332, and S333).
  • the voice data of the user U2 and the user U3 are synthesized and transferred to the IP telephone 12 of the user U1 (step S341), and the voice data of the user U1 and the user U3 are synthesized and the IP telephone of the user U2 12 (step S342), the voice data of the user U1 and the user U2 are synthesized and transferred to the IP telephone 12 of the user U3 (step S343).
  • the speech voice data from the IP telephone 12 of the user U1 is transmitted to the management apparatus 100 (step S351), transmitted from the management apparatus 100 to the ASR1 (step S361), and the IP telephone of the user U2 from the management apparatus 100. 12 (step S372).
  • the utterance voice data from the IP telephone 12 of the user U2 is transmitted to the management apparatus 100 (step S352), transmitted from the management apparatus 100 to the ASR2 (step S362), and the IP telephone of the user U1 from the management apparatus 100 12 (step S371).
  • FIG. 9 is a flowchart illustrating an example of the procedure of the speech recognition result display process of the speech recognition system 1 according to the present embodiment.
  • the ASR 210 refers to the user management table (user information storage unit 302), acquires the user identification information of the user from the terminal identification information of the IP telephone 12, and stores the user information storage unit 302 in the user recognition table 302.
  • the user's voice recognition result is presented to the communication terminal (PC terminal 14) associated with the user via the network 3 (step S207).
  • the user U1 and the user U2 use the PC terminal 14 to start a browser and log in to the distribution server 300 via the network 3 (YES in step S201).
  • the authentication unit 304 of the distribution server 300 refers to the user information storage unit 302 and performs user authentication of the user U1 or the user U2 (step S203). If authenticated (YES in step S203), the presentation unit 306 of the distribution server 300 acquires the voice recognition result of the user who has been authenticated via the network 3 from the voice recognition result storage unit 220 (step S205). Then, the presentation unit 306 presents the result to the user's PC terminal 14, and the user displays the recognition result on the browser of the PC terminal 14 and browses it (step S207).
  • the speech recognition result obtained by performing speech recognition processing individually for each user with a simple configuration can be displayed.
  • the recognition result can be displayed in real time during a call or can be viewed later as a call history.
  • the voice recognition results that can be browsed can also be restricted according to the management level of the user.
  • FIG. 13 is a block diagram showing an outline of the configuration of the speech recognition system 1 according to the embodiment of the present invention.
  • a browser 20 is installed on each user's PC terminal 14.
  • the speech recognition system 1 includes an ASP 400 and a proxy 420.
  • the ASP 400 has a monitor web application 410, and each user accesses the ASP 400 from the browser 20 of the PC terminal 14 via the network 3, starts the monitor web application 410, and uses the voice recognition system 1 of the present invention. Can be used.
  • the ASP 400 When accessing the ASP 400 from the PC terminal 14, the ASP 400 allows a user to input user information including a user ID and a password on a login screen (not shown).
  • the ASP 400 accesses the proxy 420 via the network 3 and performs user recognition processing based on the received user information.
  • the proxy 420 corresponds to the authentication unit 304 in FIG. 5 of the above embodiment, accesses the user information storage unit 302, acquires user information, and performs user recognition processing.
  • the user can use the monitor web application 410 of the ASP 400, and the monitor web application 410 of the ASP 400 acquires the user information of the user U1.
  • the monitor web application 410 has a click-to-call plug-in 412 and a recognition result display plug-in 414.
  • the Click-to-Call plug-in 412 corresponds to the call request receiving unit 102 of the management apparatus 100 of FIG.
  • the recognition result display plug-in 414 corresponds to the presentation unit 306 of the management apparatus 100 of FIG.
  • Click-to-call plug-in 412 accepts a call request from each user.
  • This outgoing call request includes the telephone number of the IP telephone 12 of the source user (user U1 in this example) and the telephone number of the IP telephone 12 of the destination user (user U2 in this example).
  • the telephone number of the IP telephone 12 of the sender user is registered in the PC terminal 14 in advance.
  • the telephone number of the IP telephone 12 and the IP address of the PC terminal 14 are registered in advance in the user information storage unit 302 accessible by the ASP 400 for each user, and when the call request is accepted, the ASP 400 is logged in
  • the telephone number of the IP telephone 12 can also be acquired from the user ID, the IP address of the PC terminal 14 or the like.
  • the call destination telephone number may be selected by the call source user from those registered in advance in the phone book, or may be input directly.
  • the Click-to-Call plug-in 412 displays a call request screen for accepting selection or input of a call destination on the browser 20 of the PC terminal 14 of the user U1.
  • the Click-to-Call plug-in 412 is selected by the user U1 in response to the user U1 pressing the call request button.
  • the telephone number of the IP telephone 12 of the destination user U2 and the telephone number of the IP telephone 12 of the user U1 are received.
  • the voice recognition system 1 further includes a transmission control unit 500 and an IP PBX 510.
  • the transmission control unit 500 can include, for example, a SIP server.
  • the transmission control unit 500 and the IP PBX 510 correspond to a configuration including the management table 104, the management unit 106, the transmission unit 108, the incoming call detection unit 110, and the voice reception unit 112 of FIG.
  • the click-to-call plug-in 412 accepts the call request
  • the call control unit 500 acquires the caller and callee information, and transmits the caller's user U1 via the voice recognition server 200 and the IP PBX 510. Calls are made to the IP telephone 12 and the IP telephone 12 of the destination user U2.
  • Each user's IP telephone 12 receives a call manually, and each user's IP telephone 12 is connected to the voice recognition server 200. And a telephone call is started between the user U1 and the user U2. At this time, the speech recognition server 200 individually receives the speech voice data at each user's IP telephone 12 and performs recognition processing, and stores the result in the voice recognition result storage unit 220.
  • Each user executes the recognition result display plug-in 414 of the monitor web application 410 from the browser 20 of the PC terminal 14.
  • the recognition result display plug-in 414 receives the text data of the recognition result stored in the voice recognition result storage unit 220 as a call record of the user who executed the recognition result display plug-in 414 from the distribution server 300 to the PC terminal of the user. 14 is distributed via the network 3. Then, the recognition result display plug-in 414 displays the distributed recognition result on the display unit of the PC terminal 14 of the user who executed the recognition result display plug-in 414.
  • the display unit of the PC terminal 14 can display various screens as shown in FIG.
  • the present invention also includes the following aspects.
  • a speech recognition system comprising:
  • a user management table that stores user identification information and terminal identification information of the telephone terminal of the user in association with each other; Obtaining means for obtaining the user identification information of the user from the terminal identification information of the telephone terminal with reference to the user management table;
  • a speech recognition system further comprising: a recognition result storage unit that stores a speech recognition result of the speech recognition unit for each user in association with the user identification information of the user.
  • the user management table further stores a communication terminal that presents the voice recognition result of the user in association with each user,
  • a speech recognition system comprising presentation means for referring to the user management table and presenting the speech recognition result of the user to the communication terminal associated with the user via a network.
  • the presenting means is a voice recognition system that presents the voice recognition result output from the voice recognition means to the communication terminal of the user in real time via the network.
  • the voice recognition means includes a plurality of voice recognition units each having identification information, automatically receiving a call request to the identification information, and voice-recognizing the voice data of the incoming call.
  • the call control means includes A call request receiving unit that receives a call request from the telephone terminal of the user of the call source to the telephone terminal of the user of the call destination; When the call request accepting unit accepts the call request, the caller of the user of the caller, the caller of the user of the callee, and a caller that makes a call to the voice recognition unit; A detection unit that detects an incoming call of the telephone terminal of the user of the call source and the telephone terminal of the user of the call destination; A management unit that selects and manages each of the voice recognition units that recognize voice data of each user of the transmission source and the transmission destination from among the plurality of voice recognition units, When the call request accepting unit accepts the call request, the calling unit sends the caller to the user's telephone terminal, When the detection unit detects the incoming call of the telephone terminal of the user of the transmission source, the transmission unit transmits to the telephone terminal of the user of the transmission destination, When the detecting unit detects the incoming call of the telephone terminal of the user of the transmission destination,
  • Each voice recognition unit as a call request from the telephone terminal of each user of the destination, Each of the voice recognition units automatically receives the call request from the telephone terminal of each user of the caller and the callee, and recognizes the voice data of the incoming call. .
  • a speech recognition apparatus management apparatus comprising:
  • a user management table that stores user identification information and terminal identification information of the telephone terminal of the user in association with each other; Obtaining means for obtaining the user identification information of the user from the terminal identification information of the telephone terminal with reference to the user management table;
  • a speech recognition apparatus management apparatus further comprising: a recognition result storage unit that stores a speech recognition result of the speech recognition apparatus for each user in association with the user identification information of the user.
  • the call control means includes A call request receiving unit that receives a call request from the telephone terminal of the user of the call source to the telephone terminal of the user of the call destination; When the call request accepting unit accepts the call request, the calling unit that makes a call to the telephone terminal of the caller user, the phone terminal of the callee user, and the voice recognition device; A detection unit that detects an incoming call of the telephone terminal of the user of the call source and the telephone terminal of the user of the call destination; A management unit that selects and manages each of the voice recognition devices for recognizing voice data of each user of the transmission source and the transmission destination from a plurality of the voice recognition devices, When the call request accepting unit accepts the call request, the calling unit sends the caller to the user's telephone terminal, When the detection unit detects the
  • [Appendix 9] A method of managing a speech recognition device, The speech recognition device Connected to multiple users' phone terminals, Controlling calls between the telephone terminals of a plurality of the users, During the call between the plurality of users, individually receiving voice data from a plurality of the user's telephone terminals, A management method of a speech recognition apparatus for recognizing each of the speech data from the telephone terminals of the plurality of users received individually.
  • the speech recognition device A user management table that stores, for each user, user identification information, terminal identification information of the telephone terminal of the user, and a communication terminal that presents a voice recognition result of the voice recognition device of the user in association with each other; A recognition result storage device that stores the voice recognition result of the voice recognition device for each user in association with the user identification information of the user;
  • the speech recognition device Refer to the user management table, obtain the user identification information of the user from the terminal identification information of the telephone terminal, A method for managing a speech recognition apparatus, which refers to the user management table and presents the speech recognition result of the user to the communication terminal associated with the user via a network.
  • Appendix 11 A plurality of user's telephone terminals that communicate with each other; a plurality of voice recognition devices that respectively recognize the voice data of the plurality of users' telephone terminals individually received from the plurality of user's telephone terminals; A computer for realizing a management apparatus for a speech recognition apparatus having a management table for managing Voice recognition control means for causing the voice recognition device to recognize the voice data of the telephone terminals of the plurality of users individually received based on the management table; A management program for a speech recognition apparatus for causing a plurality of users to function as control means for controlling the call between the telephone terminals.
  • the voice recognition apparatus further includes a user management table that stores, for each user, user identification information and terminal identification information of the telephone terminal of the user in association with each other. Obtaining means for referring to the user management table and obtaining the user identification information of the user from the terminal identification information of the telephone terminal; A voice recognition device management program for causing a computer to further function as a recognition result storage unit that stores a voice recognition result of the voice recognition device for each user in association with the user identification information of the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 音声認識システム(1)は、互いに通話を行う複数のユーザ(U1、U2)のIP電話機(12)と、複数のユーザ(U1、U2)のIP電話機(12)間の通話を制御する管理装置(100)と、複数のユーザ(U1、U2)間の通話中に、複数のユーザ(U1、U2)のIP電話機(12)からの音声データを個別に受信する音声受信部(112)と、個別に受信した複数のユーザ(U1、U2)のIP電話機(12)からの音声データをそれぞれ音声認識する音声認識サーバ(200:ASR1、ASR2)と、を備える。

Description

音声認識システム
 本発明は、音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムに関し、特に、通話音声の音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムに関する。
 通話音声がリアルタイムに音声認識されて画面に表示される手法の一例が特許文献1(特開2005-110034号公報)に記載されている。特許文献1の電話応対支援システムは、CTI(Computer Telephony Integration)サーバにインタフェースを有し、複数の内線電話を具備する構内交換機に着信した電話コールの客先情報を、ローカルエリアネットワークを介して該CTIサーバに接続された情報機器の画面に表示させることにより該電話コールに応対する応対者を支援する電話応対支援システムであって、CTIサーバは、電話コールの発信者と該電話コールの応対者との間でやり取りされる通話の音声信号を認識して文字データを出力する音声認識手段と、音声認識手段から出力された文字データを格納する情報格納手段とを有し、情報機器は、音声認識手段から出力された文字データおよび情報格納手段に格納された文字データのうち何れか一方又は双方を画面に文字表示させる。
特開2005-110034号公報
 上述した特許文献1に記載の電話応対支援システムの技術では、通話中の複数の話者の音声は区別することなく受信されるので、たとえば、通話コールの発信者と応対者との間の通話内容は単一の音声チャネルを通じて音声認識処理に送られる可能性がある。今日の音声認識技術では、複数の話者が同時に発話した音声信号を単一のチャネルにミックスしたような音声を精度よく取り扱うことはできないため、そのような音声信号による音声認識処理は、単一の話者の音声のみを含む音声信号と比べて音声認識精度が低下するという問題点があった。
 本発明の目的は、上述した課題である音声認識精度を向上する音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムを提供することにある。
 本発明の音声認識システムは、互いに通話を行う複数のユーザの電話端末と、
 複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
 複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
 個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える。
 本発明の音声認識装置の管理装置は、
 互いに通話を行う複数のユーザの電話端末間の前記通話を制御する通話制御手段と、
 複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
 複数の音声認識装置に接続され、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データを前記音声認識装置にそれぞれ音声認識させる音声認識制御手段と、
を備える。
 本発明の管理方法は、音声認識装置の管理方法であって、
 前記音声認識装置の前記管理装置が、
  複数のユーザの電話端末と接続され、
  複数の前記ユーザの前記電話端末間の通話を制御し、
  複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
  個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる。
 本発明の音声認識装置の管理プログラムは、複数の音声認識装置の管理装置を実現するコンピュータが実行する管理プログラムであって、
 複数の前記ユーザの前記電話端末間の前記通話を制御する手順、
 複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する手順、
 個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる手順、をコンピュータに実行させるための、音声認識装置の管理プログラムである。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
 また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
 さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 本発明によれば、音声認識精度を向上する音声認識システム、音声認識装置の管理装置、音声認識装置の管理方法、および音声認識装置の管理プログラムが提供される。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明の実施の形態に係る音声認識システムの構成を示す機能ブロック図である。 本実施形態の音声認識システムの発信要求画面の例を示す図である。 本実施形態の音声認識システムの管理テーブルの構造の例を示す図である。 本実施形態の音声認識システムの認識結果テーブルの構造の例を示す図である。 本発明の実施の形態に係る音声認識システムの音声認識結果を提示する配信サーバの構成を示す機能ブロック図である。 本実施形態の音声認識システムのユーザ情報記憶部の構造の例を示す図である。 本実施形態の音声認識システムの音声認識結果表示画面の例を示す図である。 本発明の実施の形態に係る音声認識システムの音声認識処理の手順の一例を示すフローチャートである。 本発明の実施の形態に係る音声認識システムの音声認識結果表示処理の手順の一例を示すフローチャートである。 本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。 本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。 本実施形態の音声認識システムの音声データの転送経路の一例を示す図である。 本発明の実施例の音声認識システムの構成を示すブロック図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
 図1は、本発明の実施の形態に係る音声認識システム1の構成を示す機能ブロック図である。
 本実施形態の音声認識システム1は、互いに通話を行う複数のユーザU1、U2(話者)のIP(Internet Protocol)電話機12と、複数のユーザU1、U2のIP電話機12間の通話を制御する通話制御部(管理装置100)と、複数のユーザU1、U2間の通話中に、複数のユーザU1、U2のIP電話機12からの音声データを個別に受信する音声受信部112と、個別に受信した複数のユーザU1、U2のIP電話機12からの音声データをそれぞれ音声認識する音声認識部(音声認識サーバ200(ASR(Automatic Speech Recognition)210(ASR1、ASR2)))と、を備える。
 具体的には、音声認識システム1は、複数のユーザのユーザ端末10と、管理装置100と、音声認識サーバ200と、音声認識結果記憶部220と、を備える。
 ユーザ端末10は、IP電話機12およびPC(Personal Computer)端末14を含む。
 IP電話機12は、たとえば、PCソフトフォン、携帯電話機、およびPHS(Personal Handyphone System)等を含む。本実施形態では、内線用IP電話を例として説明するが、これに限定されるものではなく、アナログ固定電話も含むことができ、また、PBX(Private Branch eXchange:構内交換機)を介した外線電話も含むこともできる。IP電話機12は、図示しないCPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、通信部と、操作スイッチ等の操作部と、ディスプレイ等の表示部と、スピーカやマイクなどの音声入出力部と、時計と、を備える。
 PC端末14は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるパーソナルコンピュータ、シンクライアント端末またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、後述する各ユニットの各機能を実現することができる。
 なお、本実施形態では、ユーザ端末10は、IP電話機12とPC端末14を含む構成としているが、これに限定されない。たとえば、IP電話機12の代わりに、PC端末14上でアプリケーションプログラムを実行し、電話端末の機能を実現するPCソフトフォンを利用する構成とすれば、IP電話機12は不要となる。この場合、ユーザ端末10は、PC端末14のみとすることができる。
 管理装置100は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、後述する各ユニットの各機能を実現することができる。本実施形態において、管理装置100は、SIP(Session Initiation Protocol)サーバ(不図示)を含むことができる。
 本実施形態では、管理装置100とユーザ端末10のIP電話機12は、たとえば、図示されないIP内線電話網およびSIP網を含むネットワークを介して接続される。ユーザ端末10が、たとえば、アナログ固定電話や携帯電話の場合、ユーザ端末10の電話機は、さらに図示されない、公衆回線網、または、基地局や携帯電話網、ならびに、PBXなどを介して構内電話網およびSIP網に接続され、管理装置100と接続されてもよい。また、管理装置100と、ユーザ端末10のPC端末14は、LAN(Local Area Network)等のネットワークを介して接続される。
 音声認識サーバ200は、たとえば、図示しないCPUやメモリ、ハードディスク、および通信装置を備え、キーボードやマウス等の入力装置やディスプレイやプリンタ等の出力装置と接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。そして、CPUが、ハードディスクに記憶されるプログラムをメモリに読み出して実行することにより、上記各ユニットの各機能を実現することができる。
 なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
 また、音声認識システム1の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
 管理装置100は、発信要求受付部102と、管理テーブル104と、管理部106と、発信部108と、着信検出部110と、音声受信部112と、を含む。
 発信要求受付部102は、発信元のユーザ(ここでは、ユーザU1)のユーザ端末10のPC端末14から、発信先のユーザ(ここでは、ユーザU2)のユーザ端末10のIP電話機12への発信要求を受け付ける。発信要求には、たとえば、発信元のユーザU1のIP電話機12の電話番号と、発信先のユーザU2のIP電話機12の電話番号とが含まれる。
 本実施形態において、ユーザのPC端末14には、管理装置100に発信要求を行うためのアプリケーションプログラムがインストールされていて、そのプログラムを実行するか、あるいは、ブラウザを用いて所定のウェブサイトにアクセスすることで、図2の発信要求画面120をディスプレイに表示させることができる。ユーザはこの発信要求画面120を用いて発信要求操作などが可能になる。
 図2に示すように、発信要求画面120は、発信元電話番号表示欄122と、発信先電話番号入力欄124と、発信ボタン126と、変更ボタン128と、を含む。たとえば、ユーザは、発信先電話番号入力欄124に発信先電話番号を入力し、発信ボタン126を操作することによって、電話をかけることができる。ユーザが発信ボタン126を操作したとき、発信元電話番号表示欄122に表示されている発信元電話番号と、ユーザによって発信先電話番号入力欄124に入力された発信先電話番号が、管理装置100(図1)に送信され、発信要求受付部102(図1)が受け付ける。なお、図2の変更ボタン128を操作すると、発信元電話番号表示欄122が入力欄に切り替わり、発信元電話番号を変更できる。
 図1の管理テーブル104は、たとえば、図3(a)に示すように、ユーザ毎に、ユーザ識別情報(ユーザID)と、ユーザのIP電話機12の端末識別情報(電話番号)を対応付けて記憶する。本実施形態では、管理テーブル104は、ユーザIDを含んでいるが、必ずしも必要なく、電話番号などの端末識別情報でユーザを管理することもできる。また、本実施形態では、管理テーブル104には、予めユーザのIP電話機12の端末識別情報を登録している構成としているが、これに限定されず、管理装置100がIP電話機12からの着呼を着信したとき、着信した端末の端末識別情報を管理テーブル104に登録して管理する構成としてもよい。
 管理部106は、複数の音声認識部(ASR1、ASR2)の中から、発信元および発信先の各ユーザの音声データを認識する音声認識部(ASR1、ASR2)をそれぞれ選択し、管理する。管理部106は、たとえば、図3(b)に示すように、管理テーブル104に、さらに、各ユーザのIP電話機12毎に接続先のASR210の識別情報、たとえば、各ASR210に設定されたIP電話の電話番号、IPアドレスなどを対応付けて記憶して、管理する。
 本実施形態では、管理部106が、管理テーブル104を参照し、ユーザ毎に予め対応付けられたASR210を抽出することで、発信元または発信先に対応するASR210をそれぞれ選択する構成としているが、これに限定されない。たとえば、ASR210の稼働状況や、ASR210の優先順位や規定のルールにしたがって、各ユーザの通話の音声データを認識させる音声認識部(ASR210)を選択することもできる。
 図1に戻り、発信部108は、発信要求受付部102が発信要求を受け付けたとき、受け付けた発信要求に呼応して、管理部106からの指示に従って、発信元のユーザのIP電話機12、発信先のユーザのIP電話機12、および音声認識部(ASR210)に対して発信する。すなわち、管理部106は、発信要求受付部102が発信要求を受け付けたとき、複数の音声認識部(ASR1、ASR2)の中から、発信元および発信先の各ユーザの音声データを認識する音声認識部(ASR1、ASR2)をそれぞれ選択し、発信部108にそれぞれへの発信を指示する。
 着信検出部110は、発信元のユーザのIP電話機12、および発信先のユーザのユーザ端末10のIP電話機12の着信を検出する。
 本実施形態において、発信要求受付部102が発信要求を受け付けたとき、管理部106の指示に従い、発信部108が発信元のユーザのIP電話機12に発信し、着信検出部110が発信元のユーザのIP電話機12の着信を検出したとき、管理部106の指示に従い、発信部108が発信先のユーザのIP電話機12に発信する。そして、着信検出部110が発信先のユーザのIP電話機12の着信を検出したとき、管理部106がそれぞれ選択したASR210の識別情報に基づいて、発信部108が発信元および発信先の各ユーザのIP電話機12からの発信要求として各ASR210に発信する。
 音声受信部112は、複数のユーザ間の通話中に、複数のユーザのIP電話機12からの音声データを個別に受信し、音声認識サーバ200に受け渡す。
 音声認識サーバ200は、自動着信部202と、複数のASR210を含む。
 自動着信部202は、発信元および発信先の各ユーザのIP電話機12からの発信をそれぞれ着信し、着信した識別情報に対応する各音声認識部(ASR1、ASR2)に通知する。なお、自動着信部202は、各音声認識部(ASR1、ASR2)にそれぞれ含むこともでき、音声認識部(ASR1、ASR2)が直接着信してもよい。このようにして、発信元および発信先の各ユーザに対応する音声認識部(ASR1、ASR2)に発信元および発信先の各ユーザのIP電話機12がそれぞれ接続され、発信元および発信先の各ユーザのIP電話機12の通話の音声データを音声認識部(ASR1、ASR2)がそれぞれ受信する。
 各ASR210は、自動着信部202から通知された着信した通話の音声データをそれぞれ音声認識する。
 音声認識結果記憶部220は、ユーザ毎に、音声認識部(ASR1、ASR2)の音声認識結果を、ユーザのユーザ識別情報に対応付けて記憶する。本実施形態では、音声認識結果記憶部220は、たとえば、図4に示すような認識結果テーブル222を含み、認識結果テーブル222は、ユーザIDと、認識日時と、認識結果ファイルの格納先とファイル名を含むパスなどの認識結果ファイルを取得するための認識結果ファイル情報と、を関連付けて記憶する。認識結果ファイルは、たとえば、テキストファイルであり、認識結果テーブル222の認識結果ファイル情報に示される格納先の記憶部に格納される。
 なお、音声認識結果記憶部220は、たとえば、ネットワークを介して接続される他の記憶装置や、他の記録媒体などであってもよい。本実施形態では、認識結果テーブル222は、ユーザIDに認識結果ファイルを対応付けて記憶する構成としているが、これに限定されない。ユーザIDは必ずしも必要なく、たとえば、ユーザIP電話機12等の電話機の電話番号などの端末識別情報に認識結果ファイルを関連付けてもよい。
 また、本実施形態の音声認識システム1は、図5に示すように、さらに、配信サーバ300と、ユーザ情報記憶部302と、を含む。配信サーバ300は、認証部304と、提示部306と、を含む。
 ユーザ情報記憶部302は、図6に示すように、たとえば、ユーザ毎に、ユーザID、パスワード、電話番号、および端末IPアドレスを対応付けて記憶する。なお、本実施形態では、ユーザの電話番号は、ユーザ情報記憶部302に含まれなくてもよい。端末IPアドレスは、音声認識結果をユーザに提供するための提供先の情報であり、たとえば、ユーザ端末10のPC端末14のIPアドレス、または、ユーザのPC端末14に音声認識結果を表示させるためのアプリケーションプログラムの識別情報、たとえば、ポート番号などを含むことができる。
 図5に戻り、認証部304は、LAN等のネットワーク3を介して各ユーザのPC端末14のブラウザ(不図示)から配信サーバ300にアクセスされたとき、ユーザにユーザIDおよびパスワードの入力を要求して、入力を受け付け、ユーザ情報記憶部302を参照し、受け付けたユーザIDとパスワードを認証する。
 提示部306は、認証部304により認証されたとき、ユーザ情報記憶部302および音声認識結果記憶部220の認識結果テーブル222(図4)を参照し、認証されたユーザの認識結果ファイルを音声認識結果記憶部220から読み出す。そして、提示部306は、たとえば、ウェブサーバであり、音声認識結果記憶部220から読み出した音声認識結果を、ユーザがアクセス可能なウェブページに出力する。そして、ユーザがPC端末14を操作して音声認識サーバ200の対応するウェブページにブラウザを用いてアクセスすることで、音声認識結果をユーザのPC端末14の表示部(不図示)に表示させることができる。これにより、ユーザは音声認識結果を見ることができる。
 また、本実施形態において、たとえば、図1において、PC端末14が発信要求受付部102に対して発信要求を行う発信要求画面と、配信サーバ300の提示部306がPC端末14に提示する認識結果画面とは、同じアプリケーションプログラムによって連動して表示されるようにしてもよい。たとえば、音声認識システム1は、ASP(Application Service Provider)を含み、ユーザは、PC端末14がブラウザからASPにアクセスし、本発明の音声認識システム1の通話モニタのアプリケーションプログラムを起動すると、まず、発信要求画面が表示され、発信先の電話番号の入力が受け付けられ、その後、音声認識が開始すると、その結果を表示するための認識結果画面が開かれてもよい。発信要求画面と認識結果画面は、同時に表示されていてもよいし、接続が確立してから、または音声認識結果が得られてから認識結果画面が表示されてもよい。
 本実施形態では、たとえば、図7(a)に示すように、ユーザU1が発話した音声データの認識結果がユーザU1のPC端末14の画面310に表示され、ユーザU2が発話した音声データの認識結果がユーザU2のPC端末14の画面312に表示される。あるいは、図7(b)に示すように、ユーザU1とU2のPC端末14において、ユーザU1とU2の発話した音声データの認識結果が両方とも同じ画面314に表示されてもよい。あるいは、発信元または発信先のいずれか一方のみが、認識結果を表示させ、他方は認識結果を参照する権限を与えない等の制御をすることもできる。
 提示部306は、各ASR210が出力する音声認識結果をユーザのPC端末14にネットワーク3を介してリアルタイムに提示することができる。ここで、「リアルタイムに提示する」とは、IP電話機12から音声データのASR210への送信時間、ASR210における音声認識時間、およびASR210からPC端末14への認識結果の返信時間分の遅れを含む。したがって、ユーザが発話してから、多少遅延して提示され、IP電話機12とASR210間、あるいは、配信サーバ300とPC端末14間の通信環境や通信状況、あるいは、ASR210の処理能力や混雑状態などにより遅延時間は変化する。
 また、本実施形態では、音声認識結果記憶部220に一旦格納された音声認識結果を配信サーバ300が読み出す構成としているが、これに限定されない。たとえば、ASR210から音声認識結果記憶部220に認識結果を記憶せずに、ASR210から直接、配信サーバ300に認識結果を出力してもよい。
 また、音声認識結果記憶部220に格納された音声認識結果は、通話後、随時、履歴として参照することができる。たとえば、図7(c)に示すように、画面316として、認識日時、発信元および発信先の識別情報、たとえば、電話番号等、および音声認識結果を表示させてもよい。発信元および発信先の識別情報は、電話番号に限定されず、ユーザIDに関連付けられた、ユーザ情報、たとえば、氏名、部署等を含むことができる。音声認識結果は、図7(c)のように発信元および発信先の両方を含んでもよいし、ユーザ毎に表示させてもよい。ユーザ毎に、管理レベルに応じて他のユーザへの認識結果の提供を許可するか否かを設定してもよいし、管理レベルに応じて他のユーザの認識結果へのアクセスの権限を設定してもよい。
 本実施の形態の音声認識システム1の管理装置100は、コンピュータプログラムに対応する各種の処理動作をCPUが実行することにより、上述のような各種ユニットが各種機能として実現される。
 本実施形態のコンピュータプログラムは、複数の音声認識装置(ASR210)の管理装置100を実現するためのコンピュータがする管理プログラムであって、複数のユーザのIP電話機12間の通話を制御する手順、複数のユーザ間の通話中に、複数のユーザのIP電話機12からの音声データを個別に受信する手順、個別に受信した複数のユーザのIP電話機12からの音声データをASR210にそれぞれ音声認識させる手順、をコンピュータに実行させるように記述されている。
 本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
 上述のような構成において、本実施の形態の管理装置100によるASR210の管理方法を以下に説明する。図8および図9は、本実施形態の音声認識システム1の動作の一例を示すフローチャートである。以下、図1乃至図9を用いて説明する。
  本実施形態の音声認識装置(ASR210)の管理方法は、管理装置100が、複数のユーザのIP電話機12とネットワークを介して接続され、複数のユーザのIP電話機12間のネットワークを介した通話を制御し(ステップS101~S119)、複数のユーザ間の通話中に、複数のユーザのIP電話機12からの音声データを個別に受信し、個別に受信した複数のユーザのIP電話機12からの音声データをASR210にそれぞれ音声認識させる(ステップS121)。
 図8は、本実施形態の音声認識システム1の音声認識処理の手順の一例を示すフローチャートである。
 まず、管理装置100の発信要求受付部102がユーザU1のPC端末14からのユーザU2への発信要求を受け付けると(ステップS101のYES)、管理部106に通知し、管理部106は管理テーブル104を参照し、ユーザU1のIP電話機12の電話番号を取得する。なお、発信要求にユーザU1の電話番号を含んで送ってもよい。管理部106からの指示に従い、発信部108が発信元のユーザU1のIP電話機12の電話番号に発信する(ステップS105)。
 そして、ユーザU1がIP電話機12の着呼を手動で着信すると、管理装置100の着信検出部110が発信元であるユーザU1の着信を検出し、管理部106に通知する(ステップS107のYES)。そして、管理部106は管理テーブル104を参照し、発信要求に含まれる発信先のユーザU2のIP電話機12の電話番号に発信する(ステップS111)。
 そして、ユーザU2がIP電話機12の着呼を手動で着信すると、管理装置100の着信検出部110が発信先であるユーザU2の着信を検出し、管理部106に通知する(ステップS113のYES)。そして、管理部106は管理テーブル104を参照し、ユーザU1およびユーザU2にASR1およびASR2をそれぞれ割り当て、それぞれに発信する(ステップS115)。音声認識サーバ200の自動着信部202がそれぞれの着呼を自動的に着信する(ステップS117)。
 そして、ユーザU1のIP電話機12、ユーザU2のIP電話機12、ASR1、およびASR2の間で、通話が可能となる。ユーザU1とユーザU2が発話を開始すると(ステップS119のYES)、ユーザU1の発話音声データが音声受信部112を介してASR1に送信され、ASR1で音声認識されるとともに、ユーザU1の発話音声データはユーザU2のIP電話機12に転送される。一方、ユーザU2の発話音声データが音声受信部112を介してASR2に送信され、ASR2で音声認識されるとともに、ユーザU2の発話音声データはユーザU1のIP電話機12に転送される(ステップS121)。そして、各ASR210で得られた音声認識結果のテキストデータが、それぞれ音声認識結果記憶部220にユーザ毎に記録される(ステップS123)。このとき、認識結果のテキストデータのファイルの格納先とファイル名のパスと、認識日時情報が認識結果テーブル222に記録される。
 以上、説明したように、ユーザU1とユーザU2は、互いの発話音声を聞くことができるとともに、各ASR210にユーザ毎にそれぞれ個別に入力された発話音声データを各ASR210で音声認識処理できる。すなわち、両者が同時に発話してしまった場合でも、ASR210には一方の音声データのみが入力される。したがって、ユーザU1とユーザU2の両者の発話音声が混在している場合に比較して、認識対象の音声データの品質がよくなるため、認識精度が向上する。
 なお、以上の動作において、音声データの転送経路は様々な態様が考えられる。たとえば、図10に示すように、ユーザU1とユーザU2の2者間で通話を行う場合において、はじめに、ユーザU1のPC端末14(図10には不図示)からユーザU2への発信要求がなされる。ユーザU1の音声データを認識処理するASR210としてASR1が選択され、ASR1からユーザU1のIP電話機12に発信処理がなされ、ユーザU1とASR1の間の通話が可能になる(ステップS301)。次に、ユーザU2の音声データを認識処理するASR210としてASR2が選択され、ASR2からユーザU2のIP電話機12に発信処理がなされ、ユーザU2とASR2の間の通話が可能になる(ステップS302)。さらに、ユーザU1のIP電話機12からユーザU2のIP電話機12への発信処理がなされ、ユーザU1のIP電話機12とユーザU2のIP電話機12の間の通話が可能になる(ステップS303)。
 一方、ユーザU1のIP電話機12からの発話音声データは、ASR1に転送され(ステップS311)、ASR1からユーザU2のIP電話機12に転送される(ステップS312)。一方、ユーザU2のIP電話機12からの発話音声データは、ASR2に転送され(ステップS314)、ASR2からユーザU1のIP電話機12に転送される(ステップS315)。
 なお、以下の図11と図12の例では、2者以上の通話が可能であるが、この図10の例は、2者通話のみ対応可能となる。
 また、図11に示す例では、2者以上の複数のIP電話機12間で通話を行う場合、各ユーザ毎にASR210と管理装置100のユーザのIP電話機12の3者間での通話が成立する。すなわち、たとえば、ユーザU1のIP電話機12とASR1間、ASR1と管理装置100間、管理装置100とユーザU1のIP電話機12間のそれぞれで通話が可能な状態となる(不図示)。また、ユーザU2のIP電話機12とASR2間、ASR2と管理装置100間、管理装置100とユーザU2のIP電話機12間のそれぞれで通話可能な状態となる(不図示)。さらに、ユーザU3のIP電話機12とASR3間、ASR3と管理装置100間、管理装置100とユーザU3のIP電話機12間のそれぞれで通話可能な状態となる(不図示)。
 そして、ユーザU1、ユーザU2、およびユーザU3のIP電話機12からの発話音声データは、ASR1、ASR2、およびASR3にそれぞれ送信される(ステップS321、S322、およびS323)とともに、ASR1、ASR2、およびASR3から管理装置100に転送される(ステップS331、S332、およびS333)。そして、管理装置100において、ユーザU2およびユーザU3の音声データが合成されてユーザU1のIP電話機12に転送され(ステップS341)、ユーザU1およびユーザU3の音声データが合成されてユーザU2のIP電話機12に転送され(ステップS342)、ユーザU1およびユーザU2の音声データが合成されてユーザU3のIP電話機12に転送される(ステップS343)。
 また、図12に示す例では、2者以上の複数のIP電話機12間で通話を行う場合、各ユーザのIP電話機12と管理装置100間、および管理装置100と各ASR210間での通話が成立する(不図示)。
 そして、ユーザU1のIP電話機12からの発話音声データは、管理装置100に送信され(ステップS351)、管理装置100からASR1に送信される(ステップS361)とともに、管理装置100からユーザU2のIP電話機12に転送される(ステップS372)。一方、ユーザU2のIP電話機12からの発話音声データは、管理装置100に送信され(ステップS352)、管理装置100からASR2に送信される(ステップS362)とともに、管理装置100からユーザU1のIP電話機12に転送される(ステップS371)。
 図9は、本実施形態の音声認識システム1の音声認識結果表示処理の手順の一例を示すフローチャートである。
 本実施形態の音声認識システム1において、ASR210は、ユーザ管理テーブル(ユーザ情報記憶部302)を参照し、IP電話機12の端末識別情報からユーザのユーザ識別情報を取得し、ユーザ情報記憶部302を参照し、ユーザの音声認識結果を、ユーザに対応付けられた通信端末(PC端末14)にネットワーク3を介して提示する(ステップS207)。
 具体的には、ユーザU1およびユーザU2は、PC端末14を使用して、ブラウザを起動し、配信サーバ300にネットワーク3を介してログインする(ステップS201のYES)。配信サーバ300の認証部304がユーザ情報記憶部302を参照し、ユーザU1またはユーザU2のユーザ認証を行う(ステップS203)。認証された場合(ステップS203のYES)、配信サーバ300の提示部306がネットワーク3を介して認証されたユーザの音声認識結果を音声認識結果記憶部220から取得する(ステップS205)。そして、提示部306は、ユーザのPC端末14に提示し、ユーザは、PC端末14のブラウザに認識結果を表示させ、閲覧する(ステップS207)。
 このように、本発明によれば、ユーザのPC端末14にブラウザを備えれば、特別なアプリケーションプログラムをインストールする必要がなく、簡単な構成でユーザ毎に個別に音声認識処理された音声認識結果を表示することができる。認識結果は、通話時にリアルタイムに表示させることもできるし、通話履歴として後から閲覧することもできる。ユーザの管理レベルに応じて閲覧できる音声認識結果を制限することもできる。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 図13は、本発明の実施例の音声認識システム1の構成の概略を示すブロック図である。
 本実施例において、各ユーザのPC端末14は、ブラウザ20がインストールされている。音声認識システム1は、ASP400と、プロキシ420と、を備える。ASP400は、モニタ用ウェブアプリケーション410を有し、各ユーザは、PC端末14のブラウザ20からASP400にネットワーク3を介してアクセスし、モニタ用ウェブアプリケーション410を起動し、本発明の音声認識システム1を利用することができる。
 PC端末14からASP400にアクセスするとき、ASP400は、ログイン画面(不図示)にて、ユーザにユーザIDとパスワードを含むユーザ情報を入力させて受け付ける。ASP400は、プロキシ420にネットワーク3を介してアクセスし、受け付けたユーザ情報に基づいてユーザ認識処理を行う。プロキシ420は、上記実施形態の図5の認証部304に相当し、ユーザ情報記憶部302にアクセスし、ユーザ情報を取得し、ユーザ認識処理を行う。ユーザが認識されると、ユーザは、ASP400のモニタ用ウェブアプリケーション410が利用可能となるとともに、ASP400のモニタ用ウェブアプリケーション410は、ユーザU1のユーザ情報を取得する。
 モニタ用ウェブアプリケーション410は、Click-to-Callプラグイン412および認識結果表示プラグイン414を有する。Click-to-Callプラグイン412は、上記実施形態の図1の管理装置100の発信要求受付部102に相当する。認識結果表示プラグイン414は、上記実施形態の図5の管理装置100の提示部306に相当する。
 Click-to-Callプラグイン412は、各ユーザからの発信要求を受け付ける。この発信要求には、発信元のユーザ(この例ではユーザU1)のIP電話機12の電話番号と、発信先のユーザ(この例ではユーザU2)のIP電話機12の電話番号が含まれる。発信元のユーザのIP電話機12の電話番号は、予めPC端末14に登録されている。または、ASP400がアクセス可能なユーザ情報記憶部302に予めユーザ毎にIP電話機12の電話番号、PC端末14のIPアドレス等を登録しておき、発信要求を受け付けたとき、ASP400にログインしたときのユーザIDやPC端末14のIPアドレス等からIP電話機12の電話番号を取得することもできる。
 発信先の電話番号は、発信元のユーザが、予め電話帳などに登録されている中から選択してもよいし、直接、電話番号を入力してもよい。Click-to-Callプラグイン412は、発信先の選択または入力を受け付けるための発信要求画面をユーザU1のPC端末14のブラウザ20に表示させる。そして、ユーザU1が発信先の電話番号を選択または入力し、発信要求ボタンを操作すると、Click-to-Callプラグイン412は、ユーザU1の発信要求ボタンの押下に呼応して、ユーザU1により選択または入力された発信先のユーザU2のIP電話機12の電話番号と、ユーザU1のIP電話機12の電話番号を受け付ける。
 本実施例の音声認識システム1は、さらに、発信制御部500と、IP PBX510と、を含む。
 発信制御部500は、たとえば、SIPサーバを含むことができる。発信制御部500およびIP PBX510は、上記実施形態の図1の管理テーブル104、管理部106、発信部108、着信検出部110、および音声受信部112を含む構成に相当する。発信制御部500は、Click-to-Callプラグイン412が発信要求を受け付けたとき、発信元および発信先の情報を取得し、音声認識サーバ200と、IP PBX510を介して発信元のユーザU1のIP電話機12と発信先のユーザU2のIP電話機12のそれぞれに発信する。
 各ユーザのIP電話機12にて手動で着信し、各ユーザのIP電話機12と音声認識サーバ200とが接続される。そして、ユーザU1とユーザU2の間で通話が開始される。このとき、音声認識サーバ200で各ユーザのIP電話機12において、発話音声データを個別に受信して個別に認識処理し、その結果を音声認識結果記憶部220に記憶する。
 そして、各ユーザは、PC端末14のブラウザ20から、モニタ用ウェブアプリケーション410の認識結果表示プラグイン414を実行する。認識結果表示プラグイン414は、認識結果表示プラグイン414を実行したユーザの通話記録として、音声認識結果記憶部220に記憶されている認識結果のテキストデータを、配信サーバ300からそのユーザのPC端末14にネットワーク3を介して配信させる。そして、認識結果表示プラグイン414は、配信された認識結果を、認識結果表示プラグイン414を実行したユーザのPC端末14の表示部に表示させる。たとえば、PC端末14の表示部は、上記実施形態の図7に示したような各種の画面を表示することができる。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
 本発明は以下の態様も含む。
[付記1]
 互いに通話を行う複数のユーザの電話端末と、
 複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
 複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
 個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
を備える音声認識システム。
[付記2]
 付記1に記載の音声認識システムにおいて、
 前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
 前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
 前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識システム。
[付記3]
 付記2に記載の音声認識システムにおいて、
 前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
 前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する提示手段を備える音声認識システム。
[付記4]
 付記3に記載の音声認識システムにおいて、
 前記提示手段は、前記音声認識手段が出力する前記音声認識結果を前記ユーザの前記通信端末に前記ネットワークを介してリアルタイムに提示する音声認識システム。
[付記5]
 付記1乃至4いずれかに記載の音声認識システムにおいて、
 前記音声認識手段は、それぞれ識別情報を有するとともに、前記識別情報への発信要求を自動的に着信し、着信した通話の前記音声データを音声認識する複数の音声認識部を含み、
 前記通話制御手段は、
 発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求を受け付ける発信要求受付部と、
 前記発信要求受付部が前記発信要求を受け付けたとき、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識部に対して発信する発信部と、
 前記発信元の前記ユーザの前記電話端末、および前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、
 複数の前記音声認識部の中から、前記発信元および前記発信先の各ユーザの音声データを認識する前記音声認識部をそれぞれ選択し、管理する管理部と、を含み、
 前記発信要求受付部が前記発信要求を受け付けたとき、前記発信部が前記発信元の前記ユーザの前記電話端末に発信し、
 前記検出部が前記発信元の前記ユーザの前記電話端末の前記着信を検出したとき、前記発信部が前記発信先の前記ユーザの前記電話端末に発信し、
 前記検出部が前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部がそれぞれ選択した前記音声認識部の前記識別情報に基づいて、前記発信部が前記発信元および前記発信先の各ユーザの前記電話端末からの発信要求として各音声認識部に発信し、
 前記各音声認識部は、前記発信元および前記発信先の前記各ユーザの前記電話端末からの前記発信要求を自動的にそれぞれ着信し、着信した通話の前記音声データをそれぞれ音声認識する音声認識システム。
[付記6]
 互いに通話を行う複数のユーザの電話端末と、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の音声データをそれぞれ音声認識する複数の音声認識装置と、を管理する管理テーブルと、
 複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
 複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
 前記管理テーブルに基づいて個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ前記音声認識装置に音声認識させる音声認識制御手段と、
を備える音声認識装置の管理装置。
[付記7]
 付記6に記載の音声認識装置の管理装置において、
 前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
 前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
 前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識装置の管理装置。
[付記8]
 付記6または7に記載の音声認識装置の管理装置において、
 複数の前記音声認識装置は、それぞれ識別情報を有し、前記識別情報への発信要求を自動的に着信し、着信した通話の前記音声データを個別に音声認識し、
 前記通話制御手段は、
 発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求を受け付ける発信要求受付部と、
 前記発信要求受付部が前記発信要求を受け付けたとき、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識装置に対して発信する発信部と、
 前記発信元の前記ユーザの前記電話端末、および前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、
 複数の前記音声認識装置の中から、前記発信元および前記発信先の各ユーザの音声データを認識する前記音声認識装置をそれぞれ選択し、管理する管理部と、を含み、
 前記発信要求受付部が前記発信要求を受け付けたとき、前記発信部が前記発信元の前記ユーザの前記電話端末に発信し、
 前記検出部が前記発信元の前記ユーザの前記電話端末の前記着信を検出したとき、前記発信部が前記発信先の前記ユーザの前記電話端末に発信し、
 前記検出部が前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部がそれぞれ選択した前記音声認識装置の前記識別情報に基づいて、前記発信部が前記発信元および前記発信先の各ユーザの前記電話端末からの発信要求として各音声認識装置に発信し、
 前記各音声認識装置は、前記発信元および前記発信先の前記各ユーザの前記電話端末からの前記発信要求を自動的にそれぞれ着信し、着信した通話の前記音声データをそれぞれ音声認識する音声認識装置の管理装置。
[付記9]
 音声認識装置の管理方法であって、
 前記音声認識装置は、
  複数のユーザの電話端末と接続され、
  複数の前記ユーザの前記電話端末間の通話を制御し、
  複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
  個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識装置の管理方法。
[付記10]
 付記9に記載の音声認識装置の管理方法において、
 前記音声認識装置は、
  前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報と、当該ユーザの前記音声認識装置の音声認識結果を提示する通信端末とを対応付けて記憶するユーザ管理テーブルと、
  前記ユーザ毎の前記音声認識装置の前記音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶装置と、を備え、
 前記音声認識装置は、
  前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得し、
  前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する音声認識装置の管理方法。
[付記11]
 互いに通話を行う複数のユーザの電話端末と、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ音声認識する複数の音声認識装置と、を管理する管理テーブルを有する音声認識装置の管理装置を実現するためのコンピュータを、
 前記管理テーブルに基づいて個別に受信した複数の前記ユーザの前記電話端末の前記音声データをそれぞれ前記音声認識装置に音声認識させる音声認識制御手段、
 複数の前記ユーザの前記電話端末間の前記通話を制御する制御手段、として機能させるための音声認識装置の管理プログラム。
[付記12]
 付記11に記載の音声認識装置の管理プログラムにおいて、
 前記音声認識装置は、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルをさらに備え、
 前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段、
 前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段、としてコンピュータにさらに機能させるための音声認識装置の管理プログラム。
 この出願は、2009年12月17日に出願された日本出願特願2009-286778号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (16)

  1.  互いに通話を行う複数のユーザの電話端末と、
     複数の前記ユーザの前記電話端末間の前記通話を制御する通話制御手段と、
     複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する音声受信手段と、
     個別に受信した複数の前記ユーザの前記電話端末からの前記音声データをそれぞれ音声認識する音声認識手段と、
    を備える音声認識システム。
  2.  請求項1に記載の音声認識システムにおいて、
     前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
     前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
     前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて記憶する認識結果記憶手段と、をさらに備える音声認識システム。
  3.  請求項2に記載の音声認識システムにおいて、
     前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
     前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する提示手段を備える音声認識システム。
  4.  請求項3に記載の音声認識システムにおいて、
     前記提示手段は、前記音声認識手段が出力する前記音声認識結果を前記ユーザの前記通信端末に前記ネットワークを介してリアルタイムに提示する音声認識システム。
  5.  請求項1乃至4いずれかに記載の音声認識システムにおいて、
     前記音声認識手段は、複数の音声認識部を有し、
     前記通話制御手段は、
      発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求に呼応して、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識部に対して発信する発信部を含み、
      複数の前記音声認識部の中から、前記発信元および前記発信先に対応する音声認識部をそれぞれ選択し、前記発信部に、選択された前記音声認識部に対して発信させて、選択された前記音声認識部に接続し、選択された前記音声認識部に前記発信元および前記発信先の各ユーザの通話の前記音声データをそれぞれ音声認識させる管理手段をさらに備える音声認識システム。
  6.  請求項5に記載の音声認識システムにおいて、
     前記音声認識手段の複数の前記音声認識部は、該当する前記識別情報への発信を自動的に着信し、着信した通話の前記音声データを音声認識し、
     前記通話制御手段は、さらに、
     前記発信要求を受け付ける発信要求受付部と、
     前記発信要求受付部が受け付けた前記発信要求に呼応して、前記発信部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末に発信した後、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、を含み、
     前記検出部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理手段が、前記発信先の前記ユーザまたは前記発信先の前記ユーザに対応する前記音声認識部をそれぞれ選択し、
     前記発信部が、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末から選択された前記音声認識部の前記識別情報にそれぞれ発信し、
     発信された前記識別情報に対応する前記各音声認識部が、自動的にそれぞれ着信し、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の通話の前記音声データを個別にそれぞれ音声認識する音声認識システム。
  7.  互いに通話を行う複数のユーザの電話端末間の前記通話を制御する通話制御手段と、
     複数の前記ユーザ間の前記通話中に、複数の前記ユーザの前記電話端末からの前記音声データを個別に受信する音声受信手段と、
     複数の音声認識装置に接続され、複数の前記ユーザの前記電話端末から、個別に受信した複数の前記ユーザの前記電話端末の前記音声データを前記音声認識装置にそれぞれ音声認識させる音声認識制御手段と、
    を備える、音声認識装置の管理装置。
  8.  請求項7に記載の音声認識装置の管理装置において、
     前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルと、
     前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する取得手段と、
     前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶させる手段と、をさらに備える、音声認識装置の管理装置。
  9.  請求項7または8に記載の音声認識装置の管理装置において、
     前記通話制御手段は、
      発信元の前記ユーザの前記電話端末から、発信先の前記ユーザの前記電話端末への発信要求に呼応して、前記発信元の前記ユーザの前記電話端末、前記発信先の前記ユーザの前記電話端末、および前記音声認識装置に対して発信する発信部を含み、
     前記音声認識制御手段は、
      複数の前記音声認識装置の中から、前記発信元および前記発信先に予め対応する音声認識装置をそれぞれ選択し、前記発信部に、選択された前記音声認識装置に対して発信させて、選択された前記音声認識装置に接続し、選択された前記音声認識装置に前記発信元および前記発信先の各ユーザの通話の前記音声データをそれぞれ音声認識させる管理部を含む、音声認識装置の管理装置。
  10.  請求項9に記載の音声認識装置の管理装置において、
     前記通話制御手段は、さらに、
     前記発信要求を受け付ける発信要求受付部と、
     前記発信要求受付部が受け付けた前記発信要求に呼応して、前記発信部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末に発信した後、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の着信を検出する検出部と、を含み、
     前記検出部が前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の前記着信を検出したとき、前記管理部が、前記発信先の前記ユーザまたは前記発信先の前記ユーザに対応する前記音声認識装置をそれぞれ選択し、
     前記発信部が、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末から選択された前記音声認識装置の前記識別情報にそれぞれ発信し、発信された前記識別情報に対応する前記各音声認識装置に、自動的にそれぞれ着信させ、前記発信元の前記ユーザの前記電話端末または前記発信先の前記ユーザの前記電話端末の通話の前記音声データを個別にそれぞれ音声認識させる、音声認識装置の管理装置。
  11.  音声認識装置の管理方法であって、
     前記音声認識装置の前記管理装置が、
      複数のユーザの電話端末と接続され、
      複数の前記ユーザの前記電話端末間の通話を制御し、
      複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信し、
      個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる、音声認識装置の管理方法。
  12.  請求項11に記載の音声認識装置の管理方法において、
     前記音声認識装置の前記管理装置が、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルを備え、
     前記音声認識装置の前記管理装置が、
      前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得し、
      前記ユーザ毎の前記音声認識手段の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶する、音声認識装置の管理方法。
  13.  請求項12に記載の音声認識装置の管理方法において、
     前記音声認識装置の前記管理装置の前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
     前記音声認識装置の前記管理装置が、
     前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する、音声認識装置の管理装置。
  14.  複数の音声認識装置の管理装置を実現するコンピュータが実行する管理プログラムであって、
     複数の前記ユーザの前記電話端末間の前記通話を制御する手順、
     複数の前記ユーザ間の前記通話中に、複数の前記ユーザの電話端末からの音声データを個別に受信する手順、
     個別に受信した複数の前記ユーザの前記電話端末からの前記音声データを前記音声認識装置にそれぞれ音声認識させる手順、をコンピュータに実行させるための、音声認識装置の管理プログラム。
  15.  請求項14に記載の音声認識装置の管理プログラムにおいて、
     前記音声認識装置の前記管理装置が、前記ユーザ毎に、ユーザ識別情報と、前記ユーザの前記電話端末の端末識別情報を対応付けて記憶するユーザ管理テーブルを備え、
     前記ユーザ管理テーブルを参照し、前記電話端末の前記端末識別情報から前記ユーザの前記ユーザ識別情報を取得する手順、
     前記ユーザ毎の前記音声認識装置の音声認識結果を、前記ユーザの前記ユーザ識別情報に対応付けて認識結果記憶装置に記憶する手順、をコンピュータにさらに実行させるための、音声認識装置の管理プログラム。
  16.  請求項15に記載の音声認識装置の管理プログラムにおいて、
     前記音声認識装置の前記管理装置の前記ユーザ管理テーブルは、さらに、前記ユーザ毎に、当該ユーザの前記音声認識結果を提示する通信端末を対応付けて記憶し、
     前記ユーザ管理テーブルを参照し、前記ユーザの前記音声認識結果を、前記ユーザに対応付けられた前記通信端末にネットワークを介して提示する手順をコンピュータにさらに実行させるための、音声認識装置の管理プログラム。
PCT/JP2010/007296 2009-12-17 2010-12-16 音声認識システム WO2011074260A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011545985A JPWO2011074260A1 (ja) 2009-12-17 2010-12-16 音声認識システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009286778 2009-12-17
JP2009-286778 2009-12-17

Publications (1)

Publication Number Publication Date
WO2011074260A1 true WO2011074260A1 (ja) 2011-06-23

Family

ID=44167030

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/007296 WO2011074260A1 (ja) 2009-12-17 2010-12-16 音声認識システム

Country Status (2)

Country Link
JP (1) JPWO2011074260A1 (ja)
WO (1) WO2011074260A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015177411A (ja) * 2014-03-17 2015-10-05 株式会社アドバンスト・メディア 通話録音サーバ、通話データ管理システム、および通話データ管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110034A (ja) * 2003-09-30 2005-04-21 Fujitsu Fip Corp 電話応対支援システムおよび電話応対支援方法
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110034A (ja) * 2003-09-30 2005-04-21 Fujitsu Fip Corp 電話応対支援システムおよび電話応対支援方法
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015177411A (ja) * 2014-03-17 2015-10-05 株式会社アドバンスト・メディア 通話録音サーバ、通話データ管理システム、および通話データ管理方法

Also Published As

Publication number Publication date
JPWO2011074260A1 (ja) 2013-04-25

Similar Documents

Publication Publication Date Title
US8625749B2 (en) Content sensitive do-not-disturb (DND) option for a communication system
US7054819B1 (en) Voice print access to computer resources
US6724862B1 (en) Method and apparatus for customizing a device based on a frequency response for a hearing-impaired user
US20080181141A1 (en) Enhanced voicemail processing
US20040230689A1 (en) Multi-access mode electronic personal assistant
WO2005074407A2 (en) Method, system and service for achieving synchronous communication responsive to dynamic status
US20140278402A1 (en) Automatic Channel Selective Transcription Engine
US20190244613A1 (en) VoIP Cloud-Based Virtual Digital Assistant Using Voice Commands
JP5652406B2 (ja) 音声入力システムおよび音声入力プログラム
CN112887194B (zh) 实现听障人士通话的交互方法、装置、终端及存储介质
US8805330B1 (en) Audio phone number capture, conversion, and use
WO2007007090A1 (en) Apparatus and system for recording communications
JP2008276387A (ja) 制御装置、情報提供方法及び情報提供プログラム
WO2011074260A1 (ja) 音声認識システム
JP2007201906A (ja) 携帯端末装置及び画像表示方法
WO2020081614A1 (en) Systems and method for control of telephone calls over cellular networks
US20070286098A1 (en) Computerized telephony accessibility provider (CTAP) for provisioning a talking telephone device
JP5728456B2 (ja) 通信端末
CN115699719A (zh) 交流系统
JP2003069720A (ja) 通信方法および通信制御装置
US20070116222A1 (en) Method and apparatus for activity selection during on-hold
CN111246021A (zh) 用于实现对个人语音助理的远程访问的方法
US20020191587A1 (en) Communication system
RU2266624C2 (ru) Способ и устройство для обмена информацией в коммуникационной сети
KR20020036009A (ko) 통신망을 통해 음성을 송수신하는 방법 및 그 기록 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10837291

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011545985

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10837291

Country of ref document: EP

Kind code of ref document: A1