WO2013140996A1 - 情報処理システム、情報処理方法、サーバ、携帯端末およびそれらの制御方法と制御プログラム - Google Patents

情報処理システム、情報処理方法、サーバ、携帯端末およびそれらの制御方法と制御プログラム Download PDF

Info

Publication number
WO2013140996A1
WO2013140996A1 PCT/JP2013/055549 JP2013055549W WO2013140996A1 WO 2013140996 A1 WO2013140996 A1 WO 2013140996A1 JP 2013055549 W JP2013055549 W JP 2013055549W WO 2013140996 A1 WO2013140996 A1 WO 2013140996A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
processing
information
server
data
Prior art date
Application number
PCT/JP2013/055549
Other languages
English (en)
French (fr)
Inventor
小林 佳和
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2013140996A1 publication Critical patent/WO2013140996A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections

Definitions

  • the present invention relates to a voice processing technology.
  • Patent Document 1 discloses a technique of performing echo cancellation processing on voice input in a voice conference using digital PBX.
  • An object of the present invention is to provide a technique for solving the above-described problems.
  • the server provides: Receiving means for receiving voice data related to voice input to the mobile terminal and environment information related to the environment in which the voice is input; Storage means for storing a correspondence relationship between the environmental information and the audio data processing method; Determining means for determining the processing method to be performed on the audio data with reference to the storage means; Voice processing means for applying voice processing to the voice data received by the receiving means based on the determined processing method; Processing result transmission means for transmitting the result of the voice processing by the voice processing means to an information output device; Is provided.
  • the method according to the present invention comprises: A portable terminal comprising: voice input means for inputting voice to generate voice data; voice transmission means for sending the voice data; and environment information sending means for sending environment information relating to the environment in which the voice is inputted; A control method of a connectable server, Receiving the audio data and the environment information from the mobile terminal; A determination step of determining the processing method to be performed on the audio data with reference to the correspondence between the stored environment information and the processing method of the audio data; An audio processing step of applying audio processing to the audio data received in the receiving step based on the determined processing method; A processing result transmission step of transmitting the result of the voice processing by the voice processing step to an information output device; Is provided.
  • a program provides: A portable terminal comprising: voice input means for inputting voice and generating voice data; voice transmission means for sending the voice data; and environment information sending means for sending environment information about the environment in which the voice is inputted; A control program for connectable servers, Receiving the audio data and the environment information from the mobile terminal; A determination step of determining the processing method to be performed on the audio data with reference to the correspondence between the stored environment information and the processing method of the audio data; An audio processing step of applying audio processing to the audio data received in the receiving step based on the determined processing method; A processing result transmission step of transmitting the result of the voice processing by the voice processing step to an information output device; Is executed on the computer.
  • a system provides: An information processing system including a mobile terminal, an information output device, and a server,
  • the portable terminal is Voice input means for inputting voice and generating voice data; Voice transmitting means for transmitting the voice data to the server; Environmental information transmission means for transmitting environmental information related to the environment in which the voice is input to the server; With The server Receiving means for receiving the audio data and the environment information from the portable terminal; Storage means for storing a correspondence relationship between the environmental information and the processing method of the audio data; Determining means for determining the processing method to be performed on the audio data with reference to the storage means; Audio processing means for performing audio processing on the audio data received by the receiving means based on the determined processing method; Processing result transmission means for transmitting the result of the voice processing by the voice processing means to the information output device; With The information output device includes output means for outputting a result of the voice processing received from the server.
  • the method according to the present invention comprises: An information processing method using a portable terminal, an information output device, and a server, A voice input step in which the portable terminal inputs voice and generates voice data; An audio transmission step in which the portable terminal transmits the audio data to the server; An environment information transmitting step in which the mobile terminal transmits environment information related to an environment in which the voice is input to the server; A receiving step in which the server receives the audio data and the environment information from the mobile terminal; A determination step in which the server determines the processing method to be performed on the audio data with reference to storage means that stores the correspondence between the environment information and the audio data processing method; An audio processing step in which the server performs audio processing on the audio data received by the receiving unit based on the determined processing method; A processing result transmission step in which the server transmits a result of the voice processing to the information output device; An output step in which the information output device outputs a result of the voice processing received from the server; including.
  • a mobile terminal provides: Receiving means for receiving voice data related to the voice input to the mobile terminal and environment information related to the environment where the voice is input; storage means for storing the correspondence between the environment information and a processing method of the voice data; Referring to the storage means, a decision means for deciding the processing method to be performed on the voice data, and a voice for performing voice processing on the voice data received by the reception means based on the decided processing method
  • a portable terminal connectable to a server comprising: processing means; and processing result transmission means for transmitting the result of the voice processing by the voice processing means to an information output device, Voice input means for inputting voice and generating voice data; Voice transmitting means for transmitting the voice data to the server; Environmental information transmission means for transmitting environmental information related to the environment in which the voice is input to the server; Is provided.
  • the method according to the present invention comprises: Receiving means for receiving voice data related to the voice input to the mobile terminal and environment information related to the environment where the voice is input; storage means for storing the correspondence between the environment information and a processing method of the voice data; Referring to the storage means, a decision means for deciding the processing method to be performed on the voice data, and a voice for performing voice processing on the voice data received by the reception means based on the decided processing method
  • a method for controlling a portable terminal connectable to a server comprising: processing means; and processing result transmission means for transmitting the result of the voice processing by the voice processing means to an information output device, A voice input step for generating voice data by inputting voice; An audio transmission step of transmitting the audio data to the server; Environmental information transmission step of transmitting environmental information related to the environment in which the voice is input to the server; including.
  • a program provides: Receiving means for receiving voice data related to the voice input to the mobile terminal and environment information related to the environment where the voice is input; storage means for storing the correspondence between the environment information and a processing method of the voice data; Referring to the storage means, a decision means for deciding the processing method to be performed on the voice data, and a voice for performing voice processing on the voice data received by the reception means based on the decided processing method
  • a control program for a portable terminal connectable to a server comprising: processing means; and processing result transmission means for transmitting the result of the voice processing by the voice processing means to an information output device, A voice input step for generating voice data by inputting voice; An audio transmission step of transmitting the audio data to the server; Environmental information transmission step of transmitting environmental information related to the environment in which the voice is input to the server; Is executed on the computer.
  • the present invention it is possible to perform speech processing adapted to the environment at the time of speech input, using information obtained by accumulating speech processing under different environments in the past.
  • the table of the noise cancellation method of the server in 2nd Embodiment of this invention is shown.
  • the table of the noise cancellation method of the server in 2nd Embodiment of this invention is shown.
  • the table of the noise cancellation method of the server in 2nd Embodiment of this invention is shown.
  • the table of the noise cancellation method of the server in 2nd Embodiment of this invention is shown.
  • a server 110 according to the first embodiment of the present invention will be described with reference to FIG.
  • the server 110 is a system that performs voice processing based on the history of environmental information stored in the server and outputs it from the information output device.
  • the server 110 is communicably connected to the mobile terminal 120 and the information output device 130.
  • the server 110 includes a reception unit 111, a storage unit 112, a determination unit 113, a voice processing unit 114, and a processing result transmission unit 115.
  • the receiving unit 111 receives sound data related to sound input to the mobile terminal 120 and environment information related to an environment where sound is input.
  • the accumulation unit 112 accumulates the correspondence between the environment information and the audio data processing method.
  • the determination unit 113 refers to the storage unit 112 and determines a processing method to be performed on the audio data.
  • the audio processing unit 114 adds audio processing to the audio data received by the receiving unit 111 based on the determined processing method.
  • the processing result transmission unit 115 transmits the result of the audio processing by the audio processing unit 114 to the information output device 130.
  • the server according to the present embodiment can perform voice processing adapted to the environment at the time of voice input, using information obtained by accumulating voice processing under different environments in the past.
  • FIG. 2 is a diagram for explaining an overview of the information processing system 200 according to the present embodiment.
  • a telephone conference is assumed as an example of use of the information processing system 200, but the present invention can also be used in lectures, interviews, voice chats, voice broadcasts, voice broadcasts, and the like.
  • a smartphone 210 as a mobile phone is connected to the cloud server 220 of the data center via the Internet.
  • the smartphone 210 receives the voice uttered by the user together with the background sound (noise), and further receives the current location, situation, date and time, weather, and the like as environmental information around the user.
  • the cloud server 220 accumulates the correspondence between this environment information and the noise canceling processing method applied to the audio data obtained in this environment. Then, the cloud server 220 compares the environmental information accumulated in the database with the environmental information of the audio data 250 acquired from the smartphone 210, selects the optimum processing method, and adjusts the audio quality (sound quality). Generate data.
  • the cloud server 220 transmits the processed voice data (processing result) 251 to the smartphone 230 serving as an information output device.
  • the smartphone 230 outputs the voice acquired from the cloud server 220.
  • noise canceling method for example, in the case of a method of superimposing an antiphase signal on a certain noise, there is a method of selecting an antiphase signal type according to environmental information, but is not limited thereto. Instead, other noise canceling methods may be used.
  • the cloud server 220 stores, as knowledge, patterns that can easily realize a video conference based on terminal types, location information and the number of connection destinations, applications used, and connection destination devices in past conferences. By using this accumulated knowledge, we propose the optimal setting for the environment of the video conference to be held from now.
  • the adjustment method is stored in the cloud server 220.
  • This adjustment result may be accumulated as a processing method associated with the environment information of the smartphone 230, or may be accumulated as a processing method associated with the user who performed this adjustment.
  • the satisfaction level of the conference participant may be input from the smartphone 230, and the satisfaction level may be stored in the cloud server 220 as a voice improvement knowledge to be used as a reference for the next setting candidate menu presentation.
  • the cloud server 220 may analyze the content during conversation, chat, environmental noise, intelligibility, etc., and automatically identify portions with poor voice quality and perform voice processing.
  • the voice quality may be determined using, for example, an average one-way delay time or a talker echo TELR (Talker echo loudness rating [dB]). Or you may show a user the setting menu plan estimated that audio
  • FIG. 1 An average one-way delay time or a talker echo TELR (Talker echo loudness rating [dB]). Or you may show a user the setting menu plan estimated that audio
  • FIG. 3 is a sequence diagram showing the flow of procedure processing in the entire information processing system 200.
  • step S301 the smartphone 210 generates voice data from the input voice.
  • step S303 the smartphone 210 transmits audio data.
  • step S ⁇ b> 305 the smartphone 210 transmits the environment information acquired together with the audio data to the cloud server 220.
  • step S307 the cloud server 220 receives voice data and environment information.
  • step S309 the cloud server 220 selects and determines an optimum processing method to be applied to the voice data input under the acquired environment information from the processing methods stored in the database.
  • step S311 the cloud server 220 performs noise canceling on the audio data based on the determined processing method.
  • step S313 the cloud server 220 transmits the processed voice data to the smartphone 230.
  • step S315 the smartphone 230 outputs the acquired voice.
  • step S317 the smartphone 230 evaluates the processing result of the voice acquired from the server.
  • step S319 the smartphone 230 transmits the evaluation result for the voice processing result to the cloud server 220.
  • step S ⁇ b> 321 the cloud server 220 updates the correspondence relationship between the environmental information accumulated in the database and the audio data processing method based on the evaluation result acquired from the smartphone 230.
  • FIG. 4 is a block diagram illustrating a functional configuration of the information processing system 200.
  • the smartphone 210 includes a microphone 411, a speaker 412, an environment determination unit 413, a sound quality adjustment unit 414, an audio transmission unit 415, and an audio reception unit 416.
  • the smartphone 210 further includes an environment information transmission unit 417, an evaluation unit 418, and an evaluation result transmission unit 419.
  • the smartphone 230 has a microphone 431, a speaker 432, an environment determination unit 433, a sound quality adjustment unit 434, an audio transmission unit 435, an audio reception unit 436, an environment information transmission unit 437, an evaluation unit 438, and an evaluation result.
  • the smartphones 210 and 230 have a camera, a display, an external I / F, and the like (not shown).
  • the cloud server 220 includes a reception unit 221, a storage unit 222, a determination unit 223, an audio processing unit 224, and a processing result transmission unit 225.
  • the microphones 411 and 431 of the smartphones 210 and 230 input voices uttered by users and other speakers.
  • the microphones 411 and 431 separate the input sound mixed with the background sound into the background sound and the sound using a sound processing method such as blind sound source separation or independent component analysis, and generate the sound as sound data.
  • the environment determination units 413 and 433 determine the environment of the speaker based on the background sound of the voice input location, the position information of the smartphone 210 acquired using a wide-area positioning function (not shown), and information input by the user. To generate environment information.
  • the environment information transmission units 417 and 437 transmit the environment information generated by the environment determination units 413 and 433 to the cloud server 220.
  • the voice transmission units 415 and 435 transmit the input voice data to the cloud server 220.
  • the cloud server 220 receives the environment information transmitted from the environment information transmitting units 417 and 437 and the sound data transmitted from the sound transmitting units 415 and 435 in the receiving unit 221.
  • the storage unit 222 stores environment information and a sound processing method in association with each other in advance.
  • the determination unit 223 compares the received environment information with the environment information stored in the storage unit 222 and selects the same environment or a similar environment in order to remove noise from the received audio data.
  • the environment level is determined by quantifying and summing up various parameters (time, position, etc.) included in the environment information, and those that approximate the environment level are evaluated as “similar environments”. Further, the determination unit 223 determines a noise canceling method for the audio data accumulated in association with the selected specific environment information as a method for processing the received audio data. The sound processing unit 224 applies the noise canceling method determined by the determination unit 223 to the sound data, and generates sound data suitable for the environment information. The processing result transmission unit 225 transmits the audio data generated by applying the noise canceling method to the smartphones 210 and 230.
  • the smartphones 210 and 230 receive the audio data transmitted from the cloud server 220 at the audio reception units 416 and 436.
  • the speakers 412 and 432 output audio corresponding to the noise-cancelled audio data.
  • Sound quality adjustment units 414 and 434 are used to adjust the sound quality output from the speakers 412 and 432. That is, the sound quality adjustment unit 434 can regenerate the sound most suitable for the current environment information by readjusting the volume, texture, and sound range.
  • the audio transmission units 415 and 435 transmit the adjustment method by the sound quality adjustment units 414 and 434 to the cloud server 220.
  • Evaluation units 418 and 438 evaluate the processing result (sound quality) by noise canceling applied in the cloud server 220. Then, the evaluation result transmission units 419 and 439 transmit the sound quality evaluation result to the cloud server 220.
  • the reception unit 221 of the cloud server 220 When the reception unit 221 of the cloud server 220 receives the audio data and environment information transmitted from the smartphone 230, the reception unit 221 associates the adjustment method of the audio data adjusted by the sound quality adjustment unit 434 with the transmitted environment information. Accumulate in the accumulation unit 222. Further, the noise canceling method applied to the sound data is stored in the storage unit 222 in association with the environment data based on the evaluation result and the sound quality adjustment method transmitted from the smartphone 230. That is, the cloud server 220 accumulates the sound quality adjustment method and the evaluation result obtained from the smartphones 210 and 230 and reflects them in subsequent audio processing decisions.
  • a noise canceling method suitable for environmental information is accumulated in the cloud server 220, and further updated in association with the evaluation result from the user, etc., so that many audio data processed by noise canceling can be processed.
  • anyone can always use the optimal noise canceling method reflecting the user's evaluation.
  • FIGS. 5A to 5C show three tables 500, 520, and 540 as examples of storage means for determining a noise canceling method according to environmental conditions.
  • the table 500 is a table in which the place 501, the background sound 510, and the sound processing are associated with each other.
  • the conference room 502, the hall 503, and the outdoor 504 are prepared as the location 501 where the audio data is input to the smartphone 210, but the present invention is not limited thereto.
  • audio processing to be performed may be subdivided according to conditions such as the size of the room and the number of people accommodated.
  • the hall 503 may also be subdivided according to conditions such as the hall size (521), the number of seats, the number of floors, and the height of the ceiling.
  • the outdoor 504 may also be subdivided according to conditions such as stations, (electric) cars, along main roads, residential areas, factory zones, construction sites, farms, and the sea.
  • the storage unit 222 can store the correspondence between the environment and the noise canceling method by subdividing the conditions of the place 501 in this way.
  • the background sound 510 represents the size of the background sound input to the smartphone 210 in five levels of extra large, large, medium, small, and minimal, but is not limited thereto.
  • the determination unit 223 is stored as a noise canceling method to be applied in this environment. Process A is applied to the received audio data. Further, when the place where the sound data is input is the hall 503 and the background sound 510 is “high”, the determination unit 223 applies the process E as the noise canceling method to the received sound data.
  • the storage unit 222 stores, in the storage unit 222, the correspondence between the location 501 and the background sound 510 as environment information and the noise canceling method to be applied to the audio data.
  • the determination part 223 can select and determine the optimal noise canceling method which should be applied with respect to the environmental information and audio
  • the table 520 in FIG. 5B is a table for determining audio processing to be performed according to the hall size 521 and the input terminal type 522. It is assumed that the hall size 521 is registered in advance in association with the position information.
  • the determination unit 223 determines the noise canceling method to be applied in this environment. The process ⁇ stored as a pattern is applied to the received audio data.
  • the determination unit 223 is a noise canceling method to be applied in this environment. The process ⁇ stored as the pattern is applied to the received audio data.
  • the storage unit 222 stores the correspondence between the noise canceling pattern applied to the audio data, the hole size 521 as the environment information, and the input terminal type 522.
  • the determination unit 223 can select and determine the optimum noise canceling method pattern to be applied to the received environment information and audio data of the smartphone 210.
  • the table 540 will be described with reference to FIG. 5C.
  • the table 540 is a table that accumulates the correspondence between the background sound type 541 and the noise canceling method 542.
  • Background sound types 541 are divided into vehicle running sounds, emergency vehicles, railway passing sounds, railroad crossings, construction sites, coffee shops,... N, and these sounds (background sounds) are patterned as environmental noises. These background sounds may be further subdivided and patterned according to the weather, time, and the like.
  • the background sound type 541 is registered in advance in association with the position information. The selection of whether or not these sounds are in the same environment is selectively determined according to the pitch, loudness, and frequency of the sounds, for example.
  • the processing method 542 is processing 1, processing 2,... Processing n.
  • the determination unit 223 applies the processing 1 as the noise canceling method 542 to be applied in this environment when the background sound type 541 to which the audio data is input is “vehicle running sound”.
  • the processing method 3 is applied as the processing method 542 in which the background sound type 541 is “railway passing sound”.
  • the storage unit 222 stores the environment in which the audio data is input in this way and the noise canceling method to be applied in this environment in association with each other. Then, the determination unit 223 can select and determine the noise canceling method 542 to be applied to the received environment information and audio data of the smartphone 210 from the noise canceling method stored in the storage unit 222. .
  • evaluations on the sensitivity of audio are obtained from the invited side and the invited side among the participants in the conference, and stored in the storage unit 222 as knowledge.
  • the cloud server 220 may request information such as “Please ask again.” Or “I can't hear the sound.
  • Environmental information and position information are acquired and stored in the storage unit 222 as knowledge.
  • the cloud server 220 stores the audio data processing method in the storage unit 222 in association with the environment information.
  • FIG. 5A-5C Although the example of environment information and the derivation
  • environmental information in addition to those listed above, a smartphone user (such as a speaker), time, season, and weather may be used. Such information may be input in advance by the user, or may be acquired by accessing a specific server.
  • a voice processing method may be accumulated for each user, and a voice processing method optimal for the user's voice quality may be determined.
  • the height of the output sound according to the age of the user acquired from the user database is accumulated, for example, the higher the age, the more difficult it is to hear high frequency sound, so the output sound is lowered, etc.
  • the audio processing unit 224 of the cloud server 220 has different audio for the audio data input from the smartphone 210 and the audio data input from the smartphone 230. Processing will be performed.
  • the server 220 includes a CPU (Central Processing Unit) 610, a ROM (Read Only Memory) 620, a communication control unit 630, a RAM (Random Access Memory) 640, and a storage 650.
  • the CPU 610 is a central processing unit, and controls the entire server 220 by executing various programs.
  • the ROM 620 is a read-only memory and stores various parameters and the like in addition to the boot program that the CPU 610 should execute first.
  • the RAM 640 is a random access memory and temporarily stores various data. Received audio data 641, environment data 642, and transmitted audio 644 are stored as various data.
  • the storage 650 stores a database 651 and a program 652.
  • the database 651 includes a table 500 shown in FIG.
  • the program 652 includes a selection module 653, an audio processing module 654, an audio quality determination module 655, and a noise determination module 656. Furthermore, the communication control unit 630 controls communication with the smartphone 210 and the smartphone 230 via the network.
  • the received voice data 641 is the voice or background sound of the speaker input from the microphone 411 of the smartphone 210.
  • the environmental data 642 is environmental information around the smartphone 210 transmitted from the environmental information transmission unit 417. Specifically, the location 501 (conference room 502, hall 503, outdoor 504) in FIG. 5A, the hall size 521 in FIG. 5B, and the background sound type 541 in FIG. 5C (vehicle running sound, emergency vehicle, Railway passing sounds, railroad crossings, construction sites, etc.).
  • the transmission sound 644 is sound data including a background sound generated by the microphone 411.
  • the selection module 653 selects and determines an optimal processing method as a noise canceling method for the audio data stored in the storage unit 222. Then, the voice processing module 654 executes the noise canceling method determined as the optimum processing method.
  • the voice quality determination module 655 determines whether the voice quality of the voice data received by the receiving unit 221 is equal to or higher than a certain threshold value.
  • the noise determination module 656 determines noise included in the audio data received by the receiving unit 221. Note that noise is unnecessary sound and information other than the voice of the speaker in the conference and the information accompanying it.
  • FIG. 7 is a flowchart showing the flow of procedures of the cloud server 220.
  • the smartphone 210 by starting an application such as a video conference or voice recording in the cloud server 220, the flow in FIG. 7 is started.
  • the smartphone 210 transmits audio data to the application operating on the cloud server 220.
  • step S701 the receiving unit 221 receives input of audio data.
  • step S703 a sound quality determination unit (not shown) determines the sound quality of the received audio data. Specifically, the voice part is analyzed for the content in conversation, chat, environmental noise, clarity, etc., and the part with poor voice quality is automatically identified.
  • step S705 if the sound quality is equal to or higher than the predetermined sound quality, the sound quality determination unit proceeds to step S715.
  • the process proceeds to step S707, and the reception unit 221 acquires the environment information transmitted from the environment information transmission unit 213 of the smartphone 210. That is, a setting value suitable for the current situation is used from the past history.
  • a connection method may be proposed by displaying “sound quality is degraded. Do you want to use past success history setting values?” On the smartphone 210.
  • the cloud server 220 may notify not only a connection method on the screen of the smart phone 210 but also a user using the vibration (vibration) function of the smart phone 210. .
  • the cloud server 220 not only transmits a proposal notification by letters or vibrations for improving sound quality to the smartphone 230 used for voice input or voice output, but also participates in a conference that has been sent to the cloud server in advance. You may perform with respect to mobile telephones, such as a smart phone of another participant based on person information. Thereby, even in a situation where the user of the smartphone 230 cannot cope with the notification notification of improvement in sound quality, it is possible to improve the sound quality of the conference via other participants.
  • step S709 the voice processing unit 224 selects a noise canceling method to be applied to the received environment information based on the correspondence between the environment information stored in the storage unit 222 and the noise canceling method.
  • step S711 the audio processing unit 224 determines to apply the selected noise canceling method to the received audio data.
  • step S713 the sound processing unit 224 generates sound data with improved sound quality by applying the determined noise canceling method to the received sound data.
  • step S715 the processing result transmission unit 225 transmits the audio data to the smartphone 230.
  • step S ⁇ b> 717 the reception unit 221 receives the evaluation result for the audio data transmitted from the smartphone 230.
  • step S719 the storage unit 222 updates and stores the correspondence relationship between the environment information and the audio data processing method based on the received evaluation result.
  • the information processing system in the present embodiment determines the voice processing method using the stored information of the server, so that the voice processing suitable for the environment can be performed using the stored information.
  • it is not necessary to carry out learning such as echo cancellation by bringing dedicated hardware into the audio conference, and performing echo reduction. It can fundamentally solve the problem that it is difficult to continue the conference due to howling.
  • a mobile phone such as a smartphone as the relay device as in the present embodiment, participation in the conference can be facilitated with a single smartphone, and the capital investment can be made very small.
  • FIG. 8 is a block diagram for explaining the configuration of the information processing system 800 according to this embodiment.
  • the information processing system 800 according to the present embodiment includes the receiving unit 815 or 835 in the smartphones 810 and 830, and the information processing system 800 includes the external I / F 834 (USB ( The difference is that the display 850 is connected to a universal serial bus (HDMI), a high-definition multimedia interface (HDMI), a local area network (LAN), or the like. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • HDMI universal serial bus
  • HDMI high-definition multimedia interface
  • LAN local area network
  • the information processing system 800 it is possible to generate text data obtained by converting voice data received from the smartphone 810 into text using the cloud server 820 in real time. This makes it possible to display text data on the display or display of a smartphone, and when audio data cannot be heard, to people who are hard of hearing, to participate in conference calls, or to join conference rooms Persons can also share information.
  • the cloud server 820 may provide a clear voice by text-synthesizing the voice and the syllable chart of the speaker in real time after converting the text into a voice vowel and consonant analysis. Since the cloud server 820 has sufficient computing power, the highest level of voice processing may be performed according to the service level. For example, echo cancellation for several seconds or tens of seconds that cannot be carried by a mobile phone, background sound cancellation and voice shaping in units of several microseconds may be simultaneously provided. A sound without echo may be synthesized and distributed in synchronism with the voice of the conversation person.
  • echo canceling for a long time may be executed using the powerful processing performance of the cloud server 820. Then, since it is not necessary to consider far-end echoes, the state may be used as a conference sound for mixing. According to the service level of the contractor, the number of mixing, such as dozens of people, can be provided that is impossible with the CPU of a mobile phone or tablet.
  • the text generation unit 826 of the cloud server 820 generates text data in real time from the voice data received by the reception unit 221.
  • the text generation unit 826 may automatically select and translate a language (English, Chinese, etc.) according to the latitude and longitude. .
  • the language used by the user and the language of the text data may be displayed so as to be selectable, or both may be displayed.
  • the processing result transmission unit 825 transmits the text data to the smartphone 830.
  • the receiving unit 835 of the smartphone 830 displays the received text data on a display unit (not shown). Further, the processing result transmission unit 825 transmits text data to the display 850.
  • the display 850 displays the text data transmitted to the display unit 851.
  • the voice processing unit 224 searches the speaker database (not shown) stored in the storage unit 222 for the same voice print by analyzing the voice data received by the receiving unit 221, and the same. When the voiceprint is detected, the speaker is specified. Then, the voice processing unit 224 can display the utterance by the specified speaker in the text data generated from the received voice data.
  • the voice processing unit 224 can generate text data from voice data received from the smartphone 810, and can generate synthesized voice data by synthesizing voice based on the text data. Further, the voice processing unit 224 may generate voice data by synthesizing the generated text data in real time according to the selection by the user.
  • FIG. 9 is a flowchart showing the flow of text data generation processing in the cloud server 820.
  • step S901 the voice processing unit 224 checks whether a request for text data has been received from the smartphone 810 or 830. If no text data request has been received, the process ends. On the other hand, if a request for text data is received, the process proceeds to step S903, where the speech processing unit 224 selects a language for text conversion from position information of the smartphone 810 or 830. In step S905, the voice processing unit 224 generates text data.
  • a microphone provided in a smartphone is not limited to a monaural microphone, and may be a stereo microphone.
  • the smartphone has a noise source determination unit that determines a noise source that exists in the vicinity of its own device, and transmits the position of the noise source to the cloud server when the noise source is determined. Based on the positional relationship between the received noise source and the smartphone and the past accumulated information accumulated in the accumulation unit, the cloud server deletes only the noise (noise) in the phase direction that is optimal for the use environment of the smartphone.
  • the cloud server determines that the microphone sensitivity of the smartphone is high. In this case, an instruction to lower the microphone sensitivity is transmitted from the processing result transmission unit of the cloud server to the smartphone. Then, when detecting that the microphone sensitivity is lowered in the smartphone, the cloud server increases the microphone sensitivity to a range where no howling occurs based on the past environmental information accumulated in the accumulation unit. As a result, the cloud server optimizes the sound quality so that there is no howling in the environment where the conference is held and a clear sound quality is obtained, and the cloud server computation and the smartphone I / O control are performed. Interlock.
  • the cloud server when a conference is opened by connecting a USB microphone to a USB port of a smartphone, the cloud server stores a USB microphone connected to the smartphone and environment information using the USB microphone. Further, the cloud server accumulates the evaluation of the sound quality in the conference obtained from the conference user using the USB microphone in association with the environmental information. For example, after the conference is over, if the user conducts a questionnaire about the sound quality in the conference and receives an evaluation of the sound quality (output voice), the cloud server stores the evaluation and the conference environment information in association with each other Store it in the department and reflect it in the next meeting.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where an information processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed on the computer, a medium storing the program, and a WWW (World Wide Web) server that downloads the program are also included in the scope of the present invention. .
  • WWW World Wide Web

Abstract

 本発明は、蓄積した情報を用いて、環境に適した音声処理を適用する、携帯端末と情報出力装置とサーバとを含む情報処理システムに関するものである。情報処理システムは、携帯端末は、音声を入力して音声データを生成する音声入力部と、音声データをサーバに送信する音声送信部と、音声を入力した環境に関する環境情報をサーバに送信する環境情報送信部とを備え、サーバは、携帯端末から音声データと環境情報とを受信する受信部と、環境情報と音声データの処理方法との対応関係を蓄積する蓄積部と、蓄積部を参照して音声データに対して施すべき処理方法を決定する決定部と、決定された処理方法に基づき受信部で受信した音声データに音声処理を施す音声処理部と、音声処理部による音声処理の結果を情報出力装置に送信する処理結果送信部とを備え、情報出力装置は、サーバから受信した音声処理の結果を出力する出力部を備える。

Description

情報処理システム、情報処理方法、サーバ、携帯端末およびそれらの制御方法と制御プログラム
 本発明は、音声処理技術に関する。
 上記技術分野において、特許文献1には、デジタルPBXで、音声会議で入力された音声に対してエコーキャンセル処理を施す技術が開示されている。
特開2000-082979号公報
 しかしながら、上記文献に記載の技術は、単に音声会議で入力された音声を使ったエコーキャンセル処理を電話機以外の部分で実現するものであって、過去の異なる環境下での音声処理を蓄積した情報に基づいて、音声入力時の環境に応じた適切な音声処理を行なうことはできなかった。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係るサーバは、
 携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、
 前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、
 前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
 決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、
 前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、
 を備える。
 上記目的を達成するため、本発明に係る方法は、
 音声を入力して音声データを生成する音声入力手段と、前記音声データを送信する音声送信手段と、前記音声を入力した環境に関する環境情報を送信する環境情報送信手段と、を備えた携帯端末と接続可能なサーバの制御方法であって、
  前記携帯端末から前記音声データと前記環境情報とを受信する受信ステップと、
  蓄積した前記環境情報と音声データの処理方法との対応付けを参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
  決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
  前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
 を備える。
 上記目的を達成するため、本発明に係るプログラムは、
 音声を入力して音声データを生成する音声入力手段と、前記音声データを送信する音声送信手段と、前記音声を入力した環境に関する環境情報を送信する環境情報送信手段と、を備えた携帯端末と接続可能なサーバの制御プログラムであって、
  前記携帯端末から前記音声データと前記環境情報とを受信する受信ステップと、
  蓄積した前記環境情報と音声データの処理方法との対応付けを参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
  決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
  前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
 をコンピュータに実行させる。
 上記目的を達成するため、本発明に係るシステムは、
 携帯端末と情報出力装置とサーバとを含む情報処理システムであって、
 前記携帯端末は、
 音声を入力して音声データを生成する音声入力手段と、
 前記音声データを前記サーバに送信する音声送信手段と、
 前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信手段と、
 を備え、
 前記サーバは、
 前記携帯端末から前記音声データと前記環境情報とを受信する受信手段と、
 前記環境情報と前記音声データの処理方法との対応関係を蓄積する蓄積手段と、
 前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
 決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理手段と、
 前記音声処理手段による前記音声処理の結果を前記情報出力装置に送信する処理結果送信手段と、
 を備え、
 前記情報出力装置は、前記サーバから受信した前記音声処理の結果を出力する出力手段を備える。
 上記目的を達成するため、本発明に係る方法は、
 携帯端末と情報出力装置とサーバとを用いた情報処理方法であって、
 前記携帯端末が、音声を入力して音声データを生成する音声入力ステップと、
 前記携帯端末が、前記音声データを前記サーバに送信する音声送信ステップと、
 前記携帯端末が、前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
 前記サーバが、前記携帯端末から前記音声データと前記環境情報とを受信する受信ステップと、
 前記サーバが、前記環境情報と前記音声データの処理方法との対応関係を蓄積した蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
 前記サーバが、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理ステップと、
 前記サーバが、前記音声処理の結果を前記情報出力装置に送信する処理結果送信ステップと、
 前記情報出力装置が、前記サーバから受信した前記音声処理の結果を出力する出力ステップと、
 を含む。
 上記目的を達成するため、本発明に係る携帯端末は、
 携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、を備えたサーバと接続可能な携帯端末であって、
 音声を入力して音声データを生成する音声入力手段と、
 前記音声データを前記サーバに送信する音声送信手段と、
 前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信手段と、
 を備える。
 上記目的を達成するため、本発明に係る方法は、
 携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、を備えたサーバと接続可能な携帯端末の制御方法であって、
 音声を入力して音声データを生成する音声入力ステップと、
 前記音声データを前記サーバに送信する音声送信ステップと、
 前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
 を含む。
 上記目的を達成するため、本発明に係るプログラムは、
 携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、を備えたサーバと接続可能な携帯端末の制御プログラムであって、
 音声を入力して音声データを生成する音声入力ステップと、
 前記音声データを前記サーバに送信する音声送信ステップと、
 前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
 をコンピュータに実行させる。
 本発明によれば、過去の異なる環境下での音声処理を蓄積した情報を用いて、音声入力時の環境に適応した音声処理を施すことができる。
本発明の第1実施形態に係るサーバの構成を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの概要を示すブロック図である。 本発明の第2実施形態に係る情報処理システムの手続きの処理の流れを示すシーケンス図である。 本発明の第2実施形態に係る情報処理システムの構成を示すブロック図である。 本発明の第2実施形態におけるサーバのノイズキャンセリング方法のテーブルを示す。 本発明の第2実施形態におけるサーバのノイズキャンセリング方法のテーブルを示す。 本発明の第2実施形態におけるサーバのノイズキャンセリング方法のテーブルを示す。 本発明の第2実施形態におけるサーバのハードウェア構成を示す図である。 本発明の第2実施形態におけるサーバの手続きの処理の流れを示すフローチャートである。 本発明の第3実施形態に係る情報処理システムの構成を示すブロック図である 本発明の第3実施形態におけるサーバのテキストデータ生成処理の流れを示すフローチャートである。
 以下に、本発明を実施するための形態について、図面を参照して、例示的に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、その変形や変更は自由であって、本発明の技術範囲を以下の記載に限定する趣旨のものではない。
 [第1実施形態]
 本発明の第1実施形態としてのサーバ110について、図1を用いて説明する。サーバ110は、携帯端末で入力した音声データを、サーバに蓄積された環境情報の履歴に基づいて音声処理を行なって情報出力装置から出力するシステムである。
 図1に示すように、サーバ110は、携帯端末120と、情報出力装置130と通信可能に接続されている。
 サーバ110は、受信部111と、蓄積部112と、決定部113と、音声処理部114と、処理結果送信部115とを備える。受信部111は、携帯端末120に入力された音声に関する音声データと音声を入力された環境に関する環境情報とを受信する。蓄積部112は、環境情報と音声データの処理方法との対応関係を蓄積する。決定部113は、蓄積部112を参照して、音声データに対して施すべき処理方法を決定する。音声処理部114は、決定された処理方法に基づいて、受信部111で受信した音声データに音声処理を加える。処理結果送信部115は、音声処理部114による音声処理の結果を情報出力装置130に送信する。
 以上の構成および動作により、本実施形態に係るサーバによれば、過去の異なる環境下での音声処理を蓄積した情報を用いて、音声入力時の環境に適応した音声処理を施すことができる。
 [第2実施形態]
 次に本発明の第2実施形態に係る情報処理システム200について、図2を用いて説明する。図2は、本実施形態に係る情報処理システム200の概要を説明するための図である。なお、本実施形態においては、情報処理システム200の利用例として電話会議を想定するが、本発明は、講演会、インタビュー、音声チャット、音声同報、音声放送などにおいても利用可能である。図2において、携帯電話としてのスマートフォン210はインターネット経由で、データセンタのクラウドサーバ220に接続している。
 スマートフォン210は、ユーザが発した音声を背景の音(ノイズ)と共に受け付け、さらにユーザの周囲の環境情報として現在位置や状況、日時、天候などを受け付ける。クラウドサーバ220は、この環境情報と、この環境下で得られた音声データに施したノイズキャンセリングの処理方法の対応関係を蓄積する。そして、クラウドサーバ220は、データベースに蓄積された環境情報と、スマートフォン210から取得した音声データ250の環境情報とを対比し、最適な処理方法を選択して音声の品質(音質)を調整した音声データを生成する。クラウドサーバ220は、処理を施した音声データ(処理結果)251を、情報出力装置としてのスマートフォン230に送信する。スマートフォン230は、クラウドサーバ220から取得した音声を出力する。なお、ノイズキャンセリング方法としては、例えば、あるノイズに対して逆位相の信号を重ね合わせる方法の場合、逆位相の信号の種類を環境情報に合わせて選択する方法があるが、これに限られるものではなく、他のノイズキャンセリング方法を用いてもよい。
 クラウドサーバ220は、過去に開催した会議で、端末種別、位置情報と接続先の個数、利用アプリケーション、接続先装置をもとにテレビ会議が快適に実現できるパターンをナレッジとして蓄えている。この蓄積したナレッジを利用することにより、今から実施するテレビ会議の環境に最適な設定を提案する。
 ここで、情報出力装置としてのスマートフォン230から出力された音声に対してスマートフォン230の画面に表示した音声調節機能を利用して調整を施した場合には、その調整方法をクラウドサーバ220に蓄積する。この調整結果は、スマートフォン230の環境情報と紐付けられた処理方法として蓄積されてもよいし、この調整を行なったユーザに紐付けられた処理方法として蓄積されてもよい。また、会議参加者の満足度を、スマートフォン230から入力してもらい、その満足度を音声良好化のナレッジとしてクラウドサーバ220に蓄積し、次回の設定候補メニュー提示の参考にしてもよい。さらにクラウドサーバ220は、会話中の内容やチャットや環境騒音、明瞭度などを分析して、音声品質が悪い部分などを自動で識別して、音声処理を施してもよい。
 音声品質の判定は、例えば、平均片道遅延時間や送話者エコーTELR(Talker echo loudness rating [dB])などを用いて判定してもよい。あるいは、会議中により音声品質が良くなると推定した設定メニュー案を、スマートフォン230のディスプレイを介してユーザに提示してもよい。
 次に、情報処理システム200全体の手続き処理の流れを図3を用いて説明する。図3は、情報処理システム200全体の手続き処理の流れを示すシーケンス図である。
 ステップS301において、スマートフォン210は、入力した音声から音声データを生成する。ステップS303において、スマートフォン210は、音声データを送信する。ステップS305において、スマートフォン210は、音声データと共に取得した環境情報をクラウドサーバ220に送信する。ステップS307において、クラウドサーバ220は、音声データおよび環境情報を受信する。ステップS309において、クラウドサーバ220は、取得した環境情報下で入力された音声データに施すために最適な処理方法を、データベースに蓄積された処理方法から選択して決定する。ステップS311において、クラウドサーバ220は、決定した処理方法に基づいて音声データにノイズキャンセリングを行なう。ステップS313において、クラウドサーバ220は、処理を行なった音声データをスマートフォン230に送信する。
 ステップS315において、スマートフォン230は、取得した音声を出力する。ステップS317において、スマートフォン230は、サーバから取得した音声の処理結果について評価を行なう。ステップS319において、スマートフォン230は、音声処理結果に対する評価結果をクラウドサーバ220に送信する。ステップS321において、クラウドサーバ220は、スマートフォン230から取得した評価結果に基づいて、データベースに蓄積した環境情報と音声データの処理方法との対応関係を更新する。
 次に、情報処理システム200の構成を図4を用いて説明する。図4は、情報処理システム200の機能構成を示すブロック図である。
 スマートフォン210は、マイク411とスピーカ412と環境判定部413と音質調整部414と音声送信部415と音声受信部416とを有する。また、スマートフォン210は、さらに環境情報送信部417と評価部418と評価結果送信部419とを有する。また、スマートフォン230は、スマートフォン210と同様に、マイク431とスピーカ432と環境判定部433と音質調整部434と音声送信部435と音声受信部436と環境情報送信部437と評価部438と評価結果送信部439とを有する。またスマートフォン210、230は、不図示のカメラ、ディスプレイ、外部I/Fなどを有している。
 クラウドサーバ220は、受信部221と、蓄積部222と、決定部223と、音声処理部224と、処理結果送信部225とを有する。
 スマートフォン210、230のマイク411、431は、ユーザその他の話者から発せられた音声を入力する。マイク411、431は、背景音が混在した入力音声を、ブラインド音源分離、または独立成分分析などの音声処理方法を用いて背景音と音声とに分離して音声データとして生成する。環境判定部413、433は、音声の入力場所の背景音や、広域測位機能(不図示)を用いて取得したスマートフォン210の位置情報や、ユーザによって入力された情報に基づいて、話者の環境を判定し、環境情報を生成する。環境情報送信部417、437は、環境判定部413、433により生成された環境情報をクラウドサーバ220に送信する。また、音声送信部415、435は、入力した音声データをクラウドサーバ220に送信する。
 クラウドサーバ220は、受信部221において、環境情報送信部417、437から送信された環境情報と、音声送信部415、435から送信された音声データとを受信する。蓄積部222は、環境情報と音声処理方法とを対応付けてあらかじめ蓄積している。決定部223は、受信した音声データからノイズを除去するために、受信した環境情報と蓄積部222に蓄積した環境情報とを対比して、同一環境または同様の環境を選択する。
 例えば、環境情報に含まれる各種パラメータ(時間、位置など)を数値化して合計することにより環境レベルを決定し、その環境レベルが近似しているものを「同様の環境」と評価する。そしてさらに、決定部223は、選択した特定の環境情報に対応付けて蓄積された音声データのノイズキャンセリング方法を、受信した音声データの処理方法として決定する。音声処理部224は、決定部223により決定されたノイズキャンセリング方法を音声データに適用して、環境情報に適した音声データを生成する。処理結果送信部225は、ノイズキャンセリング方法を適用して生成した音声データをスマートフォン210、230に送信する。
 スマートフォン210、230は、音声受信部416、436にて、クラウドサーバ220から送信された音声データを受信する。スピーカ412、432は、ノイズキャンセリングされた音声データに対応する音声を出力する。
 音質調整部414、434は、スピーカ412、432から出力された音質を調整するために用いる。すなわち、音質調整部434は、音量、質感、音域などを再調整することにより、現在の環境情報に最適な音声の再生成を可能にする。音声送信部415、435は、音質調整部414、434による調整方法をクラウドサーバ220に送信する。
 評価部418、438は、クラウドサーバ220で適用されたノイズキャンセリングによる処理の結果(音質)について評価する。そして、評価結果送信部419、439は、音質についての評価結果をクラウドサーバ220に送信する。
 クラウドサーバ220の受信部221は、スマートフォン230から送信された音声データと環境情報とを受信すると、この音質調整部434により調整された音声データの調整方法を、送信された環境情報と共に対応付けて蓄積部222に蓄積する。また、スマートフォン230から送信された、音質についての評価結果や音質調整方法を基に、音声データに適用したノイズキャンセリング方法を、環境情報と共に対応付けて蓄積部222に蓄積する。つまり、クラウドサーバ220は、スマートフォン210、230から得た音質調整方法や評価結果を蓄積して以降の音声処理決定に反映させる。
 このように、環境情報に適したノイズキャンセリング方法をクラウドサーバ220に蓄積し、さらにユーザからの評価結果などと対応付けて随時更新することで、ノイズキャンセリングにより処理された音声データに対する多くのユーザの評価を反映させた最適なノイズキャンセリング方法を、いつでも誰もが利用可能となる。
 (環境情報のテーブル)
 次に、図5A~図5Cを用いて、ノイズキャンセリング方法の決定方法を説明する。図5A~図5Cは、環境条件に合わせてノイズキャンセリング方法を決定するため蓄積手段の例として、3つのテーブル500、520、540を示す。
 テーブル500は、場所501と、背景音510と、音声処理とを対応させたテーブルである。スマートフォン210に音声データを入力した場所501として、本実施形態においては会議室502と、ホール503と、屋外504とが用意されているが、これらに限られるものではない。例えば、会議室502については、部屋の広さや収容人数などの条件に応じて施すべき音声処理を細分化してもよい。ホール503についても、ホールの広さ(521)や、席数や、階数や、天井の高さなどの条件に応じて細分化してもよい。さらに、屋外504についても、駅、(電)車内、幹線道路沿い、住宅街、工場地帯、建設現場、農場、海上などの条件に応じて細分化してもよい。蓄積部222は、このように場所501の条件を細分化して、環境とノイズキャンセリング方法との対応関係を蓄積することが可能である。
 背景音510は、本実施形態においてはスマートフォン210に入力される背景音の大きさを、特大、大、中、小、極小の5段階で表わすが、これに限定されない。決定部223は、例えば、音声データを入力する場所が会議室502であって、背景音510が「特大」の場合には、この環境下で適用されるべきノイズキャンセリング方法として蓄積されている処理Aを、受信した音声データに適用する。また、決定部223は、音声データを入力する場所がホール503であって、背景音510が「大」の場合には、ノイズキャンセリング方法として処理Eを、受信した音声データに適用する。このように、蓄積部222は、環境情報としての場所501や背景音510と、音声データに適用すべきノイズキャンセリング方法との対応関係を蓄積部222に蓄積する。そして、決定部223は、受信部221で受信したスマートフォン210の環境情報および音声データに対して適用すべき最適なノイズキャンセリング方法を選択し、決定することができる。
 図5Bのテーブル520は、ホールの広さ521と、入力端末種別522とに応じて施すべき音声処理を決定するためのテーブルである。なお、ホールの広さ521は、位置情報に対応付けてあらかじめ登録されているものとする。決定部223は、音声データを入力するホールの広さ521が「1」であって、入力端末種別522が「スマートフォンA」の場合には、この環境下で適用されるべきノイズキャンセリング方法のパターンとして蓄積されている処理αを受信した音声データに適用する。また、決定部223は、音声データを入力するホールの広さ521が「2」であって、入力端末種別が「スマートフォンB」の場合には、この環境下で適用されるべきノイズキャンセリング方法のパターンとして蓄積されている処理λを受信した音声データに適用する。このように、蓄積部222は、音声データに適用するノイズキャンセリング方法のパターンと、環境情報としてのホールの広さ521と入力端末種別522との対応関係を蓄積する。決定部223は、受信したスマートフォン210の環境情報および音声データに対して適用すべき最適なノイズキャンセリング方法のパターンを選択して、決定することができる。
 図5Cを用いて、テーブル540について説明する。テーブル540は、背景音の種類541と、ノイズキャンセリング方法542との対応関係を蓄積するテーブルである。背景音の種類541は、車両の走行音、緊急車両、鉄道の通過音、踏切、工事現場、喫茶店、...nに分けられ、これらの音(背景音)を環境ノイズとしてパターン化する。そして、これらの背景音は、天候、時間などに応じてさらに細分化してパターン化してもよい。なお、背景音の種類541は、位置情報に紐付けてあらかじめ登録されているものとする。そして、これらの音と同様の環境の音か否かの選択は、例えば、音の高さ、大きさ、周波数に応じて選択的に決定する。処理方法542は、処理1、処理2、...処理nである。
 決定部223は、音声データを入力する背景音の種類541が「車両の走行音」の場合に、この環境下で適用されるべきノイズキャンセリング方法542として処理1を適用する。背景音の種類541が「鉄道の通過音」に関する処理方法542としては、処理方法3を適用する。蓄積部222は、このように音声データを入力する環境と、この環境下で適用すべきノイズキャンセリング方法とを対応付けて蓄積する。そして、決定部223は、受信したスマートフォン210の環境情報および音声データに対して適用すべきノイズキャンセリング方法542を、蓄積部222に蓄積されたノイズキャンセリング方法から選択し、決定することができる。このノイズキャンセリング方法542としては、会議への参加者のうち、招いた側と招かれた側とからそれぞれ音声の感度についての評価を取得して、ナレッジとして蓄積部222に蓄積する。さらに、例えば、クラウドサーバ220は、「もう一度お願いします。」や、「音が聞こえないから、1回切るね。」などのキーワードを発せられた会議の行なわれた場所、時間、天候などの環境情報、および位置情報を取得して、ナレッジとして蓄積部222に蓄積する。そして、クラウドサーバ220は、これらの環境情報に対応付けて、音声データの処理方法を蓄積部222に蓄積する。
 なお、ここでは、図5A~5Cを用いて、環境情報の例および音声処理方法の導出方法を例示したが、本発明はこれに限定されるものではない。環境情報としては、上に挙げたもののほか、スマートフォンのユーザ(話者など)、時間、季節、および天候などを用いてもよい。これらの情報は、ユーザによりあらかじめ入力されてもよいし、特定のサーバにアクセスすることにより取得してもよい。例えば、ユーザごとに音声処理方法を蓄積して、ユーザの声質に最適な音声処理方法を決定してもよい。あるいは、ユーザデータベースから取得したユーザの年齢に応じた出力音声の高さを蓄積して、例えば、年齢が高い程、高周波の音を聴取し難くなる傾向があることから出力音声を低くするなどの工夫を施してもよい。または、聞き手のユーザの好みに応じた音声処理を施してもよい。スマートフォン210とスマートフォン230とで上記の環境情報が異なる場合には、クラウドサーバ220の音声処理部224は、スマートフォン210から入力した音声データと、スマートフォン230から入力した音声データとに対して、異なる音声処理を施すことになる。
 (クラウドサーバのハードウェア構成)
 本実施形態に係る情報処理システムにおけるクラウドサーバ220のハードウェア構成について、図6を用いて説明する。
 サーバ220は、CPU(Central Processing Unit)610、ROM(Read Only Memory)620、通信制御部630、RAM(Random Access Memory)640、およびストレージ650を備えている。CPU610は中央処理部であって、様々なプログラムを実行することによりサーバ220全体を制御する。ROM620は、リードオンリメモリであり、CPU610が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。また、RAM640は、ランダムアクセスメモリであり、各種データを一時記憶している。各種データとして、受信音声データ641と、環境データ642と、送信音声644とを記憶する。一方、ストレージ650は、データベース651およびプログラム652を記憶している。データベース651は図5Aに示すテーブル500と、図5Bに示すテーブル520と、図5Cに示すテーブル540とを含む。また、プログラム652は、選択モジュール653と、音声処理モジュール654と、音声品質判定モジュール655と、ノイズ判別モジュール656とを有する。さらに、通信制御部630は、スマートフォン210およびスマートフォン230とのネットワークを介した通信を制御する。
 受信音声データ641は、スマートフォン210のマイク411から入力された話者の音声や背景音である。環境データ642は、環境情報送信部417から送信された、スマートフォン210の存する周囲の環境情報である。具体的には、図5Aの場所501(会議室502、ホール503、屋外504)や、図5Bのホールの広さ521や、図5Cの背景音の種類541(車両の走行音、緊急車両、鉄道の通過音、踏切、工事現場など)である。送信音声644は、マイク411で生成された、背景音の含まれた音声データである。
 選択モジュール653は、蓄積部222に蓄積された音声データのノイズキャンセリング方法として、最適な処理方法を選択して決定する。そして、音声処理モジュール654は、最適な処理方法として決定されたノイズキャンセリング方法を実行する。音声品質判定モジュール655は、受信部221で受信した音声データの音声品質を一定の閾値以上であるか否か判定する。ノイズ判別モジュール656は、受信部221で受信した音声データに含まれるノイズを判別する。なお、ノイズとは、会議における話者の音声およびこれに付随する情報以外の不要な音および情報のことである。
 (サーバで行なう処理の流れ)
 図7は、クラウドサーバ220の手続きの処理の流れを示すフローチャートである。まずスマートフォン210において、クラウドサーバ220にあるテレビ会議や音声録音などのアプリケーションを起動することにより、図7のフローは開始される。その状態で、スマートフォン210は、クラウドサーバ220にて動作しているアプリケーションに音声データを送信する。
 ステップS701において、受信部221は、音声データの入力を受け付ける。次に、ステップS703において、音質判定部(不図示)は、受信した音声データの音質を判定する。具体的には、音声部分について会話中の内容やチャットや環境騒音、明瞭度などを分析して、音声品質が悪い部分などを自動で識別する。
 ステップS705において、音質判定部は、音質が所定の音質以上であれば、ステップS715に進む。一方、あらかじめ設定してある閾値以下の音声品質の場合には、ステップS707に進み、受信部221は、スマートフォン210の環境情報送信部213から送信された環境情報を取得する。つまり、過去の履歴の中から現在の状況にあった設定値を用いる。スマートフォン210に対して「音声品質が低下しています。過去の成功履歴の設定値を使用しますか。」の表示を行って、接続方法を提案してもよい。なお、この接続方法の提案について、クラウドサーバ220は、スマートフォン210の画面上に接続方法を通知するだけではなく、スマートフォン210の振動(バイブレーション)機能を利用して、利用者に通知してもよい。
 さらに、クラウドサーバ220は、音質向上のための文字または振動による提案通知を、音声入力または音声出力に用いられているスマートフォン230に送信するだけでなく、あらかじめクラウドサーバに送信された会議への参加者情報に基づいて他の参加者のスマートフォンなどの携帯電話機に対して行なってもよい。これにより、スマートフォン230のユーザにおいて音質向上の提案通知に対応できない状況であっても、他の参加者を介して会議の音質向上を図ることが可能である。
 ステップS709において、音声処理部224は、蓄積部222に蓄積された環境情報とノイズキャンセリング方法との対応関係に基づいて、受信した環境情報に適用すべきノイズキャンセリング方法を選択する。次に、ステップS711において、音声処理部224は、選択したノイズキャンセリング方法を、受信した音声データに適用することを決定する。ステップS713において、音声処理部224は、受信した音声データに、決定したノイズキャンセリング方法を施して音質を向上させた音声データを生成する。
 ステップS715において、処理結果送信部225は、音声データをスマートフォン230に送信する。ステップS717において、受信部221は、スマートフォン230から送信された音声データに対する評価結果を受信する。ステップS719において、蓄積部222は、受信した評価結果に基づいて、環境情報と音声データの処理方法との対応関係を更新して蓄積する。
  以上の構成および動作により、本実施形態における情報処理システムは、サーバの蓄積情報を用いて音声処理方法を決定するので、蓄積した情報を用いて、環境に適応した音声処理を施すことができる。これにより、音声会議において専用のハードウェアを持ち込んで、エコーキャンセルなどの学習をして、エコーの低減を実施する必要がなくなる。ハウリングなどで会議の継続が困難になるという問題を根本的に解決できる。本実施形態のように、中継装置にスマートフォンのような携帯電話機を用いることにより、スマートフォン1つで会議への参加が容易になり、設備投資も非常に小さくできる。
 [第3実施形態]
 次に本発明の第3実施形態に係る情報処理システム800について、図8を用いて説明する。図8は、本実施形態に係る情報処理システム800の構成を説明するためのブロック図である。本実施形態に係る情報処理システム800は、上記第2実施形態と比べると、スマートフォン810および830において受信部815または835を有し、情報処理システム800は、スマートフォン830の外部I/F834(USB(Universal Serial Bus)、HDMI(High-Definition Multimedia Interface)、無線LAN(Local Area Network)など)に接続されたディスプレイ850を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 情報処理システム800によれば、クラウドサーバ820を用いて、リアルタイムでスマートフォン810から受信した音声データをテキスト化したテキストデータを生成することが可能である。これにより、スマートフォンの表示部やディスプレイにテキストデータを表示することが可能となり、音声データを聴取できない場合や、難聴者や、電話会議にオブザーバー参加している者や、会議室に遅れて参加する者なども情報を共有することが可能である。
 さらに、情報処理システム800によれば、生成したテキストデータを用いて、音声を合成して合成音声を生成することが可能であり、翻訳した合成音声の生成も可能である。クラウドサーバ820は、音声の母音と子音分析などでテキスト化したあと、そのテキストと話者の音節チャートからリアルタイムに音声合成を行ない、明瞭な音声を提供してもよい。クラウドサーバ820には、ふんだんな演算能力があるので、サービスレベルに合わせて、最高レベルの音声処理を施してもよい。例えば、携帯ではもてない数秒や数十秒までの時間のエコーキャンセルと数マイクロ秒単位での背景音キャンセルや音声整形の同時提供を行なってもよい。エコーが無い音にして、会話者の音に同期させて合成配布してもよい。またクラウドサーバ820の強力な処理性能を利用して、長い時間のエコーキャンセルを実行してもよい。そうすれば、遠端のエコーを全く考慮しなくてよいので、その状態を会議音としてミキシングをかけてもよい。ミキシング数は、契約者のサービスレベルに合わせて、数十名など、携帯電話機やタブレットのCPUでは不可能なレベルを提供することができる。
 クラウドサーバ820のテキスト生成部826は、受信部221で受信した音声データからリアルタイムでテキストデータを生成する。テキスト生成部826は、広域測位機能(不図示)を用いてスマートフォン810の現在位置を取得すると、緯度経度に合わせた言語(英語、中国語など)を自動的に選択して翻訳してもよい。また、ユーザの使用言語と、テキストデータの言語とを選択可能に表示したり、いずれも表示したりしてもよい。処理結果送信部825は、テキストデータをスマートフォン830に送信する。スマートフォン830の受信部835は、受信したテキストデータを表示部(不図示)に表示する。また、処理結果送信部825は、ディスプレイ850にテキストデータを送信する。ディスプレイ850は、表示部851に送信されたテキストデータを表示する。
 なお、音声処理部224は、受信部221で受信した音声データを声紋解析することより、蓄積部222に蓄積された話者データベース(不図示)に同一の声紋が存するか否か検索し、同一の声紋を検出すると、話者を特定する。そして、音声処理部224は、受信した音声データから生成したテキストデータに、特定した話者による発話であることを表示することが可能である。
 また、音声処理部224は、スマートフォン810から受信した音声データからテキストデータを生成すると共に、このテキストデータに基づいて音声を合成して合成音声データを生成することが可能である。さらに、音声処理部224は、生成したテキストデータを、ユーザによる選択に応じてリアルタイムで翻訳した音声を合成して音声データを生成してもよい。
 図9は、クラウドサーバ820におけるテキストデータ生成処理の流れを示すフローチャートである。
 ステップS901において、音声処理部224は、スマートフォン810または830からテキストデータの要求を受け付けたか否か確認する。テキストデータの要求を受けていない場合には、処理を終了する。一方、テキストデータの要求を受けた場合は、ステップS903に進み、音声処理部224は、テキスト化を行なう言語を、スマートフォン810または830の位置情報から選択する。ステップS905において、音声処理部224は、テキストデータを生成する。
 以上説明したとおり、本実施形態によれば、テレビ会議や講演、インタビュー、音声チャット、音声同報、音声放送などを実施した際に、録音した音声を人が書き起こして議事録を作成する手間がなくなり、大幅に業務の効率化を達成することができる。
 [他の実施形態]
 以上、本願発明について上記各実施形態を用いて説明したが、本願発明は上記実施形態に限定されるものではない。例えば、スマートフォンに備えられたマイクはモノラルマイクに限られるものではなく、ステレオマイクであってもよい。スマートフォンは、自機の周辺に存在する騒音源を判定する騒音源判定部を有し、騒音源を判定するとクラウドサーバに騒音源の位置を送信する。クラウドサーバは、受信した騒音源とスマートフォンとの位置関係および蓄積部に蓄積された過去の蓄積情報に基づいて、スマートフォンの利用環境に最適な、位相方向のノイズ(騒音)だけを削除する。
 また、例えば、クラウドサーバにおいてハウリングを検出した場合に、クラウドサーバはスマートフォンのマイク感度が高いと判定する。この場合において、クラウドサーバの処理結果送信部からスマートフォンに対してマイク感度を下げる指示を送信する。そして、スマートフォンにおいてマイク感度を下げられたことを検知すると、クラウドサーバは、蓄積部に蓄積された過去の環境情報に基づいて、ハウリングが生じない範囲までマイク感度を上げる。これにより、クラウドサーバは、会議の行なわれている環境においてハウリングが生じず、かつ、明瞭な音質を得られるように音質の最適化を図り、クラウドサーバの演算とスマートフォンのI/O制御とを連動させる。
 例えば、スマートフォンのUSBポートにUSBマイクを繋いで会議を開いた場合において、クラウドサーバは、スマートフォンに接続されたUSBマイクと、このUSBマイクが用いられた環境情報とを蓄積する。そしてさらに、クラウドサーバは、USBマイクを用いた会議の利用者から得られた会議における音質についての評価を環境情報と対応付けて蓄積する。例えば、会議終了後に、利用者に対して会議における音質についてのアンケートを実施して、音質(出力音声)に対する評価を受け付けると、クラウドサーバは、この評価と会議の環境情報とを対応付けて蓄積部に蓄積し、次回の会議に反映させる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は、2012年03月22日に出願された日本国特許出願 特願2012-065586号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (26)

  1.  携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、
     前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、
     前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
     決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、
     前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、
     を備えたサーバ。
  2.  前記蓄積手段は、前記情報出力装置から受信した、前記処理結果送信手段より送信された前記音声処理の結果についての評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新する請求項1に記載のサーバ。
  3.  前記決定手段は、さらに、前記音声データの音質を判定して、所定の音質以下の場合に、音声処理を施すことを決定する請求項1または2に記載のサーバ。
  4.  前記蓄積手段は、前記環境情報とノイズキャンセリング方法との対応関係を蓄積し、
     前記決定手段は、前記蓄積手段を参照して、前記携帯端末から受信した前記環境情報に基づいてノイズキャンセリング方法を決定し、
     前記音声処理手段は、受信した前記音声データに前記決定されたノイズキャンセリング方法を適用する請求項1、2または3に記載のサーバ。
  5.  前記環境情報は、前記携帯端末の種類、前記携帯端末に対して音声を入力した話者、該音声を入力した場所、背景音の種類、背景音の音量、時間、季節、および天候の少なくともいずれか1つを含む請求項1ないし4のいずれか1項に記載のサーバ。
  6.  前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化してテキストデータを生成し、
     前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力する請求項1ないし5のいずれか1項に記載のサーバ。
  7.  前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化した上で翻訳することによりテキストデータを生成し、
     前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力する請求項1ないし6のいずれか1項に記載のサーバ。
  8.  前記音声処理手段は、前記テキストデータに基づいて音声を合成して合成音声データを生成し、
     前記処理結果送信手段は、前記合成音声データを前記情報処理装置に出力する請求項1ないし7のいずれか1項に記載のサーバ。
  9.  前記音声処理手段は、前記受信手段で受信した前記音声データを声紋解析することにより話者との対応付けを行ない、
     前記処理結果送信手段は、前記処理結果として、前記話者を特定する情報を送信する請求項1ないし8のいずれか1項に記載のサーバ。
  10.  前記決定手段は、さらに、前記情報出力装置から受信した前記評価結果に基づいて、前記音声データに対して施すべき処理方法を決定する請求項1ないし9のいずれか1項に記載のサーバ。
  11.  携帯端末と接続可能なサーバの制御方法であって、
     前記携帯端末から音声データと音声を入力した環境に関する環境情報とを受信する受信ステップと、
     蓄積した前記環境情報と音声データの処理方法との対応付けを参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
     決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
     前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
     を含むサーバの制御方法。
  12.  携帯端末と接続可能なサーバの制御プログラムであって、
     前記携帯端末から音声データと前記環境情報とを受信する受信ステップと、
     蓄積した前記環境情報と音声データの処理方法との対応付けを参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
     決定された前記処理方法に基づいて、前記受信ステップで受信した前記音声データに音声処理を加える音声処理ステップと、
      前記音声処理ステップによる前記音声処理の結果を情報出力装置に送信する処理結果送信ステップと、
     をコンピュータに実行させるサーバの制御プログラム。
  13.  携帯端末と情報出力装置とサーバとを含む情報処理システムであって、
     前記携帯端末は、
     音声を入力して音声データを生成する音声入力手段と、
     前記音声データを前記サーバに送信する音声送信手段と、
     前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信手段と、
     を備え、
     前記サーバは、
     前記携帯端末から前記音声データと前記環境情報とを受信する受信手段と、
     前記環境情報と前記音声データの処理方法との対応関係を蓄積する蓄積手段と、
     前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、
     決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理手段と、
     前記音声処理手段による前記音声処理の結果を前記情報出力装置に送信する処理結果送信手段と、
     を備え、
     前記情報出力装置は、前記サーバから受信した前記音声処理の結果を出力する出力手段を備えた情報処理システム。
  14.  前記情報出力装置は、前記サーバから受信した前記音声処理の結果を評価する評価手段と、
     前記評価手段での評価結果を前記サーバに送信する評価結果送信手段と、をさらに有し、
     前記蓄積手段は、前記情報出力装置から受信した前記評価結果に応じて、前記蓄積手段に蓄積された前記環境情報と前記音声データの処理方法との対応関係を更新する請求項13に記載の情報処理システム。
  15.  前記決定手段は、さらに、前記音声データの音質を判定して、所定の音質以下の場合に、音声処理を施すことを決定する請求項13または14に記載の情報処理システム。
  16.  前記蓄積手段は、前記環境情報とノイズキャンセリング方法との対応関係を蓄積し、
     前記決定手段は、前記蓄積手段を参照して、前記携帯端末から受信した前記環境情報に基づいてノイズキャンセリング方法を決定し、
     前記音声処理手段は、決定されたノイズキャンセリング方法を受信した前記音声データに適用する請求項13、14または15に記載の情報処理システム。
  17.  前記環境情報は、前記携帯端末の種類、前記携帯端末に対して音声を入力した話者、該音声を入力した場所、背景音の種類、背景音の音量、時間、季節、および天候の少なくともいずれか1つを含む請求項13ないし16のいずれか1項に記載の情報処理システム。
  18.  前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化してテキストデータを生成し、
     前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力し、
     前記情報出力装置は、前記サーバから受信した前記テキストデータを表示する請求項13ないし17のいずれか1項に記載の情報処理システム。
  19.  前記音声処理手段は、前記音声処理として、前記受信手段で受信した前記音声データをテキスト化した上で翻訳することによりテキストデータを生成し、
     前記処理結果送信手段は、生成された前記テキストデータを前記情報出力装置に出力し、
     前記情報出力装置は、前記サーバから受信した前記テキストデータを表示する請求項13ないし18のいずれか1項に記載の情報処理システム。
  20.  前記音声処理手段は、前記テキストデータに基づいて音声を合成して合成音声データを生成し、
     前記処理結果送信手段は、前記合成音声データを前記情報処理装置に出力する請求項13ないし19のいずれか1項に記載の情報処理システム。
  21.  前記音声処理手段は、前記受信手段で受信した前記音声データを声紋解析することにより話者との対応付けを行ない、
     前記処理結果送信手段は、前記処理結果として、前記話者を特定する情報を送信する請求項13ないし20のいずれか1項に記載の情報処理システム。
  22.  前記情報出力装置は、出力した情報の品質を評価する評価手段と、前記評価手段による品質評価結果を前記サーバに送信する評価結果送信手段とをさらに備え、
     前記決定手段は、前記情報出力装置から受信した前記評価結果に基づいて、前記音声データに対して施すべき処理方法を決定する請求項13ないし21のいずれか1項に記載の情報処理システム。
  23.  携帯端末と情報出力装置とサーバとを用いた情報処理方法であって、
     前記携帯端末が、音声を入力して音声データを生成する音声入力ステップと、
     前記携帯端末が、前記音声データを前記サーバに送信する音声送信ステップと、
     前記携帯端末が、前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
     前記サーバが、前記携帯端末から前記音声データと前記環境情報とを受信する受信ステップと、
     前記サーバが、前記環境情報と前記音声データの処理方法との対応関係を蓄積した蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定ステップと、
     前記サーバが、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を施す音声処理ステップと、
     前記サーバが、前記音声処理の結果を前記情報出力装置に送信する処理結果送信ステップと、
     前記情報出力装置が、前記サーバから受信した前記音声処理の結果を出力する出力ステップと、
     を含む情報処理方法。
  24.  携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、を備えたサーバと接続可能な携帯端末であって、
     音声を入力して音声データを生成する音声入力手段と、
     前記音声データを前記サーバに送信する音声送信手段と、
     前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信手段と、
     を備えた携帯端末。
  25.  携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、を備えたサーバと接続可能な携帯端末の制御方法であって、
     音声を入力して音声データを生成する音声入力ステップと、
     前記音声データを前記サーバに送信する音声送信ステップと、
     前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
     を含む携帯端末の制御方法。
  26.  携帯端末に入力された音声に関する音声データと前記音声を入力された環境に関する環境情報とを受信する受信手段と、前記環境情報と音声データの処理方法との対応関係を蓄積する蓄積手段と、前記蓄積手段を参照して、前記音声データに対して施すべき前記処理方法を決定する決定手段と、決定された前記処理方法に基づいて、前記受信手段で受信した前記音声データに音声処理を加える音声処理手段と、前記音声処理手段による前記音声処理の結果を情報出力装置に送信する処理結果送信手段と、を備えたサーバと接続可能な携帯端末の制御プログラムであって、
     音声を入力して音声データを生成する音声入力ステップと、
     前記音声データを前記サーバに送信する音声送信ステップと、
     前記音声を入力した環境に関する環境情報を前記サーバに送信する環境情報送信ステップと、
     をコンピュータに実行させる携帯端末の制御プログラム。
PCT/JP2013/055549 2012-03-22 2013-02-28 情報処理システム、情報処理方法、サーバ、携帯端末およびそれらの制御方法と制御プログラム WO2013140996A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-065586 2012-03-22
JP2012065586A JP6201279B2 (ja) 2012-03-22 2012-03-22 サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム

Publications (1)

Publication Number Publication Date
WO2013140996A1 true WO2013140996A1 (ja) 2013-09-26

Family

ID=49222459

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/055549 WO2013140996A1 (ja) 2012-03-22 2013-02-28 情報処理システム、情報処理方法、サーバ、携帯端末およびそれらの制御方法と制御プログラム

Country Status (2)

Country Link
JP (1) JP6201279B2 (ja)
WO (1) WO2013140996A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111614781A (zh) * 2020-05-29 2020-09-01 王浩 一种基于云端服务器的音频处理方法、终端设备及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3244600B1 (en) * 2015-01-30 2022-06-22 Huawei Technologies Co., Ltd. Method and apparatus for converting voice into text in multi-party call
JP6454847B2 (ja) * 2015-11-04 2019-01-23 独立行政法人国立高等専門学校機構 クラウド型の有害動物捕獲支援システム
CN106131354A (zh) * 2016-06-27 2016-11-16 乐视控股(北京)有限公司 拨号建立方法及系统
JP7176296B2 (ja) * 2018-08-23 2022-11-22 株式会社リコー 通信端末、通信システム、ログデータ送信方法、プログラム
JP2021022836A (ja) * 2019-07-26 2021-02-18 株式会社リコー 通信システム、通信端末、通信方法およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004039044A1 (ja) * 2002-10-23 2004-05-06 Fujitsu Limited 通信端末、声紋情報検索サーバ、個人情報表示システム、通信端末における個人情報表示方法、個人情報表示プログラム
JP2004236245A (ja) * 2003-02-03 2004-08-19 Casio Comput Co Ltd 電子メールシステムおよびプログラム
JP2005323308A (ja) * 2004-05-11 2005-11-17 Sony Corp 音声集音装置とエコーキャンセル処理方法
JP2008225027A (ja) * 2007-03-13 2008-09-25 Nec Corp 音源加工装置、方法、及びプログラム
JP2009141788A (ja) * 2007-12-07 2009-06-25 Ntt Docomo Inc 通信システム、端末装置、通信制御装置及び機械翻訳サーバ
JP2010010856A (ja) * 2008-06-25 2010-01-14 Sony Ericsson Mobile Communications Ab ノイズキャンセル装置、ノイズキャンセル方法、ノイズキャンセルプログラム、ノイズキャンセルシステム、及び、基地局

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917178B2 (en) * 2005-03-22 2011-03-29 Sony Ericsson Mobile Communications Ab Wireless communications device with voice-to-text conversion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004039044A1 (ja) * 2002-10-23 2004-05-06 Fujitsu Limited 通信端末、声紋情報検索サーバ、個人情報表示システム、通信端末における個人情報表示方法、個人情報表示プログラム
JP2004236245A (ja) * 2003-02-03 2004-08-19 Casio Comput Co Ltd 電子メールシステムおよびプログラム
JP2005323308A (ja) * 2004-05-11 2005-11-17 Sony Corp 音声集音装置とエコーキャンセル処理方法
JP2008225027A (ja) * 2007-03-13 2008-09-25 Nec Corp 音源加工装置、方法、及びプログラム
JP2009141788A (ja) * 2007-12-07 2009-06-25 Ntt Docomo Inc 通信システム、端末装置、通信制御装置及び機械翻訳サーバ
JP2010010856A (ja) * 2008-06-25 2010-01-14 Sony Ericsson Mobile Communications Ab ノイズキャンセル装置、ノイズキャンセル方法、ノイズキャンセルプログラム、ノイズキャンセルシステム、及び、基地局

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111614781A (zh) * 2020-05-29 2020-09-01 王浩 一种基于云端服务器的音频处理方法、终端设备及系统

Also Published As

Publication number Publication date
JP2013198066A (ja) 2013-09-30
JP6201279B2 (ja) 2017-09-27

Similar Documents

Publication Publication Date Title
JP6201279B2 (ja) サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム
US11782674B2 (en) Centrally controlling communication at a venue
US20140329511A1 (en) Audio conferencing
US20230343343A1 (en) Autocorrection of pronunciations of keywords in audio/videoconferences
JP2022542388A (ja) オーディオ装置の協調
WO2022253003A1 (zh) 语音增强方法及相关设备
CN115482830A (zh) 语音增强方法及相关设备
CN110176231B (zh) 音响输出系统、音响输出方法及存储介质
US20220263933A1 (en) Evaluation apparatus, evaluation method, and program
TWI820515B (zh) 用於在多方會議環境中音訊信號之處理和分配的方法和系統
WO2022054900A1 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
US20200184973A1 (en) Transcription of communications
CN114531425A (zh) 一种处理方法和处理装置
Aguilera et al. An immersive multi-party conferencing system for mobile devices using binaural audio
KR101778548B1 (ko) 청각장애인을 위한 음성인식 및 보청지원이 가능한 회의 관리 방법 및 시스템
JP3828185B2 (ja) 会議支援システムおよび会議支援システムの制御方法
Pörschmann et al. 3-D audio in mobile communication devices: effects of self-created and external sounds on presence in auditory virtual environments
US10237402B1 (en) Management of communications between devices
Albrecht et al. Continuous mobile communication with acoustic co-location detection
Pirro et al. A fixed beamforming based approach for stereophonic audio-conference systems
WO2023158658A1 (en) Core sound manager
CN114530159A (zh) 一种基于WebRTC技术的多媒体资源整合调度方法
Gros et al. A comparison of speech quality judgments in laboratory and in real environment
Beracoechea et al. Implementation of immersive audio applications using robust adaptive beamforming and Wave Field Synthesis
Brandenburg et al. Personalized Auditory Reality Karlheinz Brandenburg1, 2, Estefanıa Cano Cerón2, Florian Klein1, Thomas Köllmer2, Hanna Lukashevich2, Annika Neidhardt1, Johannes Nowak1, 2, Ulrike Sloma1, Stephan Werner1

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13764129

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13764129

Country of ref document: EP

Kind code of ref document: A1