WO2022038928A1 - コミュニケーションシステム - Google Patents

コミュニケーションシステム Download PDF

Info

Publication number
WO2022038928A1
WO2022038928A1 PCT/JP2021/026570 JP2021026570W WO2022038928A1 WO 2022038928 A1 WO2022038928 A1 WO 2022038928A1 JP 2021026570 W JP2021026570 W JP 2021026570W WO 2022038928 A1 WO2022038928 A1 WO 2022038928A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
text
language
control unit
mobile communication
Prior art date
Application number
PCT/JP2021/026570
Other languages
English (en)
French (fr)
Inventor
篤 掛村
涼太 吉澤
Original Assignee
株式会社 東芝
東芝デジタルソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝, 東芝デジタルソリューションズ株式会社 filed Critical 株式会社 東芝
Priority to US18/040,662 priority Critical patent/US20230281401A1/en
Priority to CN202180060305.XA priority patent/CN116134803A/zh
Publication of WO2022038928A1 publication Critical patent/WO2022038928A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services

Definitions

  • the embodiment of the present invention relates to a communication (information sharing, communication, etc.) support technique using voice and text, and particularly to a multilingual support technique of the language used.
  • the transceiver is a radio device having both a radio wave transmission function and a reception function, and one user can make a call (one-way or two-way information transmission) with a plurality of users. Examples of the use of transceivers can be seen at construction sites, event venues, facilities such as hotels and inns. In addition, taxi radio can be mentioned as an example of using a transceiver.
  • the purpose is to support the improvement of the quality of information transmission between users in different languages who make group calls.
  • the communication system of the embodiment broadcasts the voice of the user to the mobile communication terminal of another user through the mobile communication terminal carried by each of the plurality of users.
  • This communication system has a first control unit that broadcasts utterance voice data received from a mobile communication terminal to each of a plurality of other mobile communication terminals, and utterance voice recognition obtained by voice recognition processing of the received utterance voice data.
  • a communication control unit having a second control unit that controls text distribution so that the results are displayed synchronously in each mobile communication terminal, a storage unit that stores language setting information for each user, and a voice utterance. It is equipped with a text translation unit that generates translated texts obtained by translating speech recognition results into different languages.
  • the communication control unit broadcasts the received voice data to each of a plurality of other mobile communication terminals without translating the received voice data in the first control unit.
  • the second control unit distributes the translated text of the corresponding language to each of the mobile communication terminals based on the language setting information of each user.
  • FIG. 1 is a network configuration diagram of the communication system of the present embodiment.
  • the communication system provides an information transmission support function using voice and text, centering on a communication management device (hereinafter referred to as a management device) 100.
  • a management device hereinafter referred to as a management device 100.
  • facility operation management such as accommodation facilities as an example.
  • the management device 100 is wirelessly connected to each user terminal (mobile communication terminal) 500 carried by each of a plurality of users.
  • the management device 100 broadcasts the utterance voice data received from one user terminal 500 to another user terminal 500.
  • the user terminal 500 is, for example, a portable mobile terminal (mobile terminal) such as a multifunctional mobile phone such as a smartphone, a PDA (Personal Digital Assistant), or a tablet terminal.
  • the user terminal 500 has a communication function, a calculation function, and an input function, and is connected to the management device 100 by wireless communication through an IP (Internet protocol) network or a mobile communication network (Mobile communication network) to perform data communication.
  • IP Internet protocol
  • Mobile communication network Mobile communication network
  • the range in which the utterance voice of one user is broadcast to a plurality of other user terminals 500 is set as a communication group, and the target user (field user). Each of the user terminals 500 of the above is registered.
  • the communication system of this embodiment supports information transmission for information sharing and communication on the premise that each of a plurality of users can have a hands-free dialogue.
  • this communication system is equipped with a multilingual support function for users in different languages to share information and communicate, and supports the improvement of the quality of information transmission between users in different languages who make group calls. ..
  • Japanese native speakers Japanese speakers
  • Japanese non-native speakers foreign language speakers
  • the spoken voice data is subjected to voice recognition processing to be converted into text, and the translation conversion text obtained by translating the voice recognition result into a desired language is generated. Then, it is necessary to perform synthetic speech processing using the translated and converted text to generate translated and synthesized speech data. Therefore, in addition to the multilingual speech recognition processing, the processing of machine-translating the speech recognition processing result to generate the translation conversion text is continuously performed, and the time until the translation synthesis speech data is generated becomes long (processing). (The speed becomes slower), and it becomes difficult to establish communication itself that requires real-time performance of group calls.
  • the accuracy of the translated synthetic speech data depends on the accuracy of the speech recognition process and the accuracy of the machine translation, if the processing accuracy is low, the communication will be erroneous or difficult to communicate due to erroneous conversion. Therefore, it is necessary to introduce speech recognition and machine translation technologies with high processing accuracy, but as described above, it is not realistic in terms of cost as well as processing speed.
  • the utterance voice data uttered through the user terminal 500 in the group call is broadcasted in the utterance language as it is without being translated, and the voice recognition result is in the language set by each user.
  • FIG. 2 is a block diagram of each of the management device 100 and the user terminal 500.
  • the translation conversion text (text translated from the voice recognition result) obtained by translating the voice recognition result obtained by voice recognition of the spoken voice data
  • the input text is referred to as the input text.
  • the translated text (text translated from the input text) translated into a language other than the above-mentioned language is referred to as a second translated text.
  • the management device 100 includes a control device 110, a storage device 120, and a communication device 130.
  • the communication device 130 manages communication connection and data communication control with each of the plurality of user terminals 500, and simultaneously sends the utterance voice data by one user and the text information of the utterance content to each of the plurality of user terminals 500. Broadcast distribution Communication control is performed to provide a communication environment for group calls.
  • the control device 110 includes a user management unit 111, a communication control unit 112, a language setting unit 112A, a multilingual voice recognition unit 113, a multilingual voice synthesis unit 114, and a text translation unit 115. ..
  • the storage device 120 includes user information 121, group information 122, communication history (communication log) information 123, a multilingual speech recognition dictionary 124, and a multilingual speech synthesis dictionary 125.
  • the multilingual voice recognition unit 113 and the multilingual voice recognition dictionary 124 realize a voice recognition processing function corresponding to various languages such as Japanese, English, Chinese, Spanish, French, and German.
  • a voice recognition dictionary is applied according to the language of the user's spoken voice data received from the user terminal 500, and a voice recognition result in the same language as the language of the spoken voice data is generated.
  • the multilingual speech synthesis unit 114 and the multilingual speech synthesis dictionary 125 also provide speech synthesis functions corresponding to various languages. Receives text-input character information from the user terminal 500 and text-input character information from an information input device other than the user terminal 500 (for example, a mobile terminal or a desktop PC operated by an administrator, an operator, or a supervisor). , Generates synthetic audio data in a language other than the language of the received characters or the language of the received characters (language of the second translated text). The material of the voice data of each language constituting the voice synthesis data is arbitrary.
  • the user terminal 500 includes a communication / call unit 510, a communication app control unit 520, a microphone 530, a speaker 540, a display input unit 550 such as a touch panel, and a storage unit 560.
  • the speaker 540 is actually composed of earphones, headphones (wired or wireless), or the like.
  • FIG. 3 is a diagram showing an example of various information
  • user information 121 is user registration information for using this communication system.
  • the user management unit 111 controls so that the user ID, user name, attribute, and group can be set through a predetermined management screen. Further, the user management unit 111 has a login history to the communication system in each user terminal 500, a logged-in user ID, and identification information of the user terminal 500 (MAC address unique to the user terminal 500, individual identification information, etc.). Manage the correspondence list and.
  • the user information 121 is configured to include a "setting language" item for each user as language setting information, and as will be described later, each user can select and set a language through the user terminal 500.
  • Group information 122 is group identification information that identifies a communication group. Transmission / reception and broadcast distribution of transmitted information are controlled for each communication group ID, and information is controlled so as not to be mixed between different communication groups.
  • the communication group registered in the group information 122 can be associated with each user.
  • the user management unit 111 of the present embodiment performs registration control of each of a plurality of users, and the first control (speech voice data and synthetic voice data broadcast distribution) and the second control (user's utterance voice recognition result, which will be described later) will be described later. It provides a function to set a target communication group (text broadcast distribution of the first translated text and the second translated text).
  • the facility can be divided into a plurality of departments and managed according to the facility or the like in which the communication system of the present embodiment is introduced. For example, taking accommodation facilities as an example, it is possible to set bell persons (cargo carrying), concierge, and housekeeping (cleaning) in different groups, and build a communication environment in which guest room management is subdivided for each group. can. From another point of view, there may be cases where communication is not necessary in terms of roles. For example, a food caterer and a bell person (carrying luggage) can be divided into groups because they do not need to communicate directly. In addition, there may be cases where communication is not necessary geographically. For example, when the A branch, the B branch, etc. are geographically separated and it is not necessary to communicate frequently, the groups can be divided.
  • the communication control unit 112 of the management device 100 functions as each control unit of the first control unit and the second control unit.
  • the first control unit performs broadcast distribution control (group call control) of the utterance voice data received from one user terminal 500 or the synthetic voice data based on the first translated text to each of the other plurality of user terminals 500.
  • the second control unit accumulates the utterance voice recognition result or the second translated text obtained by voice recognition processing of the received utterance voice data as the communication history 123 between the users in chronological order, and the user terminal of the uttered user. Text distribution control is performed so that the communication history 123 is displayed synchronously in all the user terminals 500 including the 500.
  • the function as the first control unit is the broadcast distribution of spoken voice data and synthetic voice data that provide a group call function.
  • the spoken voice data is voice data spoken by the user.
  • the synthetic voice data is synthetic voice data generated based on the text information input from the user terminal 500.
  • the synthetic speech data includes synthetic speech data generated in the language of the input text and synthetic speech data generated in the language of the second translated text obtained by translating the language of the input text into another language.
  • the function as the second control unit is the text of the user's spoken voice recognition result, the first translated text in which the spoken voice recognition result is translated into another language, and the text of the second translated text in which the language of the input text is translated into another language. It is a broadcast delivery.
  • the voice input in the user terminal 500 and the voice played in the user terminal 500 are all converted into text and stored in the communication history 123 in chronological order, and are controlled to be displayed synchronously in each user terminal 500. ..
  • the multilingual voice recognition unit 113 performs voice recognition processing using the multilingual voice recognition dictionary 124, and outputs text data as a spoken voice recognition result.
  • a known technique can be applied to the speech recognition process.
  • the communication history information 123 is log information in which the utterance contents of each user are accumulated in chronological order on a text basis together with time information.
  • the voice data corresponding to each text can be stored as a voice file in a predetermined storage area. For example, the storage location of the voice file is recorded in the communication history 123.
  • the communication history information 123 is generated and accumulated for each communication group.
  • the communication history information 123 stores the voice recognition result, the first translated text, all the texts of the second translated text, in other words, the voice recognition result, the input text, and all the translated texts translated into each language. It may be configured as. Further, the translated text may not be accumulated, and the speech recognition result and the input text may be accumulated.
  • FIG. 4 is a diagram showing an example of the communication history 123 displayed on each user terminal 500.
  • Each of the user terminals 500 receives the communication history 123 from the management device 100 in real time or at a predetermined timing, and display synchronization is achieved among the plurality of users.
  • Each user can refer to the past communication log in chronological order.
  • each user terminal 500 the utterance content of oneself and the utterance content of another user other than oneself are displayed in the display column D in chronological order, and the communication history 123 accumulated in the management device 100 is displayed. Shared as log information.
  • the microphone mark H is displayed in the text corresponding to the user's own uttered voice, and for users other than the speaker, the speaker is displayed in the display column D instead of the microphone mark H.
  • the mark M can be displayed.
  • a mode in which texts having the same content as the voice recognition result but different languages are displayed and synchronized is included.
  • the same applies to the input text which includes a mode in which texts having the same contents as the input text input from the user terminal 500 but in different languages are displayed and synchronized.
  • a plurality of different languages can be set as the languages to be used.
  • a mode in which the speech recognition result or the input text and the text in different languages are displayed together or in combination is also included, and each of a plurality of different languages other than the speech recognition result or the language of the input text is displayed.
  • the mode in which the text of is displayed is also included.
  • FIG. 5 is a diagram for explaining the multilingual support function (translated text distribution) of the present embodiment.
  • the user can set one or more languages to be used on the language setting screen shown in FIG. When multiple settings are made, the priority may be selected between the languages to be set (not shown).
  • the language setting screen is provided by the language setting unit 112A, and the communication app control unit 520 of the user terminal 500 transmits one or more language setting information selected on the language setting screen to the management device 100.
  • the user management unit 111 stores the received language setting information for each user as the setting language of the user information 121.
  • the text translation unit 115 is a processing unit that provides a machine translation function corresponding to a plurality of languages.
  • Machine translation is performed to generate a first translation text for each set language registered in the user information 121.
  • the Chinese word "" knee "good” (“nee”: a simplified Chinese character for "i” (nimben (human bias)) and the Vietnamese word “xin chao” (a is an acute accent).
  • Each translated text of (character) can be generated.
  • the second control unit of the communication control unit 112 distributes the translated text of the language corresponding to the language setting information selected for each user as shown in FIG. 5 to the user terminal 500.
  • each translated text in Chinese and Vietnamese is distributed together with the voice recognition result in Japanese. If only one language is selected, one speech recognition result or one translated text will be displayed.
  • the delivered text display method is to display the translated texts of a plurality of languages individually, or to display one balloon as a set with Japanese, such as a balloon surrounded by a dotted line. It is possible to display the translated text of another language in the (display block).
  • FIG. 6 is a diagram for explaining the first multilingual support function (function of broadcast voice distribution and user-specific translation conversion text distribution) of the present embodiment.
  • Japanese spoken voice data is transmitted to the management device 100, and the multilingual voice recognition unit 113 executes voice recognition processing.
  • the voice recognition result is Japanese text information.
  • the voice recognition result is output to the text translation unit 115, and the text translation unit 115 machine-translates the voice recognition result based on one or a plurality of languages corresponding to the set language of each user in the communication group.
  • the first translated text of a language other than the language of the voice recognition result (if there are a plurality of different languages, a plurality of first translated texts corresponding to each language) is generated.
  • the communication control unit 112 broadcasts the received Japanese spoken voice data to each of the other plurality of user terminals 500 as it is without translating it in the first control unit, and is an English speaker other than a Japanese speaker. Even foreign speakers such as Chinese speakers and Chinese speakers will hear the Japanese voice of Japanese speakers.
  • the communication control unit 112 distributes the translated text of the corresponding one or a plurality of languages to each of the user terminals 500 based on the language setting information of each user in the second control unit. For each foreign language speaker, the translated text of each language set for each user is displayed on the user terminal 500.
  • FIG. 7 is a diagram showing a processing flow of this system equipped with the first multilingual support function.
  • Each user activates the communication app control unit 520 on the user terminal 500, and the communication app control unit 520 performs connection processing with the management device 100. Then, enter his / her user ID and password from the predetermined login screen to log in to the management device 100.
  • the login authentication process is performed by the user management unit 111. After the first login, the operation of entering the user ID and password is omitted, and the communication app control unit 520 automatically performs the login process using the user ID and password entered at the time of the first login when the communication app control unit 520 is activated. Can be done.
  • the management device 100 After logging in, the management device 100 automatically performs a communication channel establishment process in the group call mode for each of the plurality of user terminals 500, and opens a group call channel centered on the management device 100.
  • each user accesses the management device 100 from the user terminal 500 and sets the language to be used (S501a, S501b, S501c).
  • the management device 100 transmits a language setting screen to the user terminal 500, receives language setting information (language selection information) from the user terminal 500, and registers the language setting information in the user information 121.
  • each user terminal 500 After logging in, each user terminal 500 performs information acquisition processing with the management device 100 at an arbitrary timing or at a predetermined time interval.
  • the communication app control unit 520 collects the spoken voice and transmits the spoken voice data to the management device 100 (S502a).
  • the multilingual voice recognition unit 113 of the management device 100 performs voice recognition processing on the received utterance voice data (S101), and outputs the voice recognition result of the utterance content as Japanese text.
  • the communication control unit 112 stores the voice recognition result in the communication history 123, and stores the utterance voice data in the storage device 120 (S102).
  • the text translation unit 115 performs machine translation processing of the Japanese speech recognition result, and based on the language setting information set by each user in the communication group, 1 translates the corresponding language (first translation text). Generate one or more (S103).
  • the communication control unit 112 broadcasts the uttered voice data (Japanese) of the user A to each of the user terminals 500 other than the uttered user A. Further, the utterance content (Japanese) of the user A stored in the communication history 123 is transmitted to each user terminal 500 in the communication group including the user A itself for display synchronization (S104). At this time, the communication control unit 112 refers to the language setting information of each user and transmits the translated text of each corresponding language to each of the user terminals 500.
  • the communication app control unit 520 of each user terminal 500 other than the user A performs automatic reproduction processing of the received utterance voice data (utterance) and outputs the utterance voice (S502b, S502c), while all users including the user A.
  • the terminal 500 displays the utterance content in the text format corresponding to the utterance voice output by voice in the display field D (S502a, S503b, S503c).
  • FIG. 8 is an explanatory diagram of the first multilingual support function based on an example. The same processing as in FIG. 7 is designated by the same reference numerals and the description thereof will be omitted.
  • user A is a Japanese speaker, and only Japanese is set as the language setting information.
  • User B is a Chinese speaker, and Japanese and Chinese are set as the language setting information.
  • User C is an English speaker, and English, Chinese, and Spanish are set as the language setting information.
  • FIG. 9 is a diagram for explaining the second multilingual support function (function of broadcast distribution of multilingual synthetic voice based on input text and function of translation conversion text distribution for each user).
  • the management device 100 that has received the text input in the user terminal 500 provides synthetic voice data based on the input text in a language set by each user (easy to understand).
  • the Chinese input text is transmitted to the management device 100 and output to the text translation unit 115.
  • the text translation unit 115 machine-translates the input text of Chinese based on one or a plurality of languages corresponding to the set language of each user in the communication group, and translates the input text of Chinese into a second translation of a language other than Chinese. Generate text (if there are multiple different languages, multiple second translated texts for each language).
  • the communication control unit 112 controls to generate synthetic speech data in each language from the text base only when text is input.
  • the multilingual speech synthesis unit 114 uses the translated text generated based on the input text to generate synthetic speech data for each language.
  • the synthesized voice data of the corresponding language for each user is distributed to each of the other plurality of user terminals 500.
  • each user can hear the Japanese synthetic voice data if he / she is a Japanese speaker, and can hear the English synthetic voice data if he / she is an English speaker, and is composed of the language set by the user. Synthetic speech data is provided.
  • the communication control unit 112 distributes translated texts in one or more corresponding languages to each user terminal 500 based on the language setting information of each user in the second control unit. For each foreign language speaker, the translated text of each language set for each user is displayed on the user terminal 500.
  • FIG. 10 is a diagram showing a processing flow of this system equipped with a second multilingual support function.
  • the processing corresponding to the communication channel establishment process and the language used setting process of FIG. 8 described above is omitted because the description is duplicated.
  • the communication app control unit 520 transmits the input text to the management device 100 (S520b).
  • the text translation unit 115 of the management device 100 generates one or a plurality of translation texts (second translation texts) of each corresponding language based on the language setting information set by each user in the communication group (S1101).
  • the multilingual speech synthesis unit 114 of the communication control unit 112 uses the second translated text output from the text translation unit 115 to generate synthetic speech data for each language (S1102).
  • the communication control unit 112 stores the input text and the like in the communication history 123, and stores the synthesized voice data in the storage device 120 (S1103).
  • the communication control unit 112 selects synthetic voice data in a language corresponding to the user-specific setting language and transmits it to each of the user terminals 500 other than the user B who has input the text. Further, the utterance content (Chinese) of the input text is transmitted to each user terminal 500 in the communication group including the user B himself for display synchronization (S1104). At this time, the communication control unit 112 refers to the language setting information of each user and transmits the translated text of each corresponding language to each of the user terminals 500.
  • the communication app control unit 520 of each user terminal 500 other than the user B performs automatic reproduction processing of the received utterance voice data (utterance) and outputs the utterance voice (S520a, S520c) to all users including the user B.
  • the terminal 500 displays the utterance content in the text format corresponding to the set language in the display field D (S521a, S521b, S521c).
  • FIG. 11 is an explanatory diagram of the second multilingual support function based on an example.
  • the same processing as in FIG. 10 is designated by the same reference numerals and the description thereof will be omitted.
  • user A is a Japanese speaker, and only Japanese is set as the language setting information.
  • User B is a Chinese speaker, and Japanese and Chinese are set as the language setting information.
  • User C is an English speaker, and English, Chinese, and Spanish are set as the language setting information.
  • User B who is a non-native speaker of Japanese, inputs text for group calls in Chinese as the main language used (S530b).
  • the synthetic voice data is not delivered to the user B who has input the text, but the text in the language corresponding to the set language of the user B is delivered and the display synchronization is performed (S531b).
  • the Chinese text entered by himself and the translated Japanese text are displayed.
  • User A who is a Japanese speaker, distributes the synthesized voice data translated into Japanese, performs the voice data reproduction process in Japanese (S530a), and corresponds to the set language "Japanese”.
  • the translated text is delivered and display synchronization is performed (S531b).
  • User C who is an English speaker, distributes the synthesized voice data translated into English, performs the reproduction processing of the English voice data (S530c), and has the translated text corresponding to the setting language "English” and the setting language "English”.
  • the input text corresponding to "Chinese” and the translated text corresponding to the set language "Spanish” are delivered and display synchronization is performed (S531c).
  • this communication system is equipped with a first multilingual support function and a second multilingual support function, and realizes an environment in which it is possible to suppress deterioration in processing speed and translation accuracy and facilitate communication in group calls. do.
  • the first multilingual support function provides translated text in a language that is easy for non-native speakers to understand, so that communication can be supported.
  • the second multilingual support function enables smooth group calls by text input instead of utterance.
  • a mode in which a non-native speaker inputs text in a language other than Japanese has been described as an example, but a non-native speaker in Japanese should input text in Japanese. Is also possible.
  • Japanese non-native speakers are not good at pronouncing Japanese, but the text may be understood to some extent. In that case, the non-native speaker can input the text in Japanese.
  • you are not good at Japanese pronunciation you can communicate smoothly by group call.
  • the first multilingual support function and the second multilingual support function of this communication system can provide a smooth communication environment for group calls.
  • the first multilingual function and the second multilingual function of this communication system can provide a smooth communication environment for group calls by themselves as described above.
  • each user is configured to include a storage unit for storing language setting information and a text translation unit 115 for generating translated text obtained by translating the spoken voice recognition result into different languages.
  • the communication control unit 112 broadcasts the received utterance voice data to each of the other plurality of mobile communication terminals without translating it in the first control unit, and sets the language of each user in the second control unit. Based on the information, the system configuration can be such that the translated text of the corresponding language is distributed to each mobile communication terminal.
  • each user is configured to include a storage unit for storing language setting information and a text translation unit 115 for generating translated text obtained by translating the spoken voice recognition result into different languages.
  • the text translation unit 115 is configured to generate a translated text obtained by translating the input text received from the user terminal 500 into a different language based on the language setting information of each user, and is a multilingual speech synthesis unit.
  • 114 can be configured to generate synthetic speech data for each language using translated text generated based on the input text.
  • the communication control unit 112 distributes synthetic voice data of the corresponding language to each of the other plurality of user terminals 500 based on the language setting information of each user in the first control unit, and in the second control unit, Based on the language setting information of each user, the translated text in which the input text is translated into the corresponding language can be distributed to each user terminal 500 in a system configuration.
  • each function of the communication management device 100 and the user terminal 500 can be realized by a program, and a computer program prepared in advance for realizing each function is stored in the auxiliary storage device.
  • the control unit such as the CPU reads the program stored in the auxiliary storage device into the main storage device, and the control unit executes the program read out in the main storage device, whereby the functions of each unit can be operated. ..
  • Computer-readable recording media include optical discs such as CD-ROMs, phase-changing optical discs such as DVD-ROMs, magneto-optical disks such as MO (Magnet Optical) and MD (Mini Disk), floppy (registered trademark) disks, and the like. Examples include magnetic disks such as removable hard disks, compact flash (registered trademark), smart media, SD memory cards, and memory cards such as memory sticks. Further, a hardware device such as an integrated circuit (IC chip or the like) specially designed and configured for the purpose of the present invention is also included as a recording medium.
  • IC chip or the like specially designed and configured for the purpose of the present invention is also included as a recording medium.
  • Communication management device 110 Control device 111 User management unit 112 Communication control unit (first control unit, second control unit) 112A Language setting unit 113 Multilingual voice recognition unit 114 Multilingual voice synthesis unit 115 Text translation unit 120 Storage device 121 User information 122 Group information 123 Communication history information 124 Multilingual voice recognition dictionary 125 Multilingual type Speech synthesis dictionary 130 Communication device 500 User terminal (mobile communication terminal) 510 Communication / call unit 520 Communication App control unit 530 Microphone (sound collection unit) 540 speaker (audio output section) 550 Display / Input Unit 560 Storage Unit D Display Field

Abstract

【課題】異なる使用言語のユーザ同士の情報伝達の品質向上を支援する。 【解決手段】実施形態のコミュニケーションシステムは、複数の各ユーザがそれぞれ携帯する移動通信端末を通じ、ユーザの発話音声を他のユーザの移動通信端末に同報配信すると共に、受信した発話音声データの発話音声認識結果を、各移動通信端末において同期して表示されるようにテキスト配信する。各ユーザ別に、言語設定情報を保持しておき、さらに、発話音声認識結果を異なる言語に翻訳した翻訳テキストを生成する。発話音声データの同報配信において、受信した発話音声データは翻訳せずに他の複数の移動通信端末それぞれに同報配信し、テキスト配信において、各ユーザの言語設定情報に基づいて、該当する言語の翻訳テキストを移動通信端末それぞれに配信する。

Description

コミュニケーションシステム
 本発明の実施形態は、音声及びテキストを使用したコミュニケーション(情報共有、意思疎通など)支援技術に関し、特に、使用言語の多言語対応技術に関する。
 音声コミュニケーションの一例として、トランシーバ(transceiver)がある。トランシーバは、無線電波の送信機能と受信機能を兼ね備えた無線機であり、1人のユーザが複数人のユーザと通話(一方向又は双方向の情報伝達)を行うことができる。トランシーバの活用例は、工事現場やイベント会場、ホテルや旅館などの施設等で目にすることができる。また、タクシー無線もトランシーバ活用の一例として挙げることができる。
特開2005-286979号公報 特開2020-120357号公報
 グループ通話を行う異なる使用言語のユーザ同士の情報伝達の品質向上を支援することを目的とする。
 実施形態のコミュニケーションシステムは、複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信する。本コミュニケーションシステムは、移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第1制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、前記各移動通信端末において同期して表示されるようにテキスト配信制御を行う第2制御部と、を有するコミュニケーション制御部と、各ユーザ別に、言語設定情報を記憶する記憶部と、発話音声認識結果を、異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部と、を備える。前記コミュニケーション制御部は、前記第1制御部において、受信した前記発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信する。また、前記第2制御部において、各ユーザの言語設定情報に基づいて、該当する言語の前記翻訳テキストを前記移動通信端末それぞれに配信する。
第1実施形態のコミュニケーションシステムのネットワーク構成図である。 第1実施形態のコミュニケーション管理装置及びユーザ端末の各構成ブロック図である。 第1実施形態のユーザ情報及びグループ情報の一例を示す図である。 第1実施形態のユーザ端末に表示される画面例である。 第1実施形態の多言語対応機能(翻訳テキスト配信)を説明するための図である。 第1実施形態の第1多言語対応機能(発話音声の同報配信及びユーザ別翻訳変換テキスト配信の機能)を説明するための図である。 第1実施形態の第1多言語対応機能の処理フローを示す図である。 第1実施形態の事例に基づく第1多言語対応機能の説明図である。 第1実施形態の第2多言語対応機能(入力テキストに基づく多言語対応合成音声の同報配信及びユーザ別翻訳変換テキスト配信の機能)を説明するための図である。 第1実施形態の第2多言語対応機能の処理フローを示す図である。 第1実施形態の事例に基づく第2多言語対応機能の説明図である。
(第1実施形態)
 図1から図11は、第1実施形態を説明するための図である。図1は、本実施形態のコミュニケーションシステムのネットワーク構成図である。コミュニケーションシステムは、コミュニケーション管理装置(以下、管理装置と称する)100を中心に、音声及びテキストを用いた情報伝達支援機能を提供する。以下では、宿泊施設などの施設運営管理を一例に、コミュニケーションシステムを適用した態様について説明する。
 図1に示すように、管理装置100は、複数の各ユーザがそれぞれ携帯する各ユーザ端末(移動通信端末)500と無線通信で接続される。管理装置100は、一のユーザ端末500から受信した発話音声データを、他のユーザ端末500に同報配信する。
 ユーザ端末500は、例えば、スマートフォンなどの多機能携帯電話機やPDA(Personal Digital Assistant)、タブレット型端末などの持ち運び可能な携帯端末(モバイル端末)である。ユーザ端末500は、通信機能、演算機能及び入力機能を備え、IP(Internet protocol)網又は移動通信回線網(Mobile communication network)を通じて無線通信で管理装置100と接続し、データ通信を行う。
 一のユーザの発話音声が他の複数のユーザ端末500に同報配信される範囲(又は後述するコミュニケーション履歴が同期して表示される範囲)は、コミュニケーショングループとして設定され、対象ユーザ(現場ユーザ)のユーザ端末500それぞれが登録される。
 本実施形態のコミュニケーションシステムは、複数の各ユーザがハンズフリーで対話を行うことができることを前提とした、情報共有や意思疎通のための情報伝達を支援する。特に、本コミュニケーションシステムは、使用言語が異なる各ユーザが情報共有や意思疎通のための多言語対応機能を備えており、グループ通話を行う異なる使用言語のユーザ同士の情報伝達の品質向上を支援する。
 昨今、日本国内において、グループ通話が必要な作業現場では、日本語のみ理解できる日本語ネイティブ話者(日本語話者)と、少し日本語が理解できる日本語の非ネイティブ話者(外国語話者)とを含むコミュニケーショングループが形成されるケースが増加している。このようなグループコミュニケーションでは、言語理解という観点で、意思疎通がスムーズにできない課題が生じている。なお、話者の国籍は問わない。
 このような課題に対し、翻訳技術を活用し、外国語話者には日本語以外の使用言語に翻訳してコミュニケーションを成立させる環境を実現することも考えられるが、単に翻訳すればよいというものではない。つまり、グループコミュニケーションは、グループ通話を前提とした業務の会話であり、日本語が苦手な外国語話者が、日々の業務を行う中で日本語でのコミュニケーション能力が向上するように仕向けることも重要である。
 また、発話音声データを他言語の発話音声データに翻訳する場合、精度及び処理速度の側面において課題がある。まず、発話音声データを音声認識処理してテキスト化し、音声認識結果を所望の言語に翻訳した翻訳変換テキストを生成する。そして、翻訳変換テキストを用いた合成音声処理を行い、翻訳合成音声データを生成する必要がある。したがって、多言語対応の音声認識処理に加え、音声認識処理結果を機械翻訳して翻訳変換テキストを生成する処理が連続して行われ、翻訳合成音声データを生成するまでの時間が長くなり(処理速度が遅くなり)、グループ通話のリアルタイム性を要するコミュニケーション自体が成立し難くなる。また、翻訳合成音声データの精度は、音声認識処理の精度と機械翻訳の精度とに依存するので、処理精度が低いと誤変換による間違った連絡または意思疎通が図り難い連絡となる。このため、処理精度が高い音声認識及び機械翻訳の技術導入が必要になるが、上述したように処理速度に加えて、コスト面においても現実的ではない。
 このように、発話音声データを多言語に変換して翻訳合成音声データを生成することは、高い技術及び費用が必要であり、グループ通話でのリアルタイムコミュニケーションを成立させるためのハードルが高い課題がある。特に、間違った翻訳合成音声データが提供されてしまうと、コミュニケーションの円滑性が損なわれ、現場の混乱を招き、業務効率が低下してしまう。円滑なコミュニケーションと業務効率のバランスを考慮した、日本語話者と外国語話者とが混在するコミュニケーショングループの意思疎通を図るための仕組みが必要である。
 そこで、本実施形態では、グループ通話におけるユーザ端末500を通じて発話された発話音声データは、翻訳せずにそのままの発話言語で同報配信し、音声認識結果に対しては、各ユーザが設定する言語設定情報の各言語の翻訳変換テキストを生成し、使用言語別にユーザに提供する。このように構成することで、処理速度及び翻訳精度の低下を抑制してグループ通話のコミュニケーションの円滑化を図ることができる。
 なお、外国語話者の一例として、少し日本語が理解できる日本語の非ネイティブ話者を挙げたが、日本語がほとんど又は全く理解できない日本語の非ネイティブ話者が含まれていても、本コミュニケーションシステムにより、円滑なコミュニケーションの向上環境及び促進環境を実現することができる。
 図2は、管理装置100及びユーザ端末500の各構成ブロック図である。なお、以下の説明では、発話音声データを音声認識して得られた音声認識結果を翻訳した翻訳変換テキスト(音声認識結果を翻訳したテキスト)を第1翻訳テキストと称し、入力テキストを当該入力テキストの言語以外の他の言語に翻訳した翻訳変換テキスト(入力テキストを翻訳したテキスト)を第2翻訳テキストと称する。
 管理装置100は、制御装置110、記憶装置120及び通信装置130を含む。通信装置130は、複数の各ユーザ端末500との間の通信接続管理及びデータ通信制御を行い、一のユーザによる発話音声データ及びその発話内容のテキスト情報を複数の各ユーザ端末500に一斉に送る同報配信通信制御を行い、グループ通話のコミュニケーション環境を提供する。
 制御装置110は、ユーザ管理部111、コミュニケーション制御部112、言語設定部112A、多言語対応型音声認識部113、多言語対応型音声合成部114、及びテキスト翻訳部115を含んで構成されている。記憶装置120は、ユーザ情報121、グループ情報122、コミュニケーション履歴(コミュニケーションログ)情報123、多言語対応型音声認識辞書124、及び多言語対応型音声合成辞書125を含んで構成されている。
 多言語対応型音声認識部113及び多言語対応型音声認識辞書124は、日本語、英語、中国語、スペイン語、フランス語、ドイツ語などの各種言語に対応した音声認識処理機能を実現する。ユーザ端末500から受信するユーザの発話音声データの言語に応じて音声認識辞書を適用し、発話音声データの言語と同じ言語の音声認識結果を生成する。
 多言語対応型音声合成部114及び多言語対応型音声合成辞書125も、各種言語に対応した音声合成機能を提供する。ユーザ端末500からテキスト入力された文字情報や、ユーザ端末500以外の情報入力装置(例えば、管理者や運営者、監督者が操作するモバイル端末やデスクトップPC)からテキスト入力された文字情報を受信し、受信した文字の言語又は受信した文字の言語以外の言語(第2翻訳テキストの言語)の合成音声データを生成する。なお、音声合成データを構成する各言語の音声データの素材は、任意である。
 ユーザ端末500は、通信・通話部510、コミュニケーションApp制御部520、マイク530、スピーカー540、タッチパネル等の表示入力部550、及び記憶部560を含んで構成されている。なお、スピーカー540は、実際には、イヤホンやヘッドホン(有線又はワイヤレス)などで構成される。
 図3は、各種情報の一例を示す図であり、ユーザ情報121は、本コミュニケーションシステムを利用するユーザ登録情報である。ユーザ管理部111は、所定の管理画面を通じて、ユーザID、ユーザ名、属性、グループを設定することができるように制御する。また、ユーザ管理部111は、各ユーザ端末500における本コミュニケーションシステムへのログイン履歴と、ログインしたユーザIDとそのユーザ端末500の識別情報(ユーザ端末500固有のMACアドレスや固体識別情報など)との対応リストと、を管理する。
 また、ユーザ情報121は、言語設定情報としてユーザ別に「設定言語」の項目を含むように構成され、後述するように、ユーザ端末500を通じて各ユーザが言語を選択して設定することができる。
 グループ情報122は、コミュニケーショングループを識別するグループ識別情報である。コミュニケーショングループID別に伝達情報の送受信及び同報配信を制御し、異なるコミュニケーショングループ間で情報が混在しないように制御される。ユーザ情報121において、グループ情報122に登録されたコミュニケーショングループを、各ユーザに紐付けることができる。
 本実施形態のユーザ管理部111は、複数の各ユーザの登録制御を行い、後述する第1制御(発話音声データ、合成音声データの同報配信)及び第2制御(ユーザの発話音声認識結果、第1翻訳テキスト及び第2翻訳テキストのテキスト同報配信)の対象のコミュニケーショングループを設定する機能を提供する。
 なお、グループ分けについては、本実施形態のコミュニケーションシステムを導入する施設等に応じて施設を複数の部門に分割して管理することもできる。例えば、宿泊施設を一例に説明すると、ベルパーソン(荷物運び)、コンシェルジュ、ハウスキーピング(清掃)をそれぞれ異なるグループに設定し、客室管理をそれぞれのグループ毎に細分化したコミュニケーション環境を構築することもできる。他の観点として、役割的にコミュニケーションが不要なケースも考えられる。例えば、料理の配膳係と、ベルパーソン(荷物運び)は、直接コミュニケーションをとる必要がないのでグループを分けることができる。また、地理的にコミュニケーションが不要なケースも考えられ、例えば、A支店、B支店などが地理的に離れており、かつ頻繁にコミュニケーションをする必要がない場合などは、グループを分けることができる。
 管理装置100のコミュニケーション制御部112は、第1制御部と第2制御部の各制御部として機能する。第1制御部は、一のユーザ端末500から受信した発話音声データ又は第1翻訳テキストに基づく合成音声データを他の複数のユーザ端末500それぞれに同報配信制御(グループ通話制御)を行う。第2制御部は、受信した発話音声データを音声認識処理して得られる発話音声認識結果又は第2翻訳テキストを、ユーザ同士のコミュニケーション履歴123として時系列に蓄積するとともに、発話したユーザのユーザ端末500を含む全てのユーザ端末500においてコミュニケーション履歴123が同期して表示されるようにテキスト配信制御を行う。
 第1制御部としての機能は、グループ通話機能を提供する発話音声データと合成音声データの各同報配信である。発話音声データは、ユーザが発声した音声データである。また、合成音声データは、ユーザ端末500から入力されたテキスト情報に基づいて生成された合成音声データである。合成音声データは、入力テキストの言語で生成された合成音声データ、入力テキストの言語を他の言語に翻訳した第2翻訳テキストの言語で生成された合成音声データを含む。
 第2制御部としての機能は、ユーザの発話音声認識結果、発話音声認識結果を他の言語に翻訳した第1翻訳テキスト、及び入力テキストの言語を他の言語に翻訳した第2翻訳テキストのテキスト同報配信である。ユーザ端末500において入力された音声及びユーザ端末500において再生される音声は、すべてテキスト化されてコミュニケーション履歴123に時系列に蓄積され、各ユーザ端末500において同期して表示されるように制御される。多言語対応型音声認識部113は、多言語対応型音声認識辞書124を用いて音声認識処理を行い、発話音声認識結果としてテキストデータを出力する。音声認識処理については公知の技術を適用することができる。
 コミュニケーション履歴情報123は、各ユーザの発話内容が時間情報と共に、テキストベースで時系列に蓄積されたログ情報である。各テキストに対応する音声データは、音声ファイルとして所定の記憶領域に格納しておくことができ、例えば、コミュニケーション履歴123には、音声ファイルの格納場所を記録する。コミュニケーション履歴情報123は、コミュニケーショングループ別にそれぞれ生成され、蓄積される。
 なお、コミュニケーション履歴情報123は、音声認識結果、第1翻訳テキスト、第2翻訳テキストの全てのテキスト、言い換えれば、音声認識結果、入力テキスト、各言語に翻訳された翻訳テキストを全て、蓄積するように構成してもよい。また、翻訳テキストは蓄積しないようにして、音声認識結果と入力テキストを蓄積するように構成してもよい。
 図4は、各ユーザ端末500で表示されるコミュニケーション履歴123の一例を示す図である。ユーザ端末500それぞれは、管理装置100からリアルタイムに又は所定のタイミングでコミュニケーション履歴123を受信し、複数のユーザ間で表示同期が取られる。各ユーザは、時系列に過去のコミュニケーションログを参照することができる。
 図4の例のように、各ユーザ端末500は、自分の発話内容及び自分以外の他のユーザの発話内容が表示欄Dに時系列に表示され、管理装置100に蓄積されるコミュニケーション履歴123がログ情報として共有される。なお、表示欄Dにおいて、ユーザ自身の発話音声に対応するテキストには、マイクマークHを表示し、発話者以外の他のユーザに対しては、マイクマークHの代わりに、表示欄DにおいてスピーカーマークMを表示したりすることができる。
 本実施形態では、複数のユーザ間で表示同期が取られるテキスト配信の態様として、音声認識結果と同じ内容であるが、言語が違うテキストが表示同期される態様が含まれる。また、入力テキストについても同様であり、ユーザ端末500から入力された入力テキストと同じ内容であるが、言語が違うテキストが表示同期される態様も含まれる。一方、後述するように、複数の異なる言語を使用言語として設定することもできる。この場合も同様に、音声認識結果又は入力テキストと、言語が違うテキストとを一緒に又は併記して表示する態様も含まれ、音声認識結果又は入力テキストの言語以外の他の複数の異なる言語それぞれのテキストが表示される態様も含まれる。
 図5は、本実施形態の多言語対応機能(翻訳テキスト配信)を説明するための図である。ユーザは、図5に示す言語設定画面で、使用言語を1つ又は複数設定することができる。複数設定するときは、設定する各言語間で優先順位を選択できるように構成してもよい(不図示)。
 言語設定画面は、言語設定部112Aによって提供され、ユーザ端末500のコミュニケーションApp制御部520は、言語設定画面で選択された1つ又は複数の言語設定情報を、管理装置100に送信する。ユーザ管理部111は、ユーザ情報121の設定言語として、受信した言語設定情報をユーザ別に格納する。
 テキスト翻訳部115は、複数言語に対応した機械翻訳機能を提供する処理部であり、図5の例において、日本語で「こんにちは」と発話されると、音声認識結果のテキスト「こんにちは」を、ユーザ情報121に登録される各設定言語それぞれに対する第1翻訳テキストを生成する機械翻訳する。例えば、中国語「『ニー』好」(『ニー』:イ(にんべん(人偏))に旁(つくり)が爾の簡体字)、ベトナム語「xin chao」(aは、アキュート・アクセントを付した文字)の各翻訳テキストを生成することができる。生成された各翻訳テキストは、コミュニケーション制御部112の第2制御部によって、図5に示すようにユーザ別に選択された言語設定情報に該当する言語の翻訳テキストが、ユーザ端末500に配信される。図5の例では、複数の言語を設定したユーザなので、日本語の音声認識結果と共に、中国語及びベトナム語の各翻訳テキストが配信されている。なお、1つの言語のみを選択した場合は、一つの音声認識結果又は1つの翻訳テキストが表示されることになる。
 一方、配信されたテキスト表示方法は、図5に示すように、複数の各言語の翻訳テキストを、個別に表示したり、点線で囲った吹き出しのように、日本語とセットにして1つの吹き出し(表示ブロック)に他の言語の翻訳テキストを併記するように表示したりすることができる。
 図6は、本実施形態の第1多言語対応機能(発話音声の同報配信及びユーザ別翻訳変換テキスト配信の機能)を説明するための図である。
 図6に示すように、日本語話者のユーザが発話すると、日本語の発話音声データが管理装置100に送信され、多言語対応音声認識部113において、音声認識処理が実行される。音声認識結果は、日本語のテキスト情報である。そして、音声認識結果は、テキスト翻訳部115に出力され、テキスト翻訳部115は、コミュニケーショングループ内の各ユーザの設定言語に該当する1つ又は複数の各言語に基づいて、音声認識結果を機械翻訳して音声認識結果の言語以外の他の言語の第1翻訳テキスト(異なる言語が複数ある場合は、各言語に応じた複数の第1翻訳テキスト)を生成する。
 コミュニケーション制御部112は、第1制御部において、受信した日本語の発話音声データを翻訳せずにそのまま、他の複数のユーザ端末500それぞれに同報配信し、日本語話者以外の英語話者や中国語話者などの外国語話者であっても、日本語話者の日本語音声を聞くことになる。一方、コミュニケーション制御部112は、第2制御部において、各ユーザの言語設定情報に基づいて、該当する1つ又は複数の言語の翻訳テキストをユーザ端末500それぞれに配信する。各外国語話者は、ユーザ端末500では、ユーザ別に設定した各言語の翻訳テキストが表示される。
 図7は、第1多言語対応機能を備えた本システムの処理フローを示す図である。
 各ユーザは、ユーザ端末500において、コミュニケーションApp制御部520を起動し、コミュニケーションApp制御部520が管理装置100との接続処理を行う。そして、所定のログイン画面から自分のユーザID及びパスワードを入力して管理装置100にログインする。ログイン認証処理は、ユーザ管理部111によって遂行される。なお、初回ログイン後は、ユーザID及びパスワードの入力操作を省略して、コミュニケーションApp制御部520が起動に伴い、初回ログイン時に入力されたユーザID及びパスワードを用いて自動的にログイン処理を行うことができる。
 ログイン後、管理装置100は、複数の各ユーザ端末500に対し、自動的にグループ通話モードでの通信チャネル確立処理を行い、管理装置100を中心としたグループ通話チャネルを開通させる。
 また、各ユーザは、ユーザ端末500から管理装置100にアクセスして、使用言語設定を行う(S501a,S501b,S501c)。管理装置100は、言語設定画面をユーザ端末500に送信し、ユーザ端末500から言語設定情報(言語選択情報)を受信して、ユーザ情報121に登録する。
 ログイン後の各ユーザ端末500は、任意のタイミングで又は所定の時間間隔で、管理装置100との間で情報取得処理を行う。
 例えば、日本語発話のユーザAが発話すると、コミュニケーションApp制御部520は、発話音声を集音し、発話音声データを管理装置100に送信する(S502a)。管理装置100の多言語対応型音声認識部113は、受信した発話音声データを音声認識処理し(S101)、発話内容の音声認識結果を日本語テキストで出力する。コミュニケーション制御部112は、音声認識結果をコミュニケーション履歴123に記憶し、発話音声データを記憶装置120に記憶する(S102)。
 テキスト翻訳部115は、日本語の音声認識結果の機械翻訳処理を行い、コミュニケーショングループ内の各ユーザが設定した言語設定情報に基づいて、該当する各言語の翻訳テキスト(第1翻訳テキスト)を1つ又は複数生成する(S103)。
 コミュニケーション制御部112は、発話したユーザA以外の他のユーザ端末500それぞれにユーザAの発話音声データ(日本語)を同報送信する。また、コミュニケーション履歴123に記憶したユーザAの発話内容(日本語)は、表示同期のために、ユーザA自身を含むコミュニケーショングループ内の各ユーザ端末500に送信する(S104)。このとき、コミュニケーション制御部112は、各ユーザの言語設定情報を参照し、該当する各言語の翻訳テキストを、ユーザ端末500それぞれに送信する。
 ユーザA以外の各ユーザ端末500のコミュニケーションApp制御部520は、受信した発話音声データ(発話)の自動再生処理を行い、発話音声出力を行いつつ(S502b,S502c)、ユーザAを含む全てのユーザ端末500は、音声出力された発話音声に対応するテキスト形式の発話内容を表示欄Dに表示させる(S502a、S503b、S503c)。
 図8は、事例に基づく第1多言語対応機能の説明図である。なお、図7と同様の処理については同符号を付して説明を省略する。
 図8の例では、ユーザAが日本語話者で、言語設定情報は、日本語のみを設定している。ユーザBは中国語話者であり、言語設定情報は、日本語と中国語を設定している。ユーザCは、英語話者であり、言語設定情報は、英語、中国語、スペイン語を設定している。
 日本語で発話したユーザAは(S510a)、発話音声データが配信されず、音声認識結果のみが配信されて表示同期が行われる(S511a)。中国語話者のユーザBは、ユーザAの発話音声データがそのまま配信され、日本語の発話音声データの再生処理が行われ(S510b)、かつ設定していた言語「中国語」に対応する翻訳テキストと、設定言語「日本語」に対応する音声認識結果とが配信され、表示同期が行われる(S511b)。英語話者のユーザCは、ユーザAの発話音声データがそのまま配信され、日本語の発話音声データの再生処理が行われ(S510c)、かつ設定言語「英語」に対応する翻訳テキストと、設定言語「中国語」に対応する翻訳テキスト、及び設定言語「スペイン語」に対応する翻訳テキストが配信され、表示同期が行われる(S511c)。
 図9は、第2多言語対応機能(入力テキストに基づく多言語対応合成音声の同報配信及びユーザ別翻訳変換テキスト配信の機能)を説明するための図である。
 図9の例は、ユーザ端末500において入力されたテキストを受信した管理装置100は、入力テキストに基づく合成音声データを各ユーザが設定した(理解し易い)言語で提供する。中国語話者のユーザが、中国語でテキスト入力すると、中国語の入力テキストが管理装置100に送信され、テキスト翻訳部115に出力される。テキスト翻訳部115は、コミュニケーショングループ内の各ユーザの設定言語に該当する1つ又は複数の各言語に基づいて、中国語の入力テキストを機械翻訳して中国語以外の他の言語の第2翻訳テキスト(異なる言語が複数ある場合は、各言語に応じた複数の第2翻訳テキスト)を生成する。
 次に、上述した第1多言語対応機能と異なるのは、コミュニケーション制御部112が、テキスト入力のときだけ、テキストベースから合成音声データを各言語で生成するように制御する。多言語対応音声合成部114は、入力テキストに基づいて生成された翻訳テキストを用い、各言語の合成音声データを生成する。そして、第1制御部において、各ユーザの言語設定情報に基づき、ユーザ別に該当する言語の合成音声データを、他の複数のユーザ端末500それぞれに配信する。この場合、各ユーザは、日本語話者であれば、日本語の合成音声データを、英語話者であれば、英語の合成音声データを聞くことができ、ユーザが設定した言語で構成される合成音声データが提供される。
 一方、コミュニケーション制御部112は、第2制御部において、各ユーザの言語設定情報に基づいて、該当する1つ又は複数の言語の翻訳テキストをユーザ端末500それぞれに配信する。各外国語話者は、ユーザ端末500では、ユーザ別に設定した各言語の翻訳テキストが表示される。
 図10は、第2多言語対応機能を備えた本システムの処理フローを示す図である。上述した図8の通信チャネル確立処理及び使用言語設定処理に相当する処理は、説明が重複するので省略している。
 例えば、中国語話者のユーザBがグループ通話のためのテキスト入力を行うと、コミュニケーションApp制御部520は、入力されたテキストを管理装置100に送信する(S520b)。管理装置100のテキスト翻訳部115は、コミュニケーショングループ内の各ユーザが設定した言語設定情報に基づいて、該当する各言語の翻訳テキスト(第2翻訳テキスト)を1つ又は複数生成する(S1101)。
 コミュニケーション制御部112の多言語対応音声合成部114は、テキスト翻訳部115から出力される第2翻訳テキストを用い、各言語の合成音声データを生成する(S1102)。コミュニケーション制御部112は、入力テキスト等をコミュニケーション履歴123に記憶し、合成音声データを記憶装置120に記憶する(S1103)。
 コミュニケーション制御部112は、テキストを入力したユーザB以外の他のユーザ端末500それぞれに、ユーザ別設定言語に該当する言語の合成音声データを選択して同報送信する。また、入力テキストの発話内容(中国語)は、表示同期のために、ユーザB自身を含むコミュニケーショングループ内の各ユーザ端末500に送信する(S1104)。このとき、コミュニケーション制御部112は、各ユーザの言語設定情報を参照し、該当する各言語の翻訳テキストを、ユーザ端末500それぞれに送信する。
 ユーザB以外の各ユーザ端末500のコミュニケーションApp制御部520は、受信した発話音声データ(発話)の自動再生処理を行い、発話音声出力を行いつつ(S520a,S520c)、ユーザBを含む全てのユーザ端末500は、設定言語に該当するテキスト形式の発話内容を、表示欄Dに表示させる(S521a、S521b、S521c)。
 図11は、事例に基づく第2多言語対応機能の説明図である。なお、図10と同様の処理については同符号を付して説明を省略する。
 図11の例でも同様に、ユーザAが日本語話者で、言語設定情報は、日本語のみを設定している。ユーザBは中国語話者であり、言語設定情報は、日本語と中国語を設定している。ユーザCは、英語話者であり、言語設定情報は、英語、中国語、スペイン語を設定している。
 日本語の非ネイティブ話者であるユーザBは、主な使用言語として、中国語でグループ通話のための連絡事項をテキスト入力する(S530b)。テキスト入力したユーザBには、合成音声データが配信されず、ユーザBの設定言語に応じた言語のテキストが配信されて表示同期が行われる(S531b)。図11の例では、自身が入力した中国語のテキストと翻訳された日本語のテキストが表示される。
 日本語話者のユーザAは、日本語に翻訳された合成音声データが配信され、日本語で音声データの再生処理が行われ(S530a)、かつ設定していた言語「日本語」に対応する翻訳テキストが配信され、表示同期が行われる(S531b)。英語話者のユーザCは、英語に翻訳された合成音声データが配信され、英語の音声データの再生処理が行われ(S530c)、かつ設定言語「英語」に対応する翻訳テキストと、設定言語「中国語」に対応する入力テキスト、及び設定言語「スペイン語」に対応する翻訳テキストが配信され、表示同期が行われる(S531c)。
 このように本コミュニケーションシステムは、第1多言語対応機能及び第2多言語対応機能を備え、処理速度及び翻訳精度の低下を抑制してグループ通話のコミュニケーションの円滑化を図ることができる環境を実現する。
 例えば、日本語の非ネイティブ話者にとって日本語が理解できていても、日本語の発音は難しいことがある。この場合、第1多言語対応機能により、非ネイティブ話者が理解し易い言語の翻訳テキストが提供されるので、意思疎通を支援することができる。また、第2多言語対応機能により、発話ではなく、テキスト入力によってグループ通話を円滑に行うことができる。図9~図11の例では、非ネイティブ話者が日本語以外の言語でテキスト入力を行う態様を一例に説明したが、日本語の非ネイティブ話者が日本語でテキスト入力するようにすることも可能である。すなわち、日本語の非ネイティブの話者には、日本語の発音は苦手であるが、テキストはある程度理解できる場合もあり、その場合は、非ネイティブ話者が日本語でテキスト入力を行うことで、日本語の発音が苦手でもグループ通話によるコミュニケーションを円滑に行うことができる。
 また、日本語の非ネイティブ話者にとって日本語が理解できていても、日本語の聞き取りは難しい場合や日本語の非ネイティブ話者にとって日本語テキストの方が理解しやすい場合がある。このようなケースにおいても、本コミュニケーションシステムの第1多言語対応機能及び第2多言語対応機能によって、円滑のグループ通話のコミュニケーション環境を提供することができる。
 なお、本コミュニケーションシステムの第1多言語対応機能及び第2多言語対応機能は、上述のようにそれぞれ単独でも、円滑のグループ通話のコミュニケーション環境を提供することができる。
 つまり、第1多言語対応機能を備えるシステムとして、
 複数の各ユーザがそれぞれ携帯するユーザ端末500を通じて、ユーザの発話音声を他のユーザのユーザ端末500に同報配信するコミュニケーションシステムであり、
 コミュニケーション制御部112が、ユーザ端末500から受信した発話音声データを他の複数のユーザ端末500それぞれに同報配信する第1制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、各ユーザ端末500において同期して表示されるようにテキスト配信制御を行う第2制御部と、を有する。
 さらに、各ユーザ別に、言語設定情報を記憶する記憶部と、発話音声認識結果を異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部115と、を備えるように構成される。
 そして、コミュニケーション制御部112は、第1制御部において、受信した発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信するとともに、第2制御部において、各ユーザの言語設定情報に基づいて、該当する言語の翻訳テキストを移動通信端末それぞれに配信する、システム構成とすることができる。
 また、第2多言語対応機能を備えるシステムとして、
 複数の各ユーザがそれぞれ携帯するユーザ端末500を通じて、ユーザの発話音声を他のユーザのユーザ端末500に同報配信するコミュニケーションシステムであり、
 コミュニケーション制御部112が、ユーザ端末500から受信した発話音声データを他の複数のユーザ端末500それぞれに同報配信する第1制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、各ユーザ端末500において同期して表示されるようにテキスト配信制御を行う第2制御部と、を有する。
 さらに、各ユーザ別に、言語設定情報を記憶する記憶部と、発話音声認識結果を異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部115と、を備えるように構成される。
 そして、テキスト翻訳部115は、各ユーザの言語設定情報に基づいて、ユーザ端末500から受信した入力テキストを、異なる言語に翻訳した翻訳テキストを生成するように構成し、多言語対応型音声合成部114が、入力テキストに基づいて生成された翻訳テキストを用い、各言語の合成音声データを生成するように構成することができる。
 コミュニケーション制御部112は、第1制御部において、各ユーザの言語設定情報に基づいて、該当する言語の合成音声データを、他の複数のユーザ端末500それぞれに配信するとともに、第2制御部において、各ユーザの言語設定情報に基づいて、入力テキストが該当する言語に翻訳された翻訳テキストを、ユーザ端末500それぞれに配信する、システム構成とすることができる。
 以上、本実施形態について説明したが、コミュニケーション管理装置100及びユーザ端末500の各機能は、プログラムによって実現可能であり、各機能を実現するために予め用意されたコンピュータプログラムが補助記憶装置に格納され、CPU等の制御部が補助記憶装置に格納されたプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行することで、各部の機能を動作させることができる。
 また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに提供することも可能である。コンピュータ読取可能な記録媒体としては、CD-ROM等の光ディスク、DVD-ROM等の相変化型光ディスク、MO(Magnet Optical)やMD(Mini Disk)などの光磁気ディスク、フロッピー(登録商標)ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ(登録商標)、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、本発明の目的のために特別に設計されて構成された集積回路(ICチップ等)等のハードウェア装置も記録媒体として含まれる。
 なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 コミュニケーション管理装置
110 制御装置
111 ユーザ管理部
112 コミュニケーション制御部(第1制御部,第2制御部)
112A 言語設定部
113 多言語対応型音声認識部
114 多言語対応型音声合成部
115 テキスト翻訳部
120 記憶装置
121 ユーザ情報
122 グループ情報
123 コミュニケーション履歴情報
124 多言語対応型音声認識辞書
125 多言語対応型音声合成辞書
130 通信装置
500 ユーザ端末(移動通信端末)
510 通信・通話部
520 コミュニケーションApp制御部
530 マイク(集音部)
540 スピーカー(音声出力部)
550 表示・入力部
560 記憶部
D 表示欄
 

Claims (5)

  1.  複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信するコミュニケーションシステムであって、
     移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第1制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、前記各移動通信端末において同期して表示されるようにテキスト配信制御を行う第2制御部と、を有するコミュニケーション制御部と、
     各ユーザ別に、言語設定情報を記憶する記憶部と、
     発話音声認識結果を、異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部と、を備え、
     前記コミュニケーション制御部は、
     前記第1制御部において、受信した前記発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信するとともに、
     前記第2制御部において、各ユーザの言語設定情報に基づいて、該当する言語の前記翻訳テキストを前記移動通信端末それぞれに配信する、
     ことを特徴とするコミュニケーションシステム。
  2.  前記テキスト翻訳部は、各ユーザの言語設定情報に基づいて、前記移動通信端末から受信した入力テキストを、異なる言語に翻訳した前記翻訳テキストを生成し、
     前記入力テキストに基づいて生成された前記翻訳テキストを用い、各言語の合成音声データを生成する音声合成部、をさらに備え、
     前記コミュニケーション制御部は、
     前記第1制御部において、各ユーザの言語設定情報に基づいて、該当する言語の前記合成音声データを、他の複数の移動通信端末それぞれに配信するとともに、
     前記第2制御部において、各ユーザの言語設定情報に基づいて、前記入力テキストが該当する言語に翻訳された前記翻訳テキストを、前記移動通信端末それぞれに配信する、
     ことを特徴とする請求項1に記載のコミュニケーションシステム。
  3.  前記コミュニケーション制御部は、前記移動通信端末を介して入力された各ユーザの前記言語設定情報を受け付ける言語設定部、を備え、
     前記言語設定部は、1ユーザに対して1又は複数の言語を設定可能に制御し、
     前記コミュニケーション制御部は、前記第2制御部において、前記言語設定情報において複数の言語が設定されている場合に、複数の各言語の前記翻訳テキストを前記移動通信端末に配信することを特徴とする請求項1又は2に記載のコミュニケーションシステム。
  4.  前記コミュニケーション制御部は、
     前記第2制御部において、各ユーザの言語設定情報に基づく該当言語の前記翻訳テキストと、前記音声認識結果とを含む発話テキストを前記移動通信端末それぞれに配信し、同報配信される発話音声データの言語の前記音声認識結果と前記翻訳テキストとが併記されて表示されるように制御することを特徴とする請求項1から3のいずれか1つに記載のコミュニケーションシステム。
  5.  複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信する管理装置によって実行されるプログラムであって、
     移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第1機能と、
     受信した発話音声データを音声認識処理して得られる発話音声認識結果を、前記各移動通信端末において同期して表示されるようにテキスト配信制御を行う第2機能と、
     各ユーザ別に、言語設定情報を記憶する第3機能と、
     発話音声認識結果を、異なる言語に翻訳した翻訳テキストを生成する第4機能と、を前記管理装置に実現させ、
     前記第1機能は、受信した前記発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信するとともに、
     前記第2機能は、各ユーザの言語設定情報に基づいて、該当する言語の前記翻訳テキストを前記移動通信端末それぞれに配信する、
     ことを特徴とするプログラム。
     
     
PCT/JP2021/026570 2020-08-17 2021-07-15 コミュニケーションシステム WO2022038928A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/040,662 US20230281401A1 (en) 2020-08-17 2021-07-15 Communication system
CN202180060305.XA CN116134803A (zh) 2020-08-17 2021-07-15 交流系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-137474 2020-08-17
JP2020137474A JP2022033526A (ja) 2020-08-17 2020-08-17 コミュニケーションシステム

Publications (1)

Publication Number Publication Date
WO2022038928A1 true WO2022038928A1 (ja) 2022-02-24

Family

ID=80323575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026570 WO2022038928A1 (ja) 2020-08-17 2021-07-15 コミュニケーションシステム

Country Status (4)

Country Link
US (1) US20230281401A1 (ja)
JP (1) JP2022033526A (ja)
CN (1) CN116134803A (ja)
WO (1) WO2022038928A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191959A (ja) * 2016-04-11 2017-10-19 株式会社日立製作所 Tv会議システムでの多言語音声翻訳システム
JP2020120356A (ja) * 2019-01-28 2020-08-06 株式会社日立情報通信エンジニアリング コミュニケーションシステムおよびそのコミュニケーション方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017191959A (ja) * 2016-04-11 2017-10-19 株式会社日立製作所 Tv会議システムでの多言語音声翻訳システム
JP2020120356A (ja) * 2019-01-28 2020-08-06 株式会社日立情報通信エンジニアリング コミュニケーションシステムおよびそのコミュニケーション方法

Also Published As

Publication number Publication date
JP2022033526A (ja) 2022-03-02
US20230281401A1 (en) 2023-09-07
CN116134803A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
US20160048508A1 (en) Universal language translator
US20090144048A1 (en) Method and device for instant translation
JP2005513619A (ja) リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法
US20050144012A1 (en) One button push to translate languages over a wireless cellular radio
WO2010019634A2 (en) Wearable headset with self-contained vocal feedback and vocal command
CN112236817A (zh) 低延迟邻近群组翻译
EP3665910B1 (en) Online automatic audio transcription for hearing aid users
JP2014167517A (ja) 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム
JP2011253389A (ja) 端末および擬似会話用返答情報作成プログラム
WO2022038928A1 (ja) コミュニケーションシステム
CN115004297A (zh) 交流管理装置及方法
JP7163035B2 (ja) 音響出力システム、音響出力方法及びプログラム
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
CN205004029U (zh) 阵列式声音掩蔽器
JP7332690B2 (ja) コミュニケーション管理装置
WO2019230363A1 (ja) 放音システム、情報処理システム、情報提供方法および情報処理方法
JP7353216B2 (ja) コミュニケーションシステム
JP4814613B2 (ja) 翻訳歌詞表示システム
CN205028649U (zh) 多通道声音掩蔽器
WO1999046762A1 (en) Automatic speech translator
JP2017134201A (ja) 管理装置、情報処理装置、情報提供システム、管理方法、および情報提供方法
WO2022113189A1 (ja) 音声翻訳処理装置
JP2022023459A (ja) コミュニケーションシステム及び評価方法
Farangiz Characteristics of Simultaneous Interpretation Activity and Its Importance in the Modern World
KR20210057650A (ko) 사용자 맞춤형 다중 음성 거래시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21858077

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21858077

Country of ref document: EP

Kind code of ref document: A1