WO2019150996A1 - 言語提示装置、言語提示方法、及び言語提示プログラム - Google Patents

言語提示装置、言語提示方法、及び言語提示プログラム Download PDF

Info

Publication number
WO2019150996A1
WO2019150996A1 PCT/JP2019/001554 JP2019001554W WO2019150996A1 WO 2019150996 A1 WO2019150996 A1 WO 2019150996A1 JP 2019001554 W JP2019001554 W JP 2019001554W WO 2019150996 A1 WO2019150996 A1 WO 2019150996A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
language
face
user
translated
Prior art date
Application number
PCT/JP2019/001554
Other languages
English (en)
French (fr)
Inventor
満 高見
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US16/966,365 priority Critical patent/US20200372902A1/en
Priority to JP2019569004A priority patent/JPWO2019150996A1/ja
Priority to CN201980011080.1A priority patent/CN111684410A/zh
Priority to SG11202007315UA priority patent/SG11202007315UA/en
Publication of WO2019150996A1 publication Critical patent/WO2019150996A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory
    • G09G5/24Generation of individual character patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3179Video signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3191Testing thereof
    • H04N9/3194Testing thereof including sensor feedback
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B21/00Projectors or projection-type viewers; Accessories therefor
    • G03B21/54Accessories
    • G03B21/56Projection screens
    • G03B21/60Projection screens characterised by the nature of the surface
    • G03B21/62Translucent screens
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user

Definitions

  • the present disclosure relates to a language presentation device, a language presentation method, and a language presentation program for presenting a language based on a speech recognition result.
  • Patent Document 1 discloses a speech translation device that inputs speech in at least two languages, recognizes the input content, and translates the recognized content into content in different languages. This speech translation apparatus outputs the translated content in speech and displays the input speech text and the translated content text in different directions on the screen.
  • An object of the present invention is to provide a language presentation device, a language presentation method, and a language presentation program that can turn a line of sight and simplify the realization of a smooth conversation with a natural feeling.
  • a first acquisition unit that acquires a first sound emitted from at least one of a first user and a second user located across a transparent presentation unit, and the acquired first sound
  • a second acquisition unit that acquires the content of the first sound and the translated content translated into a language suitable for the first user or the second user, and the acquired first
  • a language presentation apparatus comprising: a control unit that inverts one of the audio content and the translation content to the transparent presentation unit by inverting one of them in the horizontal direction.
  • the present disclosure is a language presentation method in a language presentation device used for a conversation between a first user and a second user located across a transparent presentation unit, the first user and the second user Acquiring the first voice uttered by at least one of the first voice, the content of the first voice acquired, and the content of the first voice are suitable for the first user or the second user. Acquiring the translated content translated into the selected language, and presenting the acquired content of the first voice and the translated content to the transparent presentation unit by inverting one of them in the left-right direction; A language presentation method is provided.
  • the present disclosure provides a language presentation device, which is a computer, used for a conversation between a first user and a second user located across a transparent presentation unit, and includes the first user and the second user.
  • a language presentation program is provided to achieve this.
  • the present disclosure also includes a transparent presentation unit, an acquisition unit that acquires a first voice in a first language issued by a user, the content of the acquired first voice, and the content of the first voice.
  • a language presentation device comprising: a control unit that presents second content translated into a second language different from the first language to the transparent presentation unit so as to be reversed in the left-right direction. .
  • the present disclosure also includes a step of acquiring a first voice in a first language issued by a user in a language presentation device that is a computer connected to a transparent presentation unit, and the content of the acquired first voice. Obtaining a second content in which the content of the first sound is translated into a second language different from the first language, the content of the first sound obtained and the second content A language presentation program is provided for realizing the step of presenting the contents to the transparent presentation unit so that the contents are reversed in the horizontal direction.
  • FIG. 2 is a block diagram showing in detail a system configuration example of the language presentation system according to the first embodiment.
  • Explanatory diagram showing an example of using the language presentation system by the host and guest Explanatory drawing which shows an example of the operation
  • Explanatory drawing which shows an example of the operation
  • Patent Document 1 (Background to the contents of the first embodiment) According to the configuration of Patent Document 1 described above, there is a possibility that even a conversation between people who cannot understand each other's language can realize a smooth conversation between them by looking at each other's screen.
  • both of them need to look away from the face (for example, eyes) of the other party and view the screen of the speech translation apparatus. Therefore, people who are accustomed to seeing each other's eyes during a conversation and having conversations on a daily basis (for example, foreigners visiting Japan for sightseeing, work, etc.) may feel uncomfortable and feel natural. There was a problem that it was difficult to realize a smooth conversation.
  • a host and a guest who cannot understand each other's language face each other's face across a transparent screen arranged at a counter such as a reception
  • a relationship between the host and the guest that is, the relationship between the service providing side and the receiving side
  • the relationship between the service providing side and the receiving side does not always hold. It may be similarly applied to conversations between users who are in a relationship.
  • FIG. 1 is a block diagram showing in detail a system configuration example of the language presentation system 100 according to the first embodiment.
  • FIG. 2 is an explanatory diagram showing a usage example of the language presentation system 100 by the host HST1 and the guest GST1.
  • a host HST1 and a guest GST1 who are users of the language presentation system 100 according to the first embodiment and cannot understand each other's language (for example, their native language) are fixed on a table TBL1 such as a counter.
  • a face-to-face conversation is performed while looking at each other's face across the transparent screen 30 installed on the screen.
  • a language presentation system 100 shown in FIG. 1 includes a face-to-face translator 10, a projector 20, a transparent screen 30, a button BT1, switches SW1 and SW2, a microphone MC1, a speaker SP1, and a translation server 50. It is.
  • the face-to-face translation machine 10 and the translation server 50 are communicably connected to each other via a network NW using a wired or wireless communication path.
  • a face-to-face translation machine 10 as an example of a language presentation device includes a communication unit 11, a memory 12, a control unit 13, and a storage unit 14.
  • the face-to-face translation machine 10 is configured using an information processing device such as a server device or a PC (Personal Computer), for example.
  • the host HST1 and the guest GST1 are not visible (for example, in a counter (not shown) Or it arrange
  • the face-to-face translator 10 supports conversation between the host HST1 and the guest GST1 that are located facing each other with the transparent screen 30 in between.
  • the communication unit 11 has a role as a communication interface related to communication with the translation server 50, and data (hereinafter referred to as “uttered voice data”) of voice (referred to later) collected by the microphone MC 1 is transmitted to the network. It transmits to the translation server 50 via NW.
  • the communication unit 11 receives the translated text data and the translated voice data transmitted from the translation server 50 via the network NW.
  • the communication unit 11 may temporarily store data or information acquired by the communication unit 11 in the memory 12.
  • the memory 12 is configured using, for example, a RAM (Random Access Memory) and a ROM (Read Only Memory), and programs and data necessary for executing the operation of the face-to-face translator 10, and data generated during the operation. Or temporarily hold information.
  • the RAM is a work memory used when the face-to-face translator 10 is operated, for example.
  • the ROM stores and holds in advance a program and data for controlling the face-to-face translator 10, for example.
  • the memory 12 holds information relating to the language (for example, Japanese) used by the host HST1 and information relating to the language (for example, English) used by the guest GST1 in association with each other.
  • Information on the language used by the host HST1 may be recorded in advance in the ROM, for example, or stored in the memory 12 as information set by the operation of the host HST1 (for example, pressing the language selection button BT1). Good.
  • Information about the language used by the guest GST1 is stored in the memory 12 as information set by the operation of the guest GST1 (for example, pressing the language selection button BT1). Note that FIG. 2 illustrates a situation in which information related to the language used by the guest GST1 is set on the transparent screen 30.
  • the guest GST1 is one of the languages (for example, English, Korean, Chinese (traditional), Chinese (simplified)) that is projected from the projector 20 onto the transparent screen 30 and used by the guest GST1. Is switched while the button BT1 is pressed shortly, and the user's own language is selected by long pressing the button BT1.
  • English, Korean, Chinese (traditional), and Chinese (simplified) are illustrated, but not limited to these languages.
  • it corresponds to usable language information registered in the memory 12 in advance. Then, it may be presented on the transparent screen 30 in a selectable manner.
  • English (English) is highlighted to indicate a state in which it is temporarily selected or finally selected as an option.
  • a signal corresponding to the operation of the guest GST1 from the button BT1 is input to the face-to-face translator 10 and registered in the memory 12. Note that the method of setting information related to the language is not limited to the example described above.
  • the memory 12 stores information on the projection position on the transparent screen 30 of the first text data in which the content of the voice (an example of the first voice) uttered by the host HST1 is recognized (that is, the first text data is stored in the first text data). (Height information presented on the transparent screen 30). Similarly, the memory 12 stores information on the projection position on the transparent screen 30 of the second text data in which the content of the voice (an example of the second voice) uttered by the guest GST1 is recognized (that is, the second text data). Holds the height information presented on the transparent screen 30.
  • the control unit 13 is a processor PRC1 configured using, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a DSP (Digital Signal Processor), or an FPGA (Field Programmable Gate Array).
  • the control unit 13 functions as a controller that controls the operation of the face-to-face translation machine 10. Output processing, data calculation (calculation) processing, and data storage processing are performed.
  • the control unit 13 operates according to the program and data stored in the memory 12.
  • the control unit 13 may use the memory 12 during operation, and temporarily store data or information generated or acquired by the control unit 13 in the memory 12. Details of the operation of the control unit 13 will be described later with reference to FIG.
  • the storage unit 14 is a recording device configured using, for example, an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the storage unit 14 stores, for example, data or information generated or acquired by the control unit 13.
  • the storage unit 14 may be omitted from the configuration of the face-to-face translator 10.
  • the projector 20 as an example of the transparent presentation unit is connected to the face-to-face translation machine 10 so that data or information can be transmitted and received.
  • the projector 20 is disposed so as to face the transparent screen 30.
  • the projector 20 receives and acquires projection image data including the projection instruction sent from the face-to-face translator 10
  • the projector 20 projects the projection image designated by the projection instruction on the transparent screen 30 based on the projection instruction.
  • Projection light for example, visible light
  • the projector 20 can project the projection image designated by the face-to-face translator 10 (for example, text data corresponding to the sound generated by the host HST1 or the guest GST1) onto the transparent screen 30, and the host HST1 and the guest GST1. Can support conversation.
  • the transparent screen 30 as an example of the transparent presentation unit has a configuration in which a sheet for projecting light projected from the projector 20 is attached to a transparent glass plate, for example, and is fixedly installed.
  • the transparent screen 30 is projected with projection light (for example, visible light) from the projector 20 and corresponds to a projection image (for example, sound emitted from the host HST1 or the guest GST1) for supporting conversation between the host HST1 and the guest GST1. Text data) is presented to both the host HST1 and the guest GST1.
  • the transparent screen 30 does not necessarily require the projector 20, and for example, a transparent display having a transmittance of about 40% or more is preferable, and a transmittance of 70% or more is particularly preferable.
  • the above transmissive liquid crystal display or transmissive organic EL display may be used.
  • a transparent screen for example, see Reference Non-Patent Document 1 below
  • Reference Non-Patent Document 1 Japanese Patent Document 1 below
  • the projector 20 and the transparent screen 30 instead of the projector 20 and the transparent screen 30, as an example of the transparent presentation unit, data or information from the face-to-face translator 10 can be displayed, and the host HST1 and the guest GST1 are directly touched.
  • a transparent touch panel that can detect operations such as these may be provided.
  • the button BT1 is a language selection button used for setting information related to the language used by the host HST1 or the guest GST1, and for example, as shown in FIG. 2, the transparent screen 30 placed on the table TBL1. It is provided in a substantially central part of the circular base so that it can be pressed. A projected image for language selection for the guest GST1 is projected on the transparent screen 30 in FIG. 2, and the guest GST1 presses the button BT1 for the language used by the guest GST1 (for example, the native language of the guest GST1). To select. Note that the button BT1 may be arranged closer to the side where the guest GST1 is located than the side where the host HST1 is located so that the guest GST1 is easy to press (see FIG. 2), and is omitted from the host HST1 and the guest GST1. They may be arranged at equidistant positions.
  • the switch SW1 is a switch that is pressed by the host HST1 to instruct the face-to-face translation machine 10 when to speak by the host HST1.
  • the switch SW1 is pressed by the host HST1 immediately before the host HST1 speaks.
  • the face-to-face translation machine 10 can recognize the timing when the host HST1 speaks based on the signal from the switch SW1.
  • the switch SW2 is a switch that is pressed by the guest GST1 to instruct the face-to-face translation machine 10 when the guest GST1 speaks. In other words, the switch SW2 is pressed by the guest GST1 immediately before the guest GST1 speaks. Thereby, the face-to-face translator 10 can recognize the timing of the guest GST1 speaking based on the signal from the switch SW2.
  • the microphone MC1 picks up the voice uttered by either the host HST1 or the guest GST1 that alternately talks, and sends the collected voice signal to the face-to-face translator 10.
  • the microphone MC1 may be arranged to face the guest GST1 side of the base of the transparent screen 30 in order to make it easier to pick up the sound of the guest GST1 than the sound of the host HST1.
  • the microphone MC1 is arranged so as to be equidistant from both the host HST1 side and the guest GST1 side of the base of the transparent screen 30 in order to uniformly collect the sounds of the host HST1 and the guest GST1. Good.
  • Speaker SP1 inputs the voice data signal output from the face-to-face translator 10 and outputs the voice.
  • the audio data signal input to the speaker SP1 includes, for example, the audio data signal generated by the host HST1, the audio data signal generated by the guest GST1, and the audio content generated by the host HST1.
  • a signal of speech data of a translation result translated into a suitable language that is, translated speech data
  • a speech result of translation of speech content of the guest GST1 translated into a language suitable for the host HST1 One of the signals of voice data (that is, translated voice data).
  • the translation server 50 as an example of a language presentation device includes a communication unit 51, a memory 52, a translation control unit 53, and a storage unit 54.
  • the translation server 50 is a cloud server that is configured by using an information processing device such as a server device or a computer such as a PC and connected to the face-to-face translation machine 10 via the network NW.
  • the translation server 50 receives and acquires the speech data from the face-to-face translator 10, the translation server 50 recognizes the speech corresponding to the speech data and translates the speech data.
  • the translation server 50 includes text data that is a character recognition result (hereinafter referred to as “recognized text data”), text data that is a translation processing result (hereinafter referred to as “translation text data”), and speech data that is a translation processing result (hereinafter referred to as “translation text data”). , Referred to as “translated speech data”).
  • the communication unit 51 has a role as a communication interface related to communication with the face-to-face translator 10, and transmits the above-described recognized text data, translation text data, and translated speech data to the face-to-face translator 10 via the network NW. To do.
  • the communication unit 11 receives the utterance voice data transmitted from the face-to-face translator 10 via the network NW.
  • the communication unit 51 may temporarily store data or information acquired by itself in the memory 52.
  • the memory 52 is configured by using, for example, a RAM and a ROM, and temporarily stores programs and data necessary for executing the operation of the translation server 50, and further data or information generated during the operation.
  • the RAM is a work memory used when the translation server 50 operates, for example.
  • the ROM stores and holds a program and data for controlling the translation server 50 in advance.
  • the translation control unit 53 is a processor PRC2 configured using, for example, a CPU, MPU, DSP, or FPGA.
  • the translation control unit 53 functions as a controller that controls the operation of the translation server 50, performs control processing for overall control of operations of each unit of the translation server 50, and data input / output processing with each unit of the translation server 50 Data calculation (calculation) processing and data storage processing are performed.
  • the translation control unit 53 operates according to programs and data stored in the memory 52.
  • the translation control unit 53 may use the memory 52 during operation, and temporarily store data or information generated or acquired by the translation control unit 53 in the memory 52. Details of the operation of the translation control unit 53 will be described later with reference to FIG.
  • the storage unit 54 is a recording device configured using, for example, an HDD or an SSD.
  • the storage unit 54 stores data or information generated or acquired by the translation control unit 53, for example.
  • the storage unit 54 holds a dictionary DB (database) used when the translation control unit 53 performs translation processing on the recognized text data.
  • the storage unit 54 holds a speech DB that is used by the translation control unit 53 to generate speech data corresponding to the translated text data (that is, translated speech data).
  • the translation server 50 periodically updates the contents of the dictionary DB and the voice DB described above by periodically communicating with, for example, an external dictionary server (not shown) connected via the network NW. Good.
  • FIG. 3 is an explanatory diagram showing an example of an operation outline of the language presentation system 100 triggered by a statement of the host HST1 at time t1.
  • FIG. 4 is an explanatory diagram showing an example of an operation outline of the language presentation system 100 at time t2 after the timing of FIG.
  • FIG. 5 is an explanatory diagram showing an example of an operation outline of the language presentation system 100 at time t3 after the timing of FIG.
  • FIG. 6 is an explanatory diagram showing an example of an operation outline of the language presentation system 100 triggered by the speech of the guest GST1 at time t4 after time t3.
  • FIG. 7 is an explanatory diagram showing an example of an operation outline of the language presentation system 100 at time t5 after the timing of FIG. 3 to 7, for example, the viewpoint viewed from the guest GST1 is shown as the main direction.
  • the face-to-face translator 10 collects the voice data (uttered voice data) from the microphone MC1 when the voice “Get on the Oedo Line from Hamarikyu” issued by the host HST1 is picked up by the microphone MC1. It transmits to the translation server 50.
  • the translation server 50 performs character recognition processing on the speech voice data transmitted from the face-to-face translator 10, and recognizes the recognized text data (that is, the text data of “Get on the Oedo Line from Hamarikyu”). Generate and send to the face-to-face translator 10.
  • the face-to-face translator 10 receives and acquires the recognized text data transmitted from the translation server 50.
  • the face-to-face translator 10 presents the recognized text data HTX1 to the host HST1 by projecting it onto the transparent screen 30 via the projector 20.
  • the translation server 50 refers to the dictionary DB stored in the storage unit 54 for recognized text data as a character recognition result.
  • To generate translated text data that is, text data of “Please get on the Oedo Line from the Hamarikyu”.
  • the translation server 50 associates the translated text data and the translated speech data and transmits them to the face-to-face translator 10.
  • the face-to-face translator 10 receives and acquires the translation text data and the translation voice data transmitted from the translation server 50.
  • the face-to-face translator 10 projects the translated text data GLTX1 onto the transparent screen 30 via the projector 20 in a state where the recognized text data HTX1 is reversed in the left-right direction from the direction in which the recognized text data HTX1 is presented on the transparent screen 30. Present to GST1.
  • the face-to-face translator 10 passes through at least the translated text data GLTX1 via the projector 20 in a state where the recognized text data HTX1 is reversed in the horizontal direction from the direction in which the recognized text data HTX1 is presented on the transparent screen 30. What is necessary is just to show to guest GST1 by making it project on the transparent screen 30.
  • the projector 20 is instructed to stop projecting the recognized text data HTX1 so as to stop earlier than the projection of the text data GLTX1.
  • the translation text data GLTX1 presented to the guest GST1 continues to be projected on the transparent screen 30 for a long time, so that the face-to-face translation machine 10 is compared with the host HST1. It is possible to provide more kind conversation support to the guest GST1.
  • the face-to-face translator 10 acquires the voice data (uttered voice data) from the microphone MC1 and translates it into the translation server 50. Send to.
  • the translation server 50 performs character recognition processing on the speech voice data transmitted from the face-to-face translator 10, and generates recognized text data (that is, text data of “Thank for lettering know”) as a result of the character recognition. Transmit to the face-to-face translator 10.
  • the face-to-face translator 10 receives and acquires the recognized text data transmitted from the translation server 50.
  • the face-to-face translator 10 presents the recognized text data GLTX2 to the guest GST1 by projecting it onto the transparent screen 30 via the projector 20.
  • the translation server 50 may generate the translation text data and the translation voice data not at time t5 but at time t4 before that. In FIG.
  • the face-to-face translator 10 passes through the projector 20 with at least the translated text data HLTX2 reversed in the left-right direction from the direction in which the recognized text data GLTX2 is presented on the transparent screen 30. What is necessary is just to show to host HST1 by making it project on the transparent screen 30.
  • FIG. 8 is a sequence diagram illustrating in detail an example of an operation procedure of the language presentation system 100 according to the first embodiment.
  • a language for example, Japanese
  • a host HST1 an example of a first user
  • a guest GST1 an example of a second user
  • the operation procedure shown in FIG. 8 does not matter which of the host HST1 and the guest GST1 speaks first.
  • the signal indicating that the button has been pressed is input by the control unit 13 via the communication unit 11 of the face-to-face translation machine 10.
  • the microphone MC1 picks up sound data of a sound emitted from the host HST1 or the guest GST1 (S1).
  • the control unit 13 (an example of the first acquisition unit) of the face-to-face translation machine 10 inputs voice data of the voice (an example of the first voice) collected by the microphone MC1 in step S1 via the communication unit 11. (S11). Since the controller 13 of the face-to-face translator 10 can recognize which switch was pressed immediately before the time point of step S11, the voice data acquired at the time point of step S11 was remarked by either the host HST1 or the guest GST1. I can understand. Note that the controller 13 of the face-to-face translator 10 recognizes in advance which language the host HST1 and the guest GST1 use, so that, for example, the utterance is performed by executing a known language estimation process using utterance speech data. The language of the voice data may be estimated to infer whether the host HST1 has spoken or the guest GST1 has spoken.
  • the communication unit 11 of the face-to-face translator 10 transmits the speech data (that is, speech speech data) acquired in step S11 to the translation server 50 (S12).
  • the translation control unit 53 of the translation server 50 does not recognize the information related to the language (for example, Japanese) used by the host HST1 and the information related to the language (for example, English) used by the guest GST1.
  • the communication unit 11 of the face-to-face translator 10 may transmit information related to the languages used by the host HST1 and the guest GST1 to the translation server 50 together with the speech voice data.
  • the translation control part 53 of the translation server 50 can recognize which language should be translated into which language based on the information regarding the language transmitted from the facing translator 10 at the time of step S12.
  • the translation control unit 53 of the translation server 50 receives and acquires the speech voice data transmitted from the face-to-face translator 10 in step S12, and executes a known character recognition process using the speech voice data (S21).
  • the translation control unit 53 of the translation server 50 uses the character recognition result of step S21 to generate recognized text data in which the content of the speech voice data is subjected to character recognition processing (S22).
  • the communication unit 51 of the translation server 50 transmits the recognized text data generated in step S22 to the face-to-face translator 10 (S23).
  • the translation control unit 53 of the translation server 50 uses the character recognition result of step S21 to translate the language into a language suitable for the host HST1 or the guest GST1 by referring to the dictionary DB stored in the storage unit 54. Then, translation text data is generated (S24). Further, the translation control unit 53 of the translation server 50 refers to the voice DB stored in the storage unit 54 and applies the text data (for example, words and sentences) in the translation text data suitable for the host HST1 or the guest GST1. Translated speech data obtained by connecting corresponding speech data is generated (S24). The communication unit 51 of the translation server 50 transmits both the translated text data and the translated speech data generated in step S24 to the face-to-face translator 10 (S25).
  • the translation control unit 53 of the translation server 50 may execute the processes of steps S22 and S23 and the processes of steps S24 and S25 in parallel, or steps S22, S23, S24, You may perform in order of S25.
  • FIG. 8 illustrates that each of steps S21 to S25 is executed by an external server (that is, translation server 50) different from face-to-face translator 10, but in the first embodiment, the steps Some or all of the processes of S21 to S25 may be executed by the face-to-face translator 10, for example.
  • the configuration of the translation server 50 in the system configuration of the language presentation system 100 can be omitted, or the processing amount of the translation server 50 can be reduced. Therefore, the language presentation system 100 can reduce the amount of data communication via the network NW between the face-to-face translation machine 10 and the translation server 50, or the face-to-face translation machine 10 alone can complete the processing shown in FIG. It is possible to effectively support quick responsiveness of conversation between the host HST1 and the guest GST1.
  • the communication unit 11 (an example of a second acquisition unit) of the face-to-face translation machine 10 receives and acquires the recognized text data transmitted from the translation server 50 in step S23 (S13).
  • the controller 13 of the face-to-face translator 10 generates a first projection instruction for projecting the recognized text data on the transparent screen 30, and sends the first projection instruction including the recognized text data via the communication unit 11.
  • the projector 20 projects the recognized text data on the transparent screen 30 so as to be visible to the host HST1 and the guest GST1 (S2).
  • the communication unit 11 (an example of the second acquisition unit) of the face-to-face translation machine 10 receives and acquires the translation text data and the translation voice data transmitted from the translation server 50 in step S25 (S14).
  • the translated text data indicates the content of the speech (an example of the second speech) in which the speech content of the speech speech data is translated into a language suitable for the host HST1 or the guest GST1.
  • the translated speech data is speech data configured by concatenating speech data corresponding to each word constituting the translated text data.
  • the controller 13 of the face-to-face translator 10 outputs the translated speech data to the speaker SP1, thereby causing the translated speech, which is the content of the translated speech data, to be output from the speaker SP1 and presented to the host HST1 or the guest GST1 (S3). ).
  • control unit 13 of the face-to-face translator 10 generates a second projection instruction for projecting the translated text data in a state in which the direction of the recognized text data on the transparent screen 30 is reversed in the horizontal direction, and the translation is performed.
  • a second projection instruction including text data is transmitted to the projector 20 via the communication unit 11 (S15).
  • the projector 20 projects the translated text data on the transparent screen 30 so as to be visible to the host HST1 and the guest GST1 (S4).
  • the face-to-face translator 10 acquires utterance voice data from at least one of the host HST1 and the guest GST1 that are located facing each other across the transparent screen 30. .
  • the face-to-face translator 10 acquires the speech content of the acquired utterance speech data and the speech content of the translated speech data in which the speech content of the utterance speech data is translated into a language suitable for the host HST1 or the guest GST1.
  • the face-to-face translator 10 presents the voice content of the acquired speech voice data and the voice content of the translated voice data on the transparent screen 30 by inverting one of them in the left-right direction.
  • the host HST1 and the guest GST1 can present their own language and the language of the other party facing each other during a conversation between people who cannot understand each other's language. Therefore, it is possible to turn the eyes to each other's faces, and it is possible to simplify the realization of a smooth conversation with a natural feeling.
  • the face-to-face translator 10 acquires recognized text data (an example of first text data) in which the speech content of the speech speech data is character-recognized as the first speech content, and the recognized text data is the host HST1 or Translated text data (an example of second text data) translated into a language suitable for the guest GST1 is acquired as a translation content.
  • the face-to-face translator 10 can accurately present the content of the conversation made by the host HST1 or the guest GST1 as text data on the transparent screen 30, so that, for example, a conversation such as a telop (that is, subtitle) in television broadcasting can be used. Can promote understanding effectively.
  • the face-to-face translator 10 further acquires second speech speech data (for example, translated speech data) obtained by translating the content of the speech speech data into a language suitable for the host HST1 or the guest GST1 as the translation content.
  • second speech speech data for example, translated speech data
  • the face-to-face translator 10 effectively conveys to the other party the voice in which the conversation spoken by the host HST1 or the guest GST1 is translated into a language understandable by the other party, not only by text but also by voice output. And can support quick understanding of the conversation content as an aid to the understanding of the other party.
  • the face-to-face translator 10 transmits the speech content of the speech data as a character to be extracted from the first shape frame (for example, a rectangular frame) filled with the first color (for example, light blue). 30 is instructed to project to the projector 20 so that it can be presented.
  • the extracted character is, for example, a character that is cut out only from a rectangular frame that is completely painted in light blue and comes out and becomes visible to the host HST1, and is not easily recognized compared to a frame character that will be described later.
  • the face-to-face translator 10 converts the speech content of the translated text data as a frame character in which a second color (for example, white) is given within a transparent second shape frame (for example, a rectangular frame).
  • the frame character is, for example, a character in which only the character portion is given white in a rectangular frame with a transparent background and white and is visible to the guest GST1, and is easier to recognize than the above-described blank character.
  • the face-to-face translator 10 may, for example, present the text of the content that it has spoken to the host HST1 as a cut-off character, while the guest GST1 has a guest character GST1 as a frame character compared to the cut-out character. Since it is possible to present text with good visibility, the text is presented on the transparent screen 30 with favorable consideration for the guest GST1 so as to avoid confusion between recognition of text data that can be understood by each other. it can.
  • the host HST1 and the guest GST1 may be configured by touch panels (not shown) that can be operated respectively.
  • the face-to-face translator 10 first recognizes text data (an example of the content of the first speech) based on the first presentation position and the second presentation position specified on the touch panel by the host HST1 and the guest GST1, respectively.
  • the translation text data (an example of the content of translation) is presented at the second presentation position.
  • the face-to-face translator 10 can display (present) the recognized text data and the translated text data at an arbitrary position on the touch panel designated by both the host HST1 and the guest GST1, and the host HST1 and the guest GST1 can face each other.
  • the text data corresponding to each language can be presented at a position where it is easy to see and, for example, a position slightly below the line of sight, which can be easily viewed in actual conversation.
  • the face-to-face translator 10 converts the contents of the recognized text data and the translated text data so that the translated text data (an example of the contents of translation) is above the recognized text data (an example of the contents of the first speech).
  • the face-to-face translator 10 can present the translated text data at a position on the upper side of the transparent screen 30 where the guest GST1 is easy to see, giving priority to the guest GST1 over the host HST1, for example.
  • the text can be presented on the transparent screen 30 that has been performed.
  • the face-to-face translator 10 presents the translated text data (an example of the translated content) on the transparent screen 30 longer in time than the recognized text data (an example of the first audio content).
  • the face-to-face translator 10 gives priority to the guest GST1 over the host HST1, for example, and the translated text data visually recognized by the guest GST1 is longer in time than the recognized text data visually confirmed by the host HST1. Since it can be presented on the transparent screen 30, the text can be presented on the transparent screen 30 with favorable consideration for the guest GST1.
  • the face-to-face translator 10 presents the translated text data (an example of the translation content) on the transparent screen 30 with a predetermined color (for example, white) having a high recognition rate.
  • a predetermined color for example, white
  • the face-to-face translation machine 10 allows the guest GST1 to visually recognize the translation text data of a predetermined color (for example, white) projected on the transparent screen 30, so that the content of the translation text data of the guest GST1 can be quickly understood. be able to.
  • the transparent screen 30 and the projector 20 are included.
  • the face-to-face translator 10 sends an instruction to project the recognized text data (an example of the contents of the first voice) and the translated text data (an example of the contents of translation) onto the transparent screen 30 to the projector 20.
  • the face-to-face translator 10 can easily present the recognized text data uttered by the host HST1 and the translated text data suitable for the guest GST1 on the transparent screen 30 via the projector 20.
  • the host HST1 and the guest GST1 are configured by touch panels (not shown) that can be operated respectively.
  • the face-to-face translator 10 sends the recognized text data (an example of the content of the first speech) and the translated text data (an example of the content of translation) to the touch panel.
  • the face-to-face translation machine 10 confirms the recognized text data and the translated text data displayed on the touch panel with the host HST1 and the guest GST1 facing each other with the touch panel in between. This makes it possible to effectively realize a natural conversation.
  • the size of various text data projected on the transparent screen 30 is specified by the projector 20, and the size is, for example, face-to-face translation. It may be included in the projection instruction from the machine 10. Thereby, the face-to-face translator 10 can flexibly change the size of the text data presented on the transparent screen 30 according to the age specified by the operation of the host HST1 or the guest GST1, for example.
  • the transparent screen 30 is provided as an example of the transparent presentation unit. Therefore, for example, when the transparent screen 30 is arranged in a place where a high-quality feeling can be produced (for example, a department store's cosmetics department or a premium train reception), a special customer (for example, a guest GST1) is treated.
  • the language presentation system 100 can be used as a service tool.
  • the control unit 13 (an example of an acquisition unit) of the face-to-face translation machine 10 includes a transparent screen 30 (an example of a transparent presentation unit) and a host HST1 or a guest GST1 (an example of a user).
  • a transparent screen 30 an example of a transparent presentation unit
  • a host HST1 or a guest GST1 an example of a user.
  • the control unit 13 of the face-to-face translator 10 obtains the content of the acquired first voice and the translated content in which the content of the first voice is translated into a second language (for example, English) different from the first language. Then, the images are presented on the transparent screen 30 via the projector 20 or directly so as to be reversed in the horizontal direction.
  • the face-to-face translation machine 10 allows the content of the speech in the first language (for example, Japanese) spoken by the user (for example, the host HST1 that speaks Japanese) and the content of the speech to other users (for example, English). Can be reversed and displayed on the transparent screen 30 in the left-right direction. Therefore, for example, when people who cannot understand each other have a conversation, the user's language and the partner's language can be confirmed through the transparent screen 30 while seeing the other's face. Can be simplified.
  • the first language for example, Japanese
  • the host HST1 that speaks Japanese
  • English for example, English
  • the table TBL1 on which the transparent screen 30 is arranged is not limited to be placed on the counter shown in FIG. It may be a table (not shown) connected to a pole with a simple stand.
  • the host HST1 and the guest GST1 can not only stop at a specific limited position and have a conversation, but the mobility of the transparent screen 30 can be improved and the conversation location of the host HST1 and the guest GST1 can be arbitrarily changed. .
  • the host HST1 and the guest GST1 have been described as having a face-to-face conversation with a transparent screen placed on a reception counter or the like.
  • the place where the transparent screen is placed is
  • a taxi, a restaurant, a conference room, a station information station, etc. may be used.
  • a transparent glass between the driver's seat and the rear seat in a taxi can be used as the transparent screen 30, and a transparent screen is used between people who are conversing face-to-face at restaurants, conference rooms, and station information centers. 30 may be deployed.
  • the language presentation system 100 according to Embodiment 1 described above can also be applied to pointing translation in which text data of each language is displayed on a so-called touch panel or the like.
  • This disclosure makes it possible to present a person's own language and the language of the other party to each other's faces and to look at each other's faces during a conversation between people who do not understand each other's languages.
  • the present invention is useful as a language presentation device, a language presentation method, and a language presentation program that simplify the realization of a smooth conversation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

言語提示装置は、透明提示部を挟んで互いに対面して位置する第1のユーザと第2のユーザとの会話に供する。言語提示装置は、第1のユーザ及び第2のユーザのうち少なくとも一方の発した第1の音声を取得し、第1の音声の内容と、第1の音声の内容が第1のユーザ又は第2のユーザに適した言語に翻訳された翻訳内容とを取得し、第1の音声の内容及び翻訳内容を、いずれか一方を左右方向に反転して透明提示部に提示する。

Description

言語提示装置、言語提示方法、及び言語提示プログラム
 本開示は、発言された音声の認識結果に基づく言語を提示する言語提示装置、言語提示方法、及び言語提示プログラムに関する。
 特許文献1では、少なくとも2種類の言語による音声を入力し、入力された内容を認識し、認識された内容を異なる言語の内容に翻訳する音声翻訳装置が開示されている。この音声翻訳装置は、翻訳された内容を音声で出力するとともに、入力された音声のテキストと翻訳された内容のテキストとを画面上の互いに異なる向きに表示する。
国際公開第2017/086434号
 本開示は、上述した従来の事情に鑑みて案出され、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化する言語提示装置、言語提示方法、及び言語提示プログラムを提供することを目的とする。
 本開示は、透明提示部を挟んで位置する第1のユーザと第2のユーザのうち少なくとも一方の発した第1の音声を取得する第1の取得部と、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得する第2の取得部と、取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示する制御部と、を備える、言語提示装置を提供する。
 また、本開示は、透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する言語提示装置における言語提示方法であって、前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を有する、言語提示方法を提供する。
 また、本開示は、透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する、コンピュータである言語提示装置に、前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を実現させるための、言語提示プログラムを提供する。
 また、本開示は、透明提示部と、ユーザの発した第1言語における第1の音声を取得する取得部と、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された第2の内容とを、お互いが左右方向に反転するように前記透明提示部に提示する制御部と、を備える、言語提示装置を提供する。
 また、本開示は、透明提示部に接続されたコンピュータである言語提示装置に、ユーザの発した第1言語における第1の音声を取得するステップと、取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された第2の内容と、を取得するステップと、取得された前記第1の音声の内容及び前記第2の内容を、お互いが左右方向に反転するように前記透明提示部に提示するステップと、を実現させるための、言語提示プログラムを提供する。
 本開示によれば、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化できる。
実施の形態1に係る言語提示システムのシステム構成例を詳細に示すブロック図 ホスト及びゲストによる言語提示システムの使用例を示す説明図 時刻t1におけるホストの発言をトリガとした言語提示システムの動作概要の一例を示す説明図 図3のタイミング以降の時刻t2における言語提示システムの動作概要の一例を示す説明図 図4のタイミング以降の時刻t3における言語提示システムの動作概要の一例を示す説明図 時刻t3以降の時刻t4におけるゲストの発言をトリガとした言語提示システムの動作概要の一例を示す説明図 図6のタイミング以降の時刻t5における言語提示システムの動作概要の一例を示す説明図 実施の形態1に係る言語提示システムの動作手順の一例を詳細に説明するシーケンス図
(実施の形態1の内容に至る経緯)
 上述した特許文献1の構成によれば、互いの言語を理解できない人同士の会話であっても、互いに画面を見ることで両者の円滑な会話を実現できる可能性はある。しかし、この特許文献1では、互いの言語を理解できない人同士の会話の途中に、両者とも相手の顔(例えば、目)から離れて音声翻訳装置の画面を見る必要があった。従って、会話中に互いに相手の目を見て会話することに日常的に慣れている人(例えば、日本に観光や仕事等で訪れた外国人)にとっては違和感を与えることになり、自然な感じでスムーズな会話を実現することが困難であるという課題があった。
 そこで、以下の実施の形態1では、上述した従来の事情に鑑みて案出され、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化する言語提示装置、言語提示方法、及び言語提示プログラムの例を説明する。
 以下、添付図面を適宜参照しながら、本開示に係る言語提示装置、言語提示方法、及び言語提示プログラムを具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
 以下、本開示に係る言語提示装置を含む言語提示システムのユースケースの一例として、受付等のカウンターに配置された透明スクリーンを挟んで、互いの言語を理解できないホスト及びゲストが互いに相手の顔を見ながら対面して行う会話に供する(言い換えると、会話を支援する)例を説明する(図2参照)。なお、以下の実施の形態は、言語提示システムのユーザとして、ホスト及びゲストの関係(つまり、サービスを提供する側と提供を受ける側との関係)が常に成り立たなくてよく、例えば互いに均等な立場の関係にあるユーザ同士の会話にも同様に適用されてよい。
 図1は、実施の形態1に係る言語提示システム100のシステム構成例を詳細に示すブロック図である。図2は、ホストHST1及びゲストGST1による言語提示システム100の使用例を示す説明図である。図2に示すように、実施の形態1に係る言語提示システム100の利用者であって互いの言語(例えば母国語)を理解できないホストHST1及びゲストGST1は、カウンター等のテーブルTBL1上に固定的に設置された透明スクリーン30を挟んで互いの相手の顔を見ながら対面して会話を行う。
 図1に示す言語提示システム100は、対面翻訳機10と、プロジェクタ20と、透明スクリーン30と、ボタンBT1と、スイッチSW1,SW2と、マイクMC1と、スピーカSP1と、翻訳サーバ50とを含む構成である。対面翻訳機10と翻訳サーバ50とは、有線もしくは無線の通信路を用いたネットワークNWを介して互いに通信可能に接続される。
 言語提示装置の一例としての対面翻訳機10は、通信部11と、メモリ12と、制御部13と、記憶部14とを含む構成である。対面翻訳機10は、例えばサーバ装置もしくはPC(Personal Computer)等のコンピュータである情報処理装置を用いて構成され、例えばホストHST1及びゲストGST1がともに視認不可な位置(例えば、カウンター内(図示略)もしくはバックヤードの監視室(図示略)内)に配置される。対面翻訳機10は、透明スクリーン30を挟んで互いに対面して位置するホストHST1及びゲストGST1の会話を支援する。
 通信部11は、翻訳サーバ50との間の通信に関する通信インターフェースとしての役割を有し、マイクMC1により収音された音声(後述参照)のデータ(以下、「発話音声データ」という)を、ネットワークNWを介して翻訳サーバ50に送信する。通信部11は、翻訳サーバ50から送信された翻訳テキストデータや翻訳音声データを、ネットワークNWを介して受信する。通信部11は、自ら取得したデータ又は情報をメモリ12に一時的に保存してよい。
 メモリ12は、例えばRAM(Random Access Memory)とROM(Read Only Memory)とを用いて構成され、対面翻訳機10の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えば対面翻訳機10の動作時に使用されるワークメモリである。ROMは、例えば対面翻訳機10を制御するためのプログラム及びデータを予め記憶して保持する。
 また、メモリ12は、ホストHST1が使用する言語(例えば日本語)に関する情報と、ゲストGST1が使用する言語(例えば英語)に関する情報とを対応付けて保持する。ホストHST1が使用する言語に関する情報は、例えばROMに予め記録されてもよいし、ホストHST1の操作(例えば、言語選択用のボタンBT1の押下)により設定された情報として都度メモリ12に記憶されてよい。ゲストGST1が使用する言語に関する情報は、ゲストGST1の操作(例えば、言語選択用のボタンBT1の押下)により設定された情報として都度メモリ12に記憶される。なお、図2では、透明スクリーン30に、ゲストGST1が使用する言語に関する情報が設定される状況が図示されている。例えば、ゲストGST1は、プロジェクタ20から透明スクリーン30に投影された言語の種類(例えば、英語、韓国語、中文(繁体字)、中文(簡体字))のうち、自己が使用するいずれか一つの言語を、ボタンBT1を短押ししながら切り替え、ボタンBT1の長押しによって自己の言語を選択する。ここでは、英語、韓国語、中文(繁体字)、中文(簡体字)が例示されているが、これらの言語に限定されず、例えばメモリ12に予め登録されている使用可能な言語情報に対応して透明スクリーン30に選択可能に提示されてよい。図2では、例えば英語(English)が選択肢として仮に選択された状態又は最終的に選択された状態を示すためにハイライト提示されている。この選択されたゲストGST1が使用する言語に関する情報は、ボタンBT1からのゲストGST1の操作に応じた信号が対面翻訳機10に入力されてメモリ12に登録される。なお、言語に関する情報の設定の仕方は、上述した例に限定されない。
 また、メモリ12は、ホストHST1が発した音声(第1の音声の一例)の内容が文字認識された第1のテキストデータの透明スクリーン30における投影位置の情報(つまり、第1のテキストデータが透明スクリーン30に提示される高さの情報)を保持する。同様に、メモリ12は、ゲストGST1が発した音声(第2の音声の一例)の内容が文字認識された第2のテキストデータの透明スクリーン30における投影位置の情報(つまり、第2のテキストデータが透明スクリーン30に提示される高さの情報)を保持する。
 制御部13は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)もしくはFPGA(Field Programmable Gate Array)を用いて構成されたプロセッサPRC1である。制御部13は、対面翻訳機10の動作を司るコントローラとして機能し、対面翻訳機10の各部の動作を全体的に統括するための制御処理、対面翻訳機10の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。制御部13は、メモリ12に記憶されたプログラム及びデータに従って動作する。制御部13は、動作時にメモリ12を使用し、制御部13が生成又は取得したデータ又は情報をメモリ12に一時的に保存してよい。制御部13の動作の詳細については、図8を参照して後述する。
 記憶部14は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)を用いて構成された記録装置である。記憶部14は、例えば制御部13が生成又は取得したデータ又は情報を記憶する。なお、記憶部14は対面翻訳機10の構成から省略されてもよい。
 透明提示部の一例としてのプロジェクタ20は、対面翻訳機10との間でデータもしくは情報の送受信が可能に接続される。プロジェクタ20は、透明スクリーン30に対向するように配置される。プロジェクタ20は、対面翻訳機10から送出された投影指示を含む投影画像のデータを受信して取得すると、その投影指示に基づき、その投影指示により指定された投影画像を透明スクリーン30に投影するための投影光(例えば可視光)を生成して透明スクリーン30に向けて投影する。これにより、プロジェクタ20は、対面翻訳機10により指定された投影画像(例えば、ホストHST1やゲストGST1の発した音声に対応するテキストデータ)を透明スクリーン30に投影可能となり、ホストHST1及びゲストGST1の会話を支援できる。
 透明提示部の一例としての透明スクリーン30は、例えば透明なガラス板にプロジェクタ20からの投影光が映し出されるためのシートが貼り付けられた構成であり、固定的に設置される。透明スクリーン30は、プロジェクタ20からの投影光(例えば可視光)が投影されて、ホストHST1及びゲストGST1の会話を支援するための投影画像(例えば、ホストHST1やゲストGST1の発した音声に対応するテキストデータ)をホストHST1及びゲストGST1の両方に提示する。なお、透明スクリーン30は、必ずしもプロジェクタ20は必要ではなく、例えば透過率が約40%以上の透過性のあるディスプレイが好ましく、特に透過率70%以上であることが好ましい。また、上記のような透過性のある液晶ディスプレイや透過性のある有機ELディスプレイなどでもよい。
 さらに、例えば透明モードとスクリーンモードとが交互に切り換え可能な透明スクリーン(例えば、下記参考非特許文献1参照)でよい。
 (参考非特許文献1)
 パナソニック株式会社、透明スクリーン、[online]、[平成30年1月22日検索]、インターネット<URL:https://panasonic.biz/cns/invc/screen/technology.html>
 なお、実施の形態1において、プロジェクタ20及び透明スクリーン30の代わりに、透明提示部の一例として、対面翻訳機10からのデータもしくは情報の表示が可能であってホストHST1及びゲストGST1が直接にタッチ等の操作を検出可能な、透明のタッチパネルが設けられてもよい。
 ボタンBT1は、ホストHST1やゲストGST1の使用する言語に関する情報を設定するために使用される言語選択用のボタンであり、例えば図2に示すように、テーブルTBL1上に載置された透明スクリーン30の円形基台の略中央部に押下可能に設けられる。図2の透明スクリーン30には、ゲストGST1のための言語選択用の投影画像が投影されており、ゲストGST1は、自己の使用する言語(例えば、ゲストGST1の母国語)を、ボタンBT1を押下することで選択等する。なお、ボタンBT1は、ゲストGST1が押下し易いように、ホストHST1が位置する側よりもゲストGST1が位置する側により近くに配置されてよいし(図2参照)、ホストHST1及びゲストGST1から略等距離の位置に配置されてもよい。
 スイッチSW1は、ホストHST1が発言するタイミングを対面翻訳機10に指示するために、ホストHST1により押下されるスイッチである。言い換えると、スイッチSW1は、ホストHST1が発言する直前にホストHST1により押下される。これにより、対面翻訳機10は、スイッチSW1からの信号に基づいて、ホストHST1が発言したタイミングを認識可能である。
 スイッチSW2は、ゲストGST1が発言を行うタイミングを対面翻訳機10に指示するために、ゲストGST1により押下されるスイッチである。言い換えると、スイッチSW2は、ゲストGST1が発言する直前にゲストGST1により押下される。これにより、対面翻訳機10は、スイッチSW2からの信号に基づいて、ゲストGST1が発言したタイミングを認識可能である。
 マイクMC1は、交互に会話を行うホストHST1及びゲストGST1のうちいずれかが発した音声を収音し、収音された音声の信号を対面翻訳機10に送出する。なお、マイクMC1は、ホストHST1の音声よりゲストGST1の音声をより収音し易くするために、透明スクリーン30の基台のゲストGST1側に向くように配置されてよい。また、マイクMC1は、ホストHST1及びゲストGST1のそれぞれの音声を均等に収音するために、透明スクリーン30の基台のホストHST1側及びゲストGST1側の両方から等距離となるように配置されてよい。
 スピーカSP1は、対面翻訳機10から出力された音声データの信号を入力して音声出力する。スピーカSP1に入力される音声データの信号は、例えば、ホストHST1の発した音声の音声データの信号、ゲストGST1の発した音声の音声データの信号、ホストHST1の発した音声の内容がゲストGST1に適した言語に翻訳された翻訳結果の音声の音声データ(つまり、翻訳音声データ)の信号、又は、ゲストGST1の発した音声の内容がホストHST1に適した言語に翻訳された翻訳結果の音声の音声データ(つまり、翻訳音声データ)の信号のうちいずれかである。
 言語提示装置の一例としての翻訳サーバ50は、通信部51と、メモリ52と、翻訳制御部53と、記憶部54とを含む構成である。翻訳サーバ50は、例えばサーバ装置もしくはPC等のコンピュータである情報処理装置を用いて構成され、対面翻訳機10とネットワークNWを介して接続されるクラウドサーバである。翻訳サーバ50は、対面翻訳機10から音声データを受信して取得すると、その音声データに対応する音声を文字認識するとともに、その音声データを翻訳処理する。翻訳サーバ50は、文字認識結果であるテキストデータ(以下、「認識テキストデータ」という)、翻訳処理結果であるテキストデータ(以下、「翻訳テキストデータ」という)、翻訳処理結果である音声データ(以下、「翻訳音声データ」という)を対面翻訳機10に送信する。
 通信部51は、対面翻訳機10との間の通信に関する通信インターフェースとしての役割を有し、上述した認識テキストデータ、翻訳テキストデータ、翻訳音声データを、ネットワークNWを介して対面翻訳機10に送信する。通信部11は、対面翻訳機10から送信された発話音声データを、ネットワークNWを介して受信する。通信部51は、自ら取得したデータ又は情報をメモリ52に一時的に保存してよい。
 メモリ52は、例えばRAMとROMとを用いて構成され、翻訳サーバ50の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えば翻訳サーバ50の動作時に使用されるワークメモリである。ROMは、例えば翻訳サーバ50を制御するためのプログラム及びデータを予め記憶して保持する。
 翻訳制御部53は、例えばCPU、MPU、DSPもしくはFPGAを用いて構成されたプロセッサPRC2である。翻訳制御部53は、翻訳サーバ50の動作を司るコントローラとして機能し、翻訳サーバ50の各部の動作を全体的に統括するための制御処理、翻訳サーバ50の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。翻訳制御部53は、メモリ52に記憶されたプログラム及びデータに従って動作する。翻訳制御部53は、動作時にメモリ52を使用し、翻訳制御部53が生成又は取得したデータ又は情報をメモリ52に一時的に保存してよい。翻訳制御部53の動作の詳細については、図8を参照して後述する。
 記憶部54は、例えばHDD又はSSDを用いて構成された記録装置である。記憶部54は、例えば翻訳制御部53が生成又は取得したデータ又は情報を記憶する。また、記憶部54は、翻訳制御部53が認識テキストデータを翻訳処理する時に用いる辞書DB(database)を保持する。また、記憶部54は、翻訳制御部53が翻訳テキストデータに対応する音声データ(つまり、翻訳音声データ)を生成するために用いる音声DBを保持する。翻訳サーバ50は、例えばネットワークNWを介して接続された外部辞書サーバ(図示略)との間で定期的に通信することで、上述した辞書DBや音声DBそれぞれの内容を定期的に更新してよい。
 次に、実施の形態1に係る言語提示システム100の動作概要について、図3から図7を参照して説明する。図3は、時刻t1におけるホストHST1の発言をトリガとした言語提示システム100の動作概要の一例を示す説明図である。図4は、図3のタイミング以降の時刻t2における言語提示システム100の動作概要の一例を示す説明図である。図5は、図4のタイミング以降の時刻t3における言語提示システム100の動作概要の一例を示す説明図である。図6は、時刻t3以降の時刻t4におけるゲストGST1の発言をトリガとした言語提示システム100の動作概要の一例を示す説明図である。図7は、図6のタイミング以降の時刻t5における言語提示システム100の動作概要の一例を示す説明図である。なお、図3~図7では、例えばゲストGST1から見た視点が主方向となるように図示されている。
 図3に示すように、時刻t=t1において、ホストHST1がスイッチSW1を押下して「浜離宮から大江戸線に乗って下さい」と発言したとする。対面翻訳機10は、マイクMC1においてホストHST1の発した「浜離宮から大江戸線に乗って下さい」の音声が収音されると、その音声のデータ(発話音声データ)をマイクMC1から取得して翻訳サーバ50に送信する。翻訳サーバ50は、対面翻訳機10から送信された発話音声データを文字認識処理し、その文字認識結果である認識テキストデータ(つまり、「浜離宮から大江戸線に乗って下さい」のテキストデータ)を生成して対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された認識テキストデータを受信して取得する。対面翻訳機10は、認識テキストデータHTX1を、プロジェクタ20を介して透明スクリーン30に投影させることでホストHST1に提示する。
 次に、図4に示すように、時刻t=t1以降の時刻t=t2において、翻訳サーバ50は、文字認識結果である認識テキストデータを、記憶部54内に記憶される辞書DBを参照して翻訳処理して翻訳テキストデータ(つまり、「Please get on the Oedo Line from the Hamarikyu」のテキストデータ)を生成する。また、時刻t=t2において、翻訳サーバ50は、翻訳テキストデータに対応する音声データ(翻訳音声データ)を生成する。翻訳サーバ50は、翻訳テキストデータ及び翻訳音声データを対応付けて対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された翻訳テキストデータ及び翻訳音声データを受信して取得する。対面翻訳機10は、翻訳テキストデータGLTX1を、認識テキストデータHTX1が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでゲストGST1に提示する。また、対面翻訳機10は、時刻t=t2において、翻訳音声データをスピーカSP1から音声出力する。なお、翻訳サーバ50が翻訳テキストデータ及び翻訳音声データを生成するタイミングは時刻t2でなくその前の時刻t1でもよい。図4では、時刻t2において、対面翻訳機10は、少なくとも翻訳テキストデータGLTX1を、認識テキストデータHTX1が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでゲストGST1に提示すればよい。
 次に、図5に示すように、時刻t=t2以降の時刻t=t3において、対面翻訳機10は、時刻t=t2において透明スクリーン30上に投影されていた認識テキストデータHTX1の投影を翻訳テキストデータGLTX1の投影よりも早く停止するように、プロジェクタ20に認識テキストデータHTX1の投影停止を指示する。これにより、時刻t=t2より後の時刻t3においては、透明スクリーン30上にはゲストGST1に提示される翻訳テキストデータGLTX1が長く投影され続けることで、対面翻訳機10は、ホストHST1と比べてゲストGST1に対して一層親切な会話支援を行うことができる。
 次に、時刻t=t3以降の時刻t=t4において、ゲストGST1がスイッチSW2を押下して「Thank you for letting me know」と発言したとする。対面翻訳機10は、マイクMC1においてゲストGST1の発した「Thank you for letting me know」の音声が収音されると、その音声のデータ(発話音声データ)をマイクMC1から取得して翻訳サーバ50に送信する。翻訳サーバ50は、対面翻訳機10から送信された発話音声データを文字認識処理し、その文字認識結果である認識テキストデータ(つまり、「Thank you for letting me know」のテキストデータ)を生成して対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された認識テキストデータを受信して取得する。対面翻訳機10は、認識テキストデータGLTX2を、プロジェクタ20を介して透明スクリーン30に投影させることでゲストGST1に提示する。
 次に、図7に示すように、時刻t=t4以降の時刻t=t5において、翻訳サーバ50は、文字認識結果である認識テキストデータを、記憶部54内に記憶される辞書DBを参照して翻訳処理して翻訳テキストデータ(つまり、「教えてくれてありがとう」のテキストデータ)を生成する。また、時刻t=t5において、翻訳サーバ50は、翻訳テキストデータに対応する音声データ(翻訳音声データ)を生成する。翻訳サーバ50は、翻訳テキストデータ及び翻訳音声データを対応付けて対面翻訳機10に送信する。対面翻訳機10は、翻訳サーバ50から送信された翻訳テキストデータ及び翻訳音声データを受信して取得する。対面翻訳機10は、翻訳テキストデータHLTX2を、認識テキストデータGLTX2が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでホストHST1に提示する。また、対面翻訳機10は、時刻t=t5において、翻訳音声データをスピーカSP1から音声出力する。なお、翻訳サーバ50が翻訳テキストデータ及び翻訳音声データを生成するタイミングは時刻t5でなくその前の時刻t4でもよい。図7では、時刻t5において、対面翻訳機10は、少なくとも翻訳テキストデータHLTX2を、認識テキストデータGLTX2が透明スクリーン30上に提示される方向とは左右方向に反転した状態で、プロジェクタ20を介して透明スクリーン30に投影させることでホストHST1に提示すればよい。
 次に、実施の形態1に係る言語提示システム100の動作手順について、図8を参照して説明する。図8は、実施の形態1に係る言語提示システム100の動作手順の一例を詳細に説明するシーケンス図である。図8の説明の前提として、言語提示システム100の利用者であるホストHST1(第1のユーザの一例)が使用する言語(例えば、日本語)に関する情報と、ゲストGST1(第2のユーザの一例)が使用する言語(例えば、英語)に関する情報とは対面翻訳機10及び翻訳サーバ50において既知とする。また、図8に示す動作手順は、ホストHST1及びゲストGST1のいずれが先に発言するかを問わない。
 図8において、会話の発言を行うホストHST1又はゲストGST1は、スイッチSW1又はスイッチSW2を押下する。この押下された旨の信号は、対面翻訳機10の通信部11を介して制御部13により入力される。マイクMC1は、ホストHST1又はゲストGST1が発した音声の音声データを収音する(S1)。
 対面翻訳機10の制御部13(第1の取得部の一例)は、ステップS1においてマイクMC1により収音された音声(第1の音声の一例)の音声データを、通信部11を介して入力して取得する(S11)。対面翻訳機10の制御部13は、ステップS11の時点の直前にどのスイッチが押下されたかを認識できるので、ステップS11の時点で取得された音声データがホストHST1又はゲストGST1のいずれにより発言されたのかを把握できる。なお、対面翻訳機10の制御部13は、ホストHST1及びゲストGST1がどの言語を使用するかを予め認識しているので、例えば発話音声データを用いた公知の言語推定処理を実行することで発話音声データの言語を推定し、ホストHST1が発言したのかゲストGST1が発言したのかを推測してもよい。
 対面翻訳機10の通信部11は、ステップS11において取得された音声データ(つまり、発話音声データ)を翻訳サーバ50に送信する(S12)。なお、ホストHST1が使用する言語(例えば、日本語)に関する情報並びにゲストGST1が使用する言語(例えば、英語)に関する情報を翻訳サーバ50の翻訳制御部53が認識していない設定である場合、例えば、対面翻訳機10の通信部11は、発話音声データとともに、ホストHST1及びゲストGST1がそれぞれ使用する言語に関する情報を翻訳サーバ50に送信してよい。これにより、翻訳サーバ50の翻訳制御部53は、ステップS12の時点で対面翻訳機10から送信された言語に関する情報に基づいて、いずれの言語からいずれの言語に翻訳すればよいかを認識できる。
 翻訳サーバ50の翻訳制御部53は、ステップS12において対面翻訳機10から送信された発話音声データを受信して取得し、その発話音声データを用いて公知の文字認識処理を実行する(S21)。翻訳サーバ50の翻訳制御部53は、ステップS21の文字認識結果を用いて、発話音声データの内容が文字認識処理された認識テキストデータを生成する(S22)。翻訳サーバ50の通信部51は、ステップS22において生成された認識テキストデータを対面翻訳機10に送信する(S23)。
 また、翻訳サーバ50の翻訳制御部53は、ステップS21の文字認識結果を用いて、記憶部54に記憶される辞書DBを参照してホストHST1又はゲストGST1に適した言語に翻訳処理することで、翻訳テキストデータを生成する(S24)。更に、翻訳サーバ50の翻訳制御部53は、記憶部54に記憶される音声DBを参照してホストHST1又はゲストGST1に適した、翻訳テキストデータ内のそれぞれのテキストデータ(例えば単語、文章)に対応する音声データを繋ぎ合わせた翻訳音声データを生成する(S24)。翻訳サーバ50の通信部51は、ステップS24において生成された翻訳テキストデータ及び翻訳音声データの両方を対面翻訳機10に送信する(S25)。
 翻訳サーバ50の翻訳制御部53は、ステップS21の処理を実行した後、ステップS22,S23の処理とステップS24,S25の処理とを並列に実行してもよいし、ステップS22,S23,S24,S25の順に実行してもよい。
 なお、図8ではステップS21~S25のそれぞれの処理が対面翻訳機10とは異なる外部のサーバ(つまり、翻訳サーバ50)により実行される旨を説明しているが、実施の形態1において、ステップS21~S25のそれぞれの処理のうち一部の処理又は全部の処理は例えば対面翻訳機10において実行されても構わない。これにより、言語提示システム100のシステム構成のうち、翻訳サーバ50の構成を省略できたり、又は翻訳サーバ50の処理量を軽減可能となったりできる。従って、言語提示システム100は、対面翻訳機10と翻訳サーバ50との間のネットワークNWを介したデータの通信量を低減でき、又は対面翻訳機10単独において図8に示す処理を完結できるので、ホストHST1とゲストGST1との会話の迅速な反応性を効果的に支援できる。
 対面翻訳機10の通信部11(第2の取得部の一例)は、ステップS23において翻訳サーバ50から送信された認識テキストデータを受信して取得する(S13)。対面翻訳機10の制御部13は、その認識テキストデータを透明スクリーン30に投影するための第1の投影指示を生成し、その認識テキストデータを含む第1の投影指示を、通信部11を介してプロジェクタ20に送信する(S13)。プロジェクタ20は、対面翻訳機10からの第1の投影指示に基づいて、ホストHST1やゲストGST1に視認可能に認識テキストデータを透明スクリーン30に投影する(S2)。
 また、対面翻訳機10の通信部11(第2の取得部の一例)は、ステップS25において翻訳サーバ50から送信された翻訳テキストデータ及び翻訳音声データを受信して取得する(S14)。翻訳テキストデータは、発話音声データの音声の内容がホストHST1又はゲストGST1に適した言語に翻訳された音声(第2の音声の一例)の内容を示す。翻訳音声データは、翻訳テキストデータを構成するそれぞれの単語に対応する音声データが連結されて構成された音声データである。対面翻訳機10の制御部13は、その翻訳音声データをスピーカSP1に出力することで、翻訳音声データの内容である翻訳音声をスピーカSP1から音声出力させてホストHST1又はゲストGST1に提示する(S3)。
 また、対面翻訳機10の制御部13は、認識テキストデータの透明スクリーン30上における向きとは左右方向に反転した状態で翻訳テキストデータが投影されるための第2の投影指示を生成し、翻訳テキストデータを含む第2の投影指示を、通信部11を介してプロジェクタ20に送信する(S15)。プロジェクタ20は、対面翻訳機10からの第2の投影指示に基づいて、ホストHST1やゲストGST1に視認可能に翻訳テキストデータを透明スクリーン30に投影する(S4)。
 以上により、実施の形態1の言語提示システム100では、対面翻訳機10は、透明スクリーン30を挟んで互いに対面して位置するホストHST1とゲストGST1のうち少なくとも一方の発した発話音声データを取得する。対面翻訳機10は、取得された発話音声データの音声の内容と、発話音声データの音声の内容がホストHST1又はゲストGST1に適した言語に翻訳された翻訳音声データの音声の内容とを取得する。対面翻訳機10は、取得された発話音声データの音声の内容及び翻訳音声データの音声の内容を、いずれか一方を左右方向に反転して透明スクリーン30に提示する。
 これにより、言語提示システム100によれば、例えばホストHST1及びゲストGST1のように、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示できるので、互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化できる。
 また、対面翻訳機10は、発話音声データの音声の内容が文字認識された認識テキストデータ(第1のテキストデータの一例)を第1の音声の内容として取得し、認識テキストデータがホストHST1又はゲストGST1に適する言語に翻訳された翻訳テキストデータ(第2のテキストデータの一例)を翻訳内容として取得する。これにより、対面翻訳機10は、ホストHST1又はゲストGST1の発言した会話の内容をテキストデータとして透明スクリーン30に的確に提示できるので、例えばテレビジョン放送におけるテロップ(つまり、字幕)のように会話の理解を効果的に促すことができる。
 また、対面翻訳機10は、発話音声データの内容がホストHST1又はゲストGST1に適した言語に翻訳された第2の音声の音声データ(例えば、翻訳音声データ)を翻訳内容として更に取得する。これにより、対面翻訳機10は、テキストだけでなく音声出力でも相手に伝えることで、ホストHST1又はゲストGST1の発言した会話が相手の理解可能な言語に翻訳された音声を相手に効果的に伝えることができ、相手の理解の一助として会話内容の迅速な理解を支援できる。
 また、対面翻訳機10は、発話音声データの音声の内容を、第1の色(例えば、水色)で塗り潰された第1の形状枠(例えば、矩形状の枠)からの抜き文字として透明スクリーン30に提示可能にプロジェクタ20に投影指示する。抜き文字とは、例えば水色で全て塗りつぶされた矩形状枠から、文字の部分だけ切り抜かれて浮き出てホストHST1が視認可能となる文字であり、後述する枠文字に比べると認識し易くはない。一方、対面翻訳機10は、翻訳テキストデータの音声の内容を、透明色の第2の形状枠(例えば、矩形状の枠)内に第2の色(例えば、白)を付与した枠文字として透明スクリーン30に提示可能にプロジェクタ20に投影指示する。枠文字とは、例えば背景が透明色で白色の矩形状枠内に、文字の部分だけ白が付与されてゲストGST1が視認可能となる文字であり、上述した抜き文字に比べると認識し易い。これにより、対面翻訳機10は、例えばホストHST1には抜き文字として自身の発言した内容のテキストを確認的に提示すればよく、一方で、ゲストGST1には枠文字として抜き文字に比べてゲストGST1にとって視認性の良好なテキストを提示可能となるので、互いの理解可能なテキストデータの認識の混同を避けるように、ゲストGST1に対する好意的な配慮を行った透明スクリーン30へのテキストの提示を実行できる。
 また、透明提示部の一例として、プロジェクタ20及び透明スクリーン30の代わりに、ホストHST1及びゲストGST1がそれぞれ操作可能なタッチパネル(図示略)により構成されてよい。対面翻訳機10は、ホストHST1及びゲストGST1によりそれぞれタッチパネルに指定された、第1の提示位置及び第2の提示位置に基づいて、認識テキストデータ(第1の音声の内容の一例)を第1の提示位置に提示するとともに、翻訳テキストデータ(翻訳内容の一例)を第2の提示位置に提示する。これにより、対面翻訳機10は、ホストHST1及びゲストGST1の双方がそれぞれ指定したタッチパネル上の任意の位置に認識テキストデータや翻訳テキストデータを表示(提示)でき、ホストHST1及びゲストGST1が相手の顔を見易く、かつ例えば目線の少し下程度の位置等、実際の会話時において互いに視認し易い位置にそれぞれの言語に対応したテキストデータを提示できる。
 また、対面翻訳機10は、翻訳テキストデータ(翻訳内容の一例)を認識テキストデータ(第1の音声の内容の一例)より上部となるように、認識テキストデータ及び翻訳テキストデータのそれぞれの内容を透明スクリーン30に提示する。これにより、対面翻訳機10は、例えばホストHST1よりもゲストGST1の方を優先して、翻訳テキストデータをゲストGST1が見易い透明スクリーン30の上部側の位置に提示でき、ゲストGST1に対する好意的な配慮を行った透明スクリーン30へのテキストの提示を実行できる。
 また、対面翻訳機10は、翻訳テキストデータ(翻訳内容の一例)を認識テキストデータ(第1の音声の内容の一例)より時間的に長く透明スクリーン30に提示する。これにより、対面翻訳機10は、例えばホストHST1よりもゲストGST1の方を優先して、ゲストGST1が視認する翻訳テキストデータを、ホストHST1が確認的に視認する認識テキストデータよりも時間的に長く透明スクリーン30上に提示できるので、ゲストGST1に対する好意的な配慮を行った透明スクリーン30へのテキストの提示を実行できる。
 また、対面翻訳機10は、翻訳テキストデータ(翻訳内容の一例)を、認識率の高い所定色(例えば、白色)を付与して透明スクリーン30に提示する。これにより、対面翻訳機10は、透明スクリーン30に投影された所定色(例えば、白色)の翻訳テキストデータをゲストGST1に視認させるので、ゲストGST1の翻訳テキストデータの内容の理解を迅速に行わせることができる。
 また、透明提示部の一例として、透明スクリーン30とプロジェクタ20とにより構成される。対面翻訳機10は、認識テキストデータ(第1の音声の内容の一例)及び翻訳テキストデータ(翻訳内容の一例)を透明スクリーン30への投影指示をプロジェクタ20に送出する。これにより、対面翻訳機10は、プロジェクタ20を介して、ホストHST1の発言した認識テキストデータやゲストGST1に適した翻訳テキストデータを透明スクリーン30上に簡易に提示できる。
 また、透明提示部の一例として、ホストHST1及びゲストGST1がそれぞれ操作可能なタッチパネル(図示略)により構成される。対面翻訳機10は、認識テキストデータ(第1の音声の内容の一例)及び翻訳テキストデータ(翻訳内容の一例)を表示するようにタッチパネルに送出する。これにより、プロジェクタ20や透明スクリーンが配備されていなくても、対面翻訳機10は、ホストHST1及びゲストGST1がタッチパネルを挟んで対面した状態でタッチパネルに表示された認識テキストデータや翻訳テキストデータを確認できるので、自然な感じの会話を効果的に実現可能となる。
 また、実施の形態1では、透明スクリーン30に投影される各種のテキストデータ(具体的には、認識テキストデータ、翻訳テキストデータ)の大きさはプロジェクタ20により指定され、その大きさは例えば対面翻訳機10からの投影指示に含まれてよい。これにより、対面翻訳機10は、例えばホストHST1やゲストGST1の操作により指定された年代に合わせて、透明スクリーン30に提示されるテキストデータの大きさを柔軟に変更可能である。
 また、実施の形態1では、透明提示部の一例として透明スクリーン30が配備される。従って、例えば高級感の演出が可能な場所(例えば、デパートの化粧品売り場やプレミアム列車の受付)に透明スクリーン30が配置されることで、特別な顧客(例えば、ゲストGST1)に対するおもてなしを行う際のサービスツールとして言語提示システム100の利用が可能となる。
 また、実施の形態1の言語提示システム100では、対面翻訳機10の制御部13(取得部の一例)は、透明スクリーン30(透明提示部の一例)と、ホストHST1又はゲストGST1(ユーザの一例)の発した第1言語(例えば、日本語)における第1の音声(例えば、発話音声データに含まれる音声)を取得する。対面翻訳機10の制御部13は、取得された第1の音声の内容と、第1の音声の内容が第1言語とは異なる第2言語(例えば、英語)に翻訳された翻訳内容とを、お互いが左右方向に反転するようにプロジェクタ20を介して又は直接に、透明スクリーン30に提示する。
 これにより、対面翻訳機10は、ユーザ(例えば、日本語を話すホストHST1)の発言した第1言語(例えば、日本語)の音声の内容と、その音声の内容が他のユーザ(例えば、英語を話すゲストGST1)に適した第2言語(例えば、英語)に翻訳された翻訳内容とをそれぞれ左右方向に反転して透明スクリーン30に提示できる。従って、例えば互いに言語を理解できない人同士が会話する場合に、自己の言語及び相手の言語を、透明スクリーン30を介して相手の顔が見えながら確認可能となるので、自然な感じでスムーズな会話の実現を簡易化できる。
 以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
 なお、実施の形態1に係る言語提示システム100において、透明スクリーン30が配置されるテーブルTBL1は図2に示したカウンター上に載置されることに限定されず、例えば人が把持して移動可能なスタンド付きポールに接続されたテーブル(図示略)であってもよい。これにより、特定の限定された位置にホストHST1やゲストGST1が立ち寄って会話することに留まらず、透明スクリーン30のモビリティ性を向上できてホストHST1やゲストGST1の会話場所を任意に変更可能となる。
 なお、上述した実施の形態1では、ホストHST1及びゲストGST1が受付等のカウンターに配置された透明スクリーンを挟んで対面して会話する例を説明したが、透明スクリーンが配置される場所は、受付等のカウンターに限定されず、例えばタクシー、飲食店、会議室、駅の案内所等でも構わない。例えば、タクシー内の運転席と後部座席との間の透明ガラスを透明スクリーン30として利用可能であるし、飲食店や会議室や駅の案内所では対面して会話する人同士の間に透明スクリーン30が配備されてよい。
 また、上述した実施の形態1に係る言語提示システム100は、いわゆるタッチパネル等に互いの言語のテキストデータが表示される指差し翻訳においても適用可能である。
 なお、本出願は、2018年1月30日出願の日本特許出願(特願2018-013415)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示は、互いの言語を理解できない人同士の会話中に、自己の言語及び相手の言語を互いの顔に向けて提示して互いの顔に視線を向けることを可能とし、自然な感じでスムーズな会話の実現を簡易化する言語提示装置、言語提示方法、及び言語提示プログラムとして有用である。
10 対面翻訳機
11、51 通信部
12、52 メモリ
13 制御部
14、54 記憶部
20 プロジェクタ
30 透明スクリーン
53 翻訳制御部
MC1 マイク
NW ネットワーク
PRC1,PRC2 プロセッサ
SP1 スピーカ
SW1、SW2 スイッチ
100 言語提示システム

Claims (14)

  1.  透明提示部を挟んで位置する第1のユーザと第2のユーザのうち少なくとも一方の発した第1の音声を取得する第1の取得部と、
     取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得する第2の取得部と、
     取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示する制御部と、を備える、
     言語提示装置。
  2.  前記第2の取得部は、
     前記第1の音声の内容が文字認識された第1のテキストデータを前記第1の音声の内容として取得し、
     前記第1のテキストデータが前記言語に翻訳された第2のテキストデータを前記翻訳内容として取得する、
     請求項1に記載の言語提示装置。
  3.  前記第2の取得部は、
     前記第1の音声の内容が前記言語に翻訳された前記翻訳内容の音声データを更に取得する、
     請求項1に記載の言語提示装置。
  4.  前記制御部は、
     前記第1の音声の内容を、第1の色で塗り潰された第1の形状枠からの抜き文字として前記透明提示部に提示し、
     前記翻訳内容を、透明色の第2の形状枠内に第2の色を付与した枠文字として前記透明提示部に提示する、
     請求項1に記載の言語提示装置。
  5.  前記透明提示部は、
     前記第1のユーザ及び前記第2のユーザがそれぞれ操作可能なタッチパネルにより構成され、
     前記制御部は、
     前記第1のユーザ及び前記第2のユーザによりそれぞれ前記タッチパネルに指定された、第1の提示位置及び第2の提示位置に基づいて、前記第1の音声の内容を前記第1の提示位置に提示するとともに、前記翻訳内容を前記第2の提示位置に提示する、
     請求項1に記載の言語提示装置。
  6.  前記制御部は、
     前記翻訳内容を前記第1の音声の内容より上部となるように、前記第1の音声の内容及び前記翻訳内容をそれぞれ前記透明提示部に提示する、
     請求項1に記載の言語提示装置。
  7.  前記制御部は、
     前記翻訳内容を前記第1の音声の内容より長く前記透明提示部に提示する、
     請求項1に記載の言語提示装置。
  8.  前記制御部は、
     前記翻訳内容を、認識率の高い所定色を付与して前記透明提示部に提示する、
     請求項1に記載の言語提示装置。
  9.  前記透明提示部は、
     透明スクリーンとプロジェクタとにより構成され、
     前記制御部は、
     前記第1の音声の内容及び前記翻訳内容の前記透明スクリーンへの投影指示を前記プロジェクタに送出する、
     請求項1に記載の言語提示装置。
  10.  前記透明提示部は、
     前記第1のユーザ及び前記第2のユーザがそれぞれ操作可能なタッチパネルにより構成され、
     前記制御部は、
     前記第1の音声の内容及び前記翻訳内容を表示するように前記タッチパネルに送出する、
     請求項1に記載の言語提示装置。
  11.  透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する言語提示装置における言語提示方法であって、
     前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、
     取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、
     取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を有する、
     言語提示方法。
  12.  透明提示部を挟んで位置する第1のユーザと第2のユーザとの会話に供する、コンピュータである言語提示装置に、
     前記第1のユーザ及び前記第2のユーザのうち少なくとも一方の発した第1の音声を取得するステップと、
     取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1のユーザ又は前記第2のユーザに適した言語に翻訳された翻訳内容とを取得するステップと、
     取得された前記第1の音声の内容及び前記翻訳内容を、いずれか一方を左右方向に反転して前記透明提示部に提示するステップと、を実現させるための、
     言語提示プログラム。
  13.  透明提示部と、
     ユーザの発した第1言語における第1の音声を取得する取得部と、
     取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された翻訳内容とを、お互いが左右方向に反転するように前記透明提示部に提示する制御部と、を備える、
     言語提示装置。
  14.  透明提示部に接続されたコンピュータである言語提示装置に、
     ユーザの発した第1言語における第1の音声を取得するステップと、
     取得された前記第1の音声の内容と、前記第1の音声の内容が前記第1言語とは異なる第2言語に翻訳された翻訳内容と、を取得するステップと、
     取得された前記第1の音声の内容及び前記翻訳内容を、お互いが左右方向に反転するように前記透明提示部に提示するステップと、を実現させるための、
     言語提示プログラム。
PCT/JP2019/001554 2018-01-30 2019-01-18 言語提示装置、言語提示方法、及び言語提示プログラム WO2019150996A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/966,365 US20200372902A1 (en) 2018-01-30 2019-01-18 Language presentation device, language presentation method, and language presentation program
JP2019569004A JPWO2019150996A1 (ja) 2018-01-30 2019-01-18 言語提示装置、言語提示方法、及び言語提示プログラム
CN201980011080.1A CN111684410A (zh) 2018-01-30 2019-01-18 语言呈现装置、语音呈现方法和语言呈现程序
SG11202007315UA SG11202007315UA (en) 2018-01-30 2019-01-18 Language presentation device, language presentation method, and language presentation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018013415 2018-01-30
JP2018-013415 2018-01-30

Publications (1)

Publication Number Publication Date
WO2019150996A1 true WO2019150996A1 (ja) 2019-08-08

Family

ID=67478088

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/001554 WO2019150996A1 (ja) 2018-01-30 2019-01-18 言語提示装置、言語提示方法、及び言語提示プログラム

Country Status (5)

Country Link
US (1) US20200372902A1 (ja)
JP (1) JPWO2019150996A1 (ja)
CN (1) CN111684410A (ja)
SG (1) SG11202007315UA (ja)
WO (1) WO2019150996A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024176836A1 (ja) * 2023-02-20 2024-08-29 京セラ株式会社 電子機器、電子機器の制御方法、及びプログラム
WO2024176837A1 (ja) * 2023-02-24 2024-08-29 京セラ株式会社 電子機器、電子機器の制御方法、及びプログラム
WO2024176898A1 (ja) * 2023-02-24 2024-08-29 京セラ株式会社 プログラム、表示制御装置及び制御方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021005157A (ja) * 2019-06-25 2021-01-14 株式会社ソニー・インタラクティブエンタテインメント 画像処理装置および画像処理方法
EP3968259B1 (en) * 2020-09-15 2024-10-30 Hyosung Tns Inc. Digital desk and image control method using same
CN112822468B (zh) * 2020-12-31 2023-02-17 成都极米科技股份有限公司 一种投影控制方法、装置、投影设备及激光控制器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534276A (ja) * 2001-07-06 2004-11-11 エクスプレイ エルティーディー 画像投影装置および方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
WO2016108273A1 (ja) * 2014-12-29 2016-07-07 株式会社arc 透明スクリーン、及び透明スクリーンの製造方法
US20170139496A1 (en) * 2015-11-16 2017-05-18 Lg Electronics Inc. Mobile terminal and method for controlling the same
WO2017163284A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 翻訳装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318031B2 (en) * 2001-05-09 2008-01-08 International Business Machines Corporation Apparatus, system and method for providing speech recognition assist in call handover
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
EP2708183B1 (en) * 2012-09-17 2020-02-26 Université de Montréal Method for measuring the visually-induced postural instability of a person
JP6178198B2 (ja) * 2013-09-30 2017-08-09 株式会社東芝 音声翻訳システム、方法およびプログラム
US9785632B1 (en) * 2016-05-12 2017-10-10 Xevo Inc. Beacon-based translation for smart signs
US10627911B2 (en) * 2017-04-25 2020-04-21 International Business Machines Corporation Remote interaction with content of a transparent display
TW201843604A (zh) * 2017-05-03 2018-12-16 捷音特科技股份有限公司 互動翻譯系統

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004534276A (ja) * 2001-07-06 2004-11-11 エクスプレイ エルティーディー 画像投影装置および方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
WO2016108273A1 (ja) * 2014-12-29 2016-07-07 株式会社arc 透明スクリーン、及び透明スクリーンの製造方法
US20170139496A1 (en) * 2015-11-16 2017-05-18 Lg Electronics Inc. Mobile terminal and method for controlling the same
WO2017163284A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 翻訳装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024176836A1 (ja) * 2023-02-20 2024-08-29 京セラ株式会社 電子機器、電子機器の制御方法、及びプログラム
WO2024176837A1 (ja) * 2023-02-24 2024-08-29 京セラ株式会社 電子機器、電子機器の制御方法、及びプログラム
WO2024176898A1 (ja) * 2023-02-24 2024-08-29 京セラ株式会社 プログラム、表示制御装置及び制御方法

Also Published As

Publication number Publication date
JPWO2019150996A1 (ja) 2021-02-25
CN111684410A (zh) 2020-09-18
SG11202007315UA (en) 2020-08-28
US20200372902A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
WO2019150996A1 (ja) 言語提示装置、言語提示方法、及び言語提示プログラム
CN108028042B (zh) 口头通信的转录
JP6646817B2 (ja) 翻訳装置および翻訳方法
CN108063820B (zh) 一种云会议的投屏同步方法
JP6289448B2 (ja) 即時翻訳システム
CN101188728B (zh) 具有视频通话功能的显示装置及其方法以及视频通话系统
CN112236817B (zh) 低延迟邻近群组翻译
US20170272784A1 (en) Live video broadcasting method and device
US11720179B1 (en) System and method for redirecting content based on gestures
TWI660304B (zh) 虛擬實境即時導覽方法及系統
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
JP2019534492A (ja) 通訳装置及び方法(device and method of translating a language into another language)
CN113890932A (zh) 一种音频控制方法、系统及电子设备
JP2019533181A (ja) 通訳装置及び方法(device and method of translating a language)
TWI716885B (zh) 即時外語溝通系統
WO2022135005A1 (zh) 一种基于通话的屏幕共享方法、装置、设备及存储介质
CN103944598A (zh) 可视语音控制器、无线通讯系统及其通讯方法
JP2021150946A (ja) ワイヤレスイヤホンデバイスとその使用方法
CN113918077A (zh) 投影方法及投影控制方法和相关装置、投影仪、存储介质
KR20220118773A (ko) Ai기반 음성지원 대화형 스마트 키오스크
EP4167580A1 (en) Audio control method, system, and electronic device
CN203368454U (zh) 可视语音控制器、无线通讯系统
JP2017158137A (ja) 会議システム
KR20210049582A (ko) 전자 장치 및 그 제어 방법
TWI660305B (zh) 虛擬實境即時導覽方法及系統

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19747277

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2019569004

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19747277

Country of ref document: EP

Kind code of ref document: A1