WO2024075179A1 - 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法 - Google Patents

情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法 Download PDF

Info

Publication number
WO2024075179A1
WO2024075179A1 PCT/JP2022/037142 JP2022037142W WO2024075179A1 WO 2024075179 A1 WO2024075179 A1 WO 2024075179A1 JP 2022037142 W JP2022037142 W JP 2022037142W WO 2024075179 A1 WO2024075179 A1 WO 2024075179A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
information processing
speech
target language
buffer
Prior art date
Application number
PCT/JP2022/037142
Other languages
English (en)
French (fr)
Inventor
一 川竹
Original Assignee
ポケトーク株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ポケトーク株式会社 filed Critical ポケトーク株式会社
Priority to PCT/JP2022/037142 priority Critical patent/WO2024075179A1/ja
Publication of WO2024075179A1 publication Critical patent/WO2024075179A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • This disclosure relates to an information processing method, a program, a terminal device, an information processing method, and an information processing method.
  • An information processing method includes: An information processing method by a terminal device, comprising: Obtaining a source language audio; recognizing the speech and generating text corresponding to the speech; storing a predetermined number of seconds or a predetermined number of words from the beginning of the text in a buffer; Detecting a division point of the text stored in the buffer and detecting a first sentence of the text; obtaining text in a target language corresponding to the first sentence; displaying the target language text and/or generating and outputting a speech corresponding to the target language text; including.
  • a program includes: On the computer, Obtaining a source language audio; recognizing the speech and generating text corresponding to the speech; storing a predetermined number of seconds or a predetermined number of words from the beginning of the text in a buffer; Detecting a division point of the text stored in the buffer and detecting a first sentence of the text; obtaining text in a target language corresponding to the first sentence; displaying the target language text and/or generating and outputting a speech corresponding to the target language text; The method executes an operation including:
  • a terminal device includes: A terminal device including a control unit, the control unit comprising: Obtaining a source language audio; recognizing the speech and generating text corresponding to the speech; storing a predetermined number of seconds or a predetermined number of words from the beginning of the text in a buffer; Detecting a division point of the text stored in the buffer and detecting a first sentence of the text; obtaining text in a target language corresponding to the first sentence; displaying the target language text and/or generating and outputting a speech corresponding to the target language text;
  • the operation includes:
  • An information processing method includes: An information processing method by an information processing system including a terminal device and an information processing device capable of communicating with the terminal device, Obtaining a source language audio; recognizing the speech and generating text corresponding to the speech; storing a predetermined number of seconds or a predetermined number of words from the beginning of the text in a buffer; Detecting a division point of the text stored in the buffer and detecting a first sentence of the text; obtaining text in a target language corresponding to the first sentence; displaying the target language text and/or generating and outputting a speech corresponding to the target language text; including.
  • An information processing system includes: An information processing system including a terminal device and an information processing device capable of communicating with the terminal device, Obtaining a source language audio; recognizing the speech and generating text corresponding to the speech; storing a predetermined number of seconds or a predetermined number of words from the beginning of the text in a buffer; Detecting a division point of the text stored in the buffer and detecting a first sentence of the text; obtaining text in a target language corresponding to the first sentence; displaying the target language text and/or generating and outputting a speech corresponding to the target language text;
  • the operation includes:
  • FIG. 1 is a schematic diagram of an information processing system.
  • FIG. 2 is a block diagram showing a configuration of a first terminal device.
  • FIG. 2 is a block diagram showing a configuration of a second terminal device.
  • FIG. 1 is a block diagram showing a configuration of an information processing device.
  • FIG. 13 is a diagram showing a dialogue using a first terminal device.
  • FIG. 1 illustrates text corresponding to speech.
  • FIG. 13 is a diagram showing a translation display screen.
  • FIG. 4 is a sequence diagram showing operations executed in the information processing system.
  • FIG. 13 illustrates a display screen according to another embodiment.
  • FIG. 1 is a schematic diagram of an information processing system S according to this embodiment.
  • the information processing system S includes a first terminal device 1, a second terminal device 2, and an information processing device 3 that are capable of communicating with each other via a network NW.
  • the network NW includes, for example, a mobile communication network, a fixed communication network, or the Internet.
  • the first terminal device 1 is used by a first user P1.
  • the second terminal device 2 is used by a second user P2.
  • terminal devices For ease of explanation, two terminal devices are shown in FIG. 1. However, the number of terminal devices is not limited to this.
  • the internal configuration of the first terminal device 1 is explained in detail with reference to Figure 2.
  • the first terminal device 1 may be a general-purpose device such as a PC, or a dedicated device. "PC” is an abbreviation for personal computer. As an alternative, the first terminal device 1 may be a mobile device such as a mobile phone, a smartphone, a wearable device, or a tablet.
  • the first terminal device 1 includes a control unit 11, a communication unit 12, a memory unit 13, a display unit 14, an input unit 15, an imaging unit 16, and an output unit 17.
  • the components of the first terminal device 1 are connected to each other so that they can communicate with each other, for example, via a dedicated line.
  • the control unit 11 includes, for example, one or more general-purpose processors including a CPU (Central Processing Unit) or an MPU (Micro Processing Unit).
  • the control unit 11 may include one or more dedicated processors specialized for specific processing. Instead of including a processor, the control unit 11 may include one or more dedicated circuits.
  • the dedicated circuits may be, for example, an FPGA (Field-Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit).
  • the control unit 11 may include an ECU (Electronic Control Unit). The control unit 11 transmits and receives any information via the communication unit 12.
  • the communication unit 12 includes a communication module compatible with one or more wired or wireless LAN (Local Area Network) standards for connecting to the network NW.
  • the communication unit 12 may include a module compatible with one or more mobile communication standards including LTE (Long Term Evolution), 4G (4th Generation), or 5G (5th Generation).
  • the communication unit 12 may include a communication module compatible with one or more short-range communication standards or specifications including Bluetooth (registered trademark), AirDrop (registered trademark), IrDA, ZigBee (registered trademark), Felica (registered trademark), or RFID.
  • the communication unit 12 transmits and receives any information via the network NW.
  • the memory unit 13 includes, but is not limited to, for example, a semiconductor memory, a magnetic memory, an optical memory, or a combination of at least two of these.
  • the semiconductor memory is, for example, a RAM or a ROM.
  • the RAM is, for example, an SRAM or a DRAM.
  • the ROM is, for example, an EEPROM.
  • the memory unit 13 may function, for example, as a main memory device, an auxiliary memory device, or a cache memory.
  • the memory unit 13 may store information resulting from analysis or processing by the control unit 11.
  • the memory unit 13 may store various information related to the operation or control of the first terminal device 1.
  • the memory unit 13 may store system programs, application programs, embedded software, and the like.
  • the memory unit 13 may be provided outside the first terminal device 1 and accessed from the first terminal device 1.
  • the display unit 14 is, for example, a display.
  • the display is, for example, an LCD or an organic EL display.
  • LCD is an abbreviation for liquid crystal display.
  • EL is an abbreviation for electro luminescence.
  • the display unit 14 may be connected to the first terminal device 1 as an external output device.
  • any method such as USB, HDMI (registered trademark), or Bluetooth (registered trademark) may be used.
  • the input unit 15 is, for example, a physical key, a capacitive key, a pointing device, a touch screen integrated with a display, or a microphone.
  • the input unit 15 accepts an operation to input information used in the operation of the first terminal device 1.
  • the input unit 15 may be connected to the first terminal device 1 as an external input device. Any connection method may be used, for example, USB, HDMI (registered trademark), or Bluetooth (registered trademark).
  • USB is an abbreviation for Universal Serial Bus.
  • HDMI registered trademark
  • HDMI registered trademark
  • Bluetooth registered trademark
  • the imaging unit 16 includes a camera.
  • the imaging unit 16 can capture images of the surroundings.
  • the imaging unit 16 may record the captured images in the storage unit 13 or transmit them to the control unit 11 for image analysis.
  • the images include still images and videos.
  • the output unit 17 includes a speaker that outputs audio.
  • the second terminal device 2 includes a control unit 21, a communication unit 22, a memory unit 23, a display unit 24, an input unit 25, an imaging unit 26, and an output unit 27.
  • the explanation of the hardware configuration of the second terminal device 2 may be the same as the explanation of the hardware configuration of the first terminal device 1. The explanation here is omitted.
  • the information processing device 3 may be a server that supports the provision of services by a business operator.
  • the information processing device 3 may be installed, for example, in a facility dedicated to the business operator or in a shared facility including a data center.
  • the internal configuration of the information processing device 3 is described in detail with reference to FIG. 4.
  • the information processing device 3 includes a control unit 31, a communication unit 32, and a memory unit 33.
  • the explanation of the hardware configuration of the control unit 31, communication unit 32, and memory unit 33 of the information processing device 3 may be the same as the explanation of the hardware configuration of the control unit 11, communication unit 12, and memory unit 13 of the first terminal device 1. The explanation here is omitted.
  • a first user P1 and a second user P2 located in different locations use the information processing system S to have a remote conversation (e.g., a remote conference) in different languages.
  • a remote conversation e.g., a remote conference
  • the first user P1 speaks Japanese.
  • the second user P2 speaks English.
  • the number of people who can have a conversation can be any number as long as it is more than one.
  • Each of the first terminal device 1 and the second terminal device 2 captures an image of the user using the terminal device using the imaging unit 16 or the imaging unit 26, and sequentially transmits the captured images to the other terminal device.
  • the display unit 14 of the first terminal device 1 displays a captured image of the second user P2, who is the conversation partner.
  • the control unit 11 of the first terminal device 1 translates the English text 51 spoken by the second user P2 into Japanese text 52 and displays it on the display unit 14, using a method described below.
  • the control unit 21 of the second terminal device 2 acquires the speech in the source language uttered by the second user P2 via the microphone of the input unit 25, and transmits it as speech data to the first terminal device 1 via the communication unit 22.
  • the source language may be any language, and here, English is used as an example.
  • the control unit 11 of the first terminal device 1 acquires the voice of the second user P2 from the second terminal device 2.
  • the control unit 11 may acquire the voice of the second user P2 who is located in a position near the first user P1 via the input unit 15.
  • the control unit 11 may acquire the voice of a video being viewed on the first terminal device 1.
  • the control unit 11 may output the acquired audio via the output unit 17.
  • the control unit 11 recognizes the acquired voice and generates text corresponding to the voice as text data. Any text generation method can be used.
  • the control unit 11 may acquire the voice via the information processing device 3.
  • the text corresponding to the voice increases while the second user P2 continues to speak.
  • the control unit 11 may use, for example, AI (artificial intelligence) provided on the following website as a voice recognition engine. https://github.com/alphacep/vosk-api
  • the control unit 11 stores the first 10 seconds of the generated text in a buffer in the memory unit 13.
  • FIG. 6 shows the first 10 seconds of text 61. It is possible to set any number of the first seconds to be stored in the memory unit 13. As an alternative example, the control unit 11 may store a predetermined number of words from the beginning (e.g., 100 words) in the buffer in the memory unit 13.
  • control unit 11 When the control unit 11 detects that the first 10 seconds have been accumulated, it evaluates (detects) a division point 62 of the accumulated text.
  • the division point may be a point for dividing a sentence into the next sentence. Any method for evaluating the division point may be used. As an alternative example, if the division point cannot be detected, the control unit 11 may increase the text in the buffer and continue detecting the division point until the division point can be detected.
  • the control unit 11 may use, for example, AI provided by the following website as a sentence division engine. https://bminixhofer.github.io/nnsplit/
  • control unit 11 When the control unit 11 detects the text 63 of the first sentence, it transmits the text 63 to the information processing device 3.
  • the information processing device 3 translates the text 63 of the first sentence into a translation target language.
  • the translation target language is arbitrary, and here is Japanese as an example.
  • the control unit 31 of the information processing device 3 transmits the Japanese text to the first terminal device 1.
  • the first terminal device 1 may perform the translation instead of the information processing device 3.
  • the information processing device 3 or the first terminal device 1 when the information processing device 3 or the first terminal device 1 detects a silent portion of a predetermined number of seconds (for example, 0.3 seconds) or more in the speech of the translation source language while storing a predetermined number of seconds or a predetermined number of words at the beginning of the text in a buffer, it may translate all the text in the buffer.
  • control unit 11 When the control unit 11 obtains text in the translation target language corresponding to the first sentence from the information processing device 3, the control unit 11 generates a voice corresponding to the text by voice synthesis.
  • the control unit 11 outputs the generated voice from the speaker of the output unit 17. As shown in FIG. 7, the control unit 11 may display a pair of English text 71, which is the first sentence of the text in the source language, and Japanese text 72 in the target language, on the display unit 14. The control unit 11 associates the English text 71 with the Japanese text 72 and stores them in the memory unit 13. The stored data can be copied or downloaded later. The control unit 11 executes at least one of displaying the text 72 in the target language and outputting voice corresponding to the text 72 in the target language.
  • control unit 11 when the control unit 11 detects that the output of voice corresponding to the text in the target language is delayed by more than a predetermined time compared to the output (playback) of the voice in the source language, it may speed up the playback speed of the voice corresponding to the text in the target language.
  • the control unit 11 replenishes the buffer of the memory unit 13 with the same number of seconds or words as the number of seconds or words in the first sentence. For example, if the number of seconds in the first sentence of the output text is 2 seconds, 8 seconds of text will remain in the buffer.
  • the control unit 11 stores the first 2 seconds of text following text 61 in the memory unit 13. Therefore, the text in the buffer is 10 seconds in total, consisting of 8 seconds and 2 seconds.
  • control unit 11 When the control unit 11 detects that 10 seconds' worth of text has accumulated, it evaluates the division point of the accumulated text. As an example, the next division point 64 is shown in Figure 6. Therefore, the next text to be translated is "A restaurant owners We provide our own drivers and we manage the logistics of delivery.” The method of evaluating the division point is as described above. The processing that is performed after that (i.e. translation, voice output, text display, replenishment, etc.) is also as described above, so a description thereof will be omitted here.
  • the Japanese text 72 displayed on the first terminal device 1 is updated while the second user P2 continues speaking.
  • control unit 11 when the control unit 11 detects that an earphone with a microphone that uses short-range wireless communication (e.g., Bluetooth) has been connected to the first terminal device 1, it detects a list of one or more dialogue groups that are translating dialogue within a specified range (e.g., within a specified distance) from the first terminal device 1, and displays the list on the display unit 14.
  • the control unit 11 receives a selection of one dialogue group from the list from the first user P1, it may obtain speech spoken in the selected dialogue group and translate the words into text in a specified language.
  • the specified language is specified by the first user P1.
  • the control unit 11 generates speech corresponding to the text in the specified language and outputs it via the output unit 17.
  • step S1 the second terminal device 2 transmits the speech in the source language uttered by the second user P2 to the first terminal device 1.
  • step S2 the control unit 11 of the first terminal device 1 recognizes the voice and generates text corresponding to the voice.
  • step S3 the control unit 11 stores the first 10 seconds of the generated text in a buffer in the storage unit 13.
  • step S4 the control unit 11 evaluates the division points of the stored text and detects the first sentence.
  • step S5 the control unit 11 transmits the text in the source language to the information processing device 3.
  • the control unit 31 of the information processing device 3 translates the text in the source language into text in the specified target language.
  • the control unit 31 of the information processing device 3 transmits the text in the target language to the first terminal device 1.
  • step S8 the control unit 11 outputs a voice corresponding to the text obtained from the information processing device 3.
  • step S9 the control unit 31 replenishes the buffer of the memory unit 13 with text of the same number of seconds as the number of seconds of the first sentence detected in step S4.
  • the control unit 11 executes step S3 and subsequent steps again.
  • the speech of the second user P2 is translated into Japanese and output from the first terminal device 1.
  • the process executed by the control unit 11 of the first terminal device 1 can also be executed by the control unit 21 of the second terminal device 2. That is, the speech of the first user P1 can also be translated into English and output from the second terminal device 2.
  • the first user P1 and the second user P2 who speak different languages can converse with each other.
  • the processes from step S2 to step S4 and step S9 in FIG. 8 are executed by the first terminal device 1.
  • the processes from step S2 to step S4 and step S9 may be executed by the information processing device 3. Which processes are executed by which device can be changed as desired depending on cost, language, platform, etc.
  • English text 51 and corresponding Japanese text 52 are displayed on the display unit 14.
  • the control unit 11 may display on the display unit 14 a translation 91 generated by a conventional method in addition to the translation 92 generated by the above embodiment.
  • the conventional method is a method in which a conventional voice recognition engine recognizes the voice of the second user P2, detects the end of a sentence in the recognized text, and translates the recognized text.
  • the control unit 11 of the first terminal device 1 executes operations including at least one of acquiring speech in the source language, recognizing the speech and generating text corresponding to the speech, storing a predetermined number of seconds or a predetermined number of words from the beginning of the text in a buffer, detecting a division point of the text stored in the buffer and detecting the first sentence of the text, acquiring text in the target language corresponding to the first sentence, displaying the text in the target language, and generating and outputting speech corresponding to the text in the target language.
  • the control unit 11 can execute accurate translation with a high probability of being established as a sentence.
  • the control unit 11 can shorten the waiting time or interval until the speech in the source language is translated compared to the conventional method, thereby increasing the availability for simultaneous interpretation, etc.
  • the operation of the control unit 11 includes refilling the buffer with text of the same number of seconds or words as the number of seconds or words of the detected first sentence, and evaluating the division points of the text stored in the buffer after refilling to detect the first sentence of the text. This configuration allows the first terminal device 1 to continue accurate translation.
  • the operation of the control unit 11 includes, if a division point cannot be detected, increasing the text in the buffer until the division point can be detected.
  • the first terminal device 1 can increase the feasibility of accurate translation.
  • the operation of the control unit 11 includes retrieving text in the target language that corresponds to all of the text in the buffer when silence of a predetermined number of seconds or more is detected in the source language audio while storing the first predetermined number of seconds or first predetermined number of words of the text in the buffer.
  • the operation of the control unit 11 includes displaying the first sentence of the text in the source language and the text in the target language that corresponds to the first sentence in a pair.
  • the first terminal device 1 can notify the user of the specific translation status.
  • the operation of the control unit 11 includes increasing the playback speed of the audio corresponding to the text in the target language when it detects that the output of the audio corresponding to the text in the target language is delayed by more than a predetermined time compared to the output of the audio in the source language.
  • the first terminal device 1 can reduce the length of the waiting time or interval until the audio in the source language is translated.
  • the operation of the control unit 11 includes, when it detects that an earphone with a microphone using short-range wireless communication has been connected to the first terminal device, displaying a list of one or more dialogue groups performing dialogue translation within a predetermined range from the first terminal device 1, and, when it accepts the selection of one dialogue group from the list, acquiring the speech spoken in the selected dialogue group and translating the speech into text in a specified language, and generating and outputting the speech corresponding to the text in the specified language.
  • the first terminal device 1 can enable a user to participate in the dialogue of another group in a hands-free manner without being aware of language barriers.
  • a program that executes all or part of the functions or processing of the first terminal device 1, the second terminal device 2, or the information processing device 3 can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium includes a non-transitory computer-readable medium, such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory.
  • the program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory) on which the program is recorded.
  • the program may also be distributed by storing the program in the storage of an arbitrary server and transmitting the program from the arbitrary server to another computer.
  • the program may also be provided as a program product.
  • the present disclosure can also be realized as a program executable by a processor.
  • the computer temporarily stores in its main storage device, for example, a program recorded on a portable recording medium or a program transferred from a server.
  • the computer then reads the program stored in the main storage device with a processor and executes processing in accordance with the read program with the processor.
  • the computer may read the program directly from the portable recording medium and execute processing in accordance with the program.
  • the computer may execute processing in accordance with the received program each time a program is transferred to the computer from the server. Processing may be executed by a so-called ASP-type service that does not transfer a program from the server to the computer and achieves functions only by issuing execution instructions and obtaining results.
  • "ASP" is an abbreviation for application service provider.
  • Programs include information used for processing by a computer that is equivalent to a program. For example, data that is not a direct command to a computer but has properties that define computer processing falls under "something equivalent to a program.”

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

正確性が高く、且つ、待ち時間が短い翻訳を可能とする。 端末装置1による情報処理方法であって、翻訳元言語の音声を取得することと、音声を認識して、音声に対応するテキストを生成することと、テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、バッファに溜められたテキストの分割点を検出して、テキストの先頭の一文を検出することと、先頭の一文に対応する、翻訳先言語のテキストを取得することと、翻訳先言語のテキストを表示することと、翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、を含む情報処理方法。

Description

情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法
 本開示は、情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法に関する。
 従来、言語の翻訳を行うにあたり、認識結果文字列に対し構文解析手法を用いて、一定の構文構造が蓄積されるごとに訳出を行う技術が知られている(例えば特許文献1)。
特開2015-201215号公報
 上記背景技術における文の分割方法の場合、リアルタイムで分割対象の文章が更新され続けるため、分割箇所もリアルタイムで変わる。このため、分割箇所をいつ確定するかの判断が容易ではない。
 かかる事情に鑑みてなされた本開示の目的は、正確性が高く、且つ、待ち時間が短い翻訳を可能とすることにある。
 本開示の一実施形態に係る情報処理方法は、
 端末装置による情報処理方法であって、
 翻訳元言語の音声を取得することと、
 前記音声を認識して、前記音声に対応するテキストを生成することと、
 前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
 前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
 前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
 前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
 を含む。
 本開示の一実施形態に係るプログラムは、
 コンピュータに、
 翻訳元言語の音声を取得することと、
 前記音声を認識して、前記音声に対応するテキストを生成することと、
 前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
 前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
 前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
 前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
 を含む動作を実行させる。
 本開示の一実施形態に係る端末装置は、
 制御部を含む端末装置であって、前記制御部は、
 翻訳元言語の音声を取得することと、
 前記音声を認識して、前記音声に対応するテキストを生成することと、
 前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
 前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
 前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
 前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
 を含む動作を実行する。
 本開示の一実施形態に係る情報処理方法は、
 端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムによる情報処理方法であって、
 翻訳元言語の音声を取得することと、
 前記音声を認識して、前記音声に対応するテキストを生成することと、
 前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
 前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
 前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
 前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
 を含む。
 本開示の一実施形態に係る情報処理システムは、
 端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムであって、
 翻訳元言語の音声を取得することと、
 前記音声を認識して、前記音声に対応するテキストを生成することと、
 前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
 前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
 前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
 前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
 を含む動作を実行する。
 本開示の一実施形態によれば、正確性が高く、且つ、待ち時間が短い翻訳を可能とすることができる。
情報処理システムの概略図である。 第1端末装置の構成を示すブロック図である。 第2端末装置の構成を示すブロック図である。 情報処理装置の構成を示すブロック図である。 第1端末装置を用いた対話を示す図である。 音声に対応するテキストを示す図である。 翻訳の表示画面を示す図である。 情報処理システムにて実行される動作を示すシーケンス図である。 他の実施形態による表示画面を示す図である。
 図1は、本実施形態の情報処理システムSの概略図である。情報処理システムSは、ネットワークNWを介して互いに通信可能な第1端末装置1、第2端末装置2、及び情報処理装置3を含む。ネットワークNWは、例えば、移動体通信網、固定通信網、又はインターネットを含む。第1端末装置1は第1ユーザP1によって使用される。第2端末装置2は第2ユーザP2によって使用される。
 図1では説明の簡便のため、端末装置は2つ図示される。しかし、端末装置の数はこれに限られない。
 図2を参照して第1端末装置1の内部構成が詳細に説明される。
 第1端末装置1は、PCなどの汎用機器、又は専用機器であってよい。「PC」は、personal computerの略語である。代替例として第1端末装置1は、携帯電話機、スマートフォン、ウェアラブル機器、若しくはタブレットなどのモバイル機器であってよい。
 第1端末装置1は、制御部11と通信部12と記憶部13と表示部14と入力部15と撮像部16と出力部17とを含む。第1端末装置1の各構成要素は、例えば専用線を介して互いに通信可能に接続される。
 制御部11は例えば、CPU(Central Processing Unit)又はMPU(Micro Processing Unit)を含む1つ以上の汎用プロセッサを含む。制御部11は、特定の処理に特化した1つ以上の専用プロセッサを含んでよい。制御部11は、プロセッサを含む代わりに、1つ以上の専用回路を含んでもよい。専用回路は例えば、FPGA(Field-Programmable Gate Array)、又はASIC(Application Specific Integrated Circuit)であってよい。制御部11は、ECU(Electronic Control Unit)を含んでもよい。制御部11は通信部12を介して、任意の情報を送信及び受信する。
 通信部12は、ネットワークNWに接続するための、1つ以上の有線又は無線LAN(Local Area Network)規格に対応する通信モジュールを含む。通信部12は、LTE(Long Term Evolution)、4G(4th Generation)、又は5G(5th Generation)を含む1つ以上の移動体通信規格に対応するモジュールを含んでよい。通信部12は、Bluetooth(登録商標)、AirDrop(登録商標)、IrDA、ZigBee(登録商標)、Felica(登録商標)、又はRFIDを含む1つ以上の近距離通信の規格又は仕様に対応する通信モジュール等を含んでよい。通信部12は、ネットワークNWを介して任意の情報を送信及び受信する。
 記憶部13は、例えば半導体メモリ、磁気メモリ、光メモリ、又はこれらのうち少なくとも2種類の組み合わせが含まれるが、これらに限られない。半導体メモリは、例えば、RAM又はROMである。RAMは、例えば、SRAM又はDRAMである。ROMは、例えば、EEPROMである。記憶部13は、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部13は、制御部11によって分析又は処理された結果の情報を記憶してよい。記憶部13は、第1端末装置1の動作又は制御に関する各種情報等を記憶してよい。記憶部13は、システムプログラム、アプリケーションプログラム、及び組み込みソフトウェア等を記憶してよい。記憶部13は第1端末装置1の外部に設けられて、第1端末装置1からアクセスされてよい。
 表示部14は例えば、ディスプレイである。ディスプレイは、例えば、LCD又は有機ELディスプレイである。「LCD」は、liquid crystal displayの略語である。「EL」は、electro luminescenceの略語である。表示部14は、第1端末装置1に備えられる代わりに、外部の出力機器として第1端末装置1に接続されてもよい。接続方式としては、例えば、USB、HDMI(登録商標)、又はBluetooth(登録商標)等の任意の方式を用いることができる。
 入力部15は例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力部15は、第1端末装置1の動作に用いられる情報を入力する操作を受け付ける。入力部15は、第1端末装置1に備えられる代わりに、外部の入力機器として第1端末装置1に接続されてもよい。接続方式としては、例えば、USB、HDMI(登録商標)、又はBluetooth(登録商標)等の任意の方式を用いることができる。「USB」は、Universal Serial Busの略語である。「HDMI(登録商標)」は、High-Definition Multimedia Interfaceの略語である。
 撮像部16はカメラを含む。撮像部16は周囲を撮像することができる。撮像部16は画像解析のために、撮像した画像を記憶部13に記録し又は制御部11に送信してよい。画像は静止画又は動画を含む。
 出力部17は、音声を出力するスピーカを含む。
 図3を参照して第2端末装置2の内部構成が詳細に説明される。
 第2端末装置2は、制御部21と通信部22と記憶部23と表示部24と入力部25と撮像部26と出力部27とを含む。第2端末装置2のハードウェア構成についての説明は、第1端末装置1のハードウェア構成についての説明と同一であってよい。ここでの説明は省略される。
 情報処理装置3は、事業者によるサービスの提供を支援するサーバであってよい。情報処理装置3は、例えば、事業者専用の施設、又はデータセンタを含む共用の施設に設置されてよい。
 図4を参照して情報処理装置3の内部構成が詳細に説明される。
 情報処理装置3は、制御部31と通信部32と記憶部33とを含む。情報処理装置3の制御部31と通信部32と記憶部33とのハードウェア構成についての説明は、第1端末装置1の制御部11と通信部12と記憶部13とのハードウェア構成についての説明と同一であってよい。ここでの説明は省略される。
 以下、情報処理システムSにおいて実行される情報処理方法が詳細に説明される。ここでは一例として、それぞれ異なる場所に位置する第1ユーザP1と第2ユーザP2とが、情報処理システムSを用いて、異なる言語で遠隔対話(例えばリモート会議)を行う。ここでは第1ユーザP1は日本語を話す。第2ユーザP2は英語を話す。対話を行う人数は複数であれば何人でもよい。
 第1端末装置1及び第2端末装置2のそれぞれは、撮像部16又は撮像部26により、端末装置を使用するユーザの画像を撮像し、撮像画像を他方の端末装置に逐次送信する。
 図5に示されるように、第1端末装置1の表示部14は、対話相手である第2ユーザP2の撮像画像を表示する。第1端末装置1の制御部11は、後述の方法で、第2ユーザP2が話した英語テキスト51を日本語テキスト52に翻訳して表示部14に表示する。
 第2端末装置2の制御部21は、第2ユーザP2が発した翻訳元言語の音声を入力部25のマイクを介して取得し、音声データとして、通信部22を介して第1端末装置1に送信する。翻訳元言語は任意のものであってよく、ここでは一例として英語である。
 第1端末装置1の制御部11は、第2端末装置2から、第2ユーザP2の音声を取得する。代替例として制御部11は、第1ユーザP1の近傍の位置にいる第2ユーザP2の音声を、入力部15を介して取得してよい。別の代替例として、制御部11は、第1端末装置1で視聴される動画の音声を取得してよい。
 制御部11は、取得された音声を、出力部17を介して出力してもよい。
 制御部11は、取得された音声を認識して、音声に対応するテキストをテキストデータとして生成する。テキスト生成方法は任意のものを利用可能である。制御部11は音声を、情報処理装置3を経由して取得してよい。音声に対応するテキストは、第2ユーザP2が話し続ける間、増加する。制御部11は、音声認識エンジンとして、例えば次のウェブサイトで提供されるAI(人工知能)を利用してよい。
   https://github.com/alphacep/vosk-api
 制御部11は、生成されたテキストのうち、先頭10秒分のテキストを記憶部13のバッファに溜める。図6に、先頭10秒分のテキスト61が示される。先頭の何秒分を記憶部13に溜めるかは任意に設定可能である。代替例として、制御部11は、先頭の所定単語数分(例えば100語)を記憶部13のバッファに溜めてよい。
 制御部11は、先頭10秒分が溜まったことを検出すると、溜められたテキストの分割点62を評価(検出)する。分割点は、ある文とその次の文とを分割するための点であってよい。分割点の評価方法は、任意のものを利用可能である。代替例として、分割点を検出できない場合、制御部11は、分割点を検出できるまでバッファ内のテキストを増加させて、分割点の検出を続けてよい。制御部11は、文の分割エンジンとして、例えば次のウェブサイトで提供されるAIを利用してよい。
   https://bminixhofer.github.io/nnsplit/
 制御部11は、先頭の一文のテキスト63を検出すると、テキスト63を情報処理装置3に送信する。情報処理装置3は、先頭の一文のテキスト63を翻訳先言語に翻訳する。翻訳先言語は任意であり、ここでは一例として日本語である。情報処理装置3の制御部31は、日本語のテキストを第1端末装置1に送信する。代替例として、情報処理装置3ではなく第1端末装置1が翻訳を行ってもよい。別の代替例として、情報処理装置3又は第1端末装置1は、テキストの先頭の所定秒数分又は所定単語数分をバッファに溜める途中で、翻訳元言語の音声において所定秒数(例えば0.3秒)以上の無音部分を検出すると、バッファ内のテキストを全て翻訳してよい。情報処理装置3の制御部31は、翻訳エンジンとして、例えば次のウェブサイトで提供されるAIを利用してよい。
   https://cloud.google.com/translate?hl=ja
 制御部11は、先頭の一文に対応する翻訳先言語のテキストを情報処理装置3から取得すると、テキストに対応する音声を音声合成によって生成する。制御部11は、音声合成方法として、例えば次のウェブサイトで提供されるAIを利用してよい。
   https://www.global.toshiba/jp/products-solutions/ai-iot/recaius/lineup/tospeak.html?utm_source=www&utm_medium=web&utm_campaign=since2022tdsl
 制御部11は、生成された音声を、出力部17のスピーカから出力する。図7に示されるように制御部11は、翻訳元言語のテキストの先頭の一文の英語テキスト71と、対応する翻訳先言語の日本語テキスト72とを、対にして表示部14に表示してよい。制御部11は、英語テキスト71と日本語テキスト72とを関連付けて記憶部13に記憶する。記憶されたデータは、後にコピー又はダウンロードが可能である。制御部11は、翻訳先言語のテキスト72を表示することと、翻訳先言語のテキスト72に対応する音声の出力することと、の少なくとも一方を実行する。追加例として制御部11は、翻訳元言語の音声の出力(再生)に対して、翻訳先言語のテキストに対応する音声の出力が所定時間以上遅れることを検出すると、翻訳先言語のテキストに対応する音声の再生速度を早めてよい。
 制御部11は、先頭の一文の秒数又は単語数と同一の秒数分又は単語数分のテキストを記憶部13のバッファに補充する。例えば、出力済みのテキストの先頭の一文の秒数が2秒である場合、バッファに残るテキストは8秒分である。制御部11は、テキスト61に続く後続テキストのうち先頭2秒分のテキストを記憶部13に溜める。このため、バッファ内のテキストは、8秒分と2秒分との合計で10秒分である。
 制御部11は、10秒分のテキストが溜まったことを検出すると、溜められたテキストの分割点を評価する。一例として、次の分割点64が図6に示される。よって次に翻訳されるテキストは「A restaurant owners We provide our own drivers and we manage the logistics of delivery」である。分割点の評価方法は上述の通りである。その後に行われる処理(すなわち翻訳、音声出力、テキスト表示、補充等)も上述の通りであるため、ここでの説明は省略される。
 第1端末装置1にて表示される日本語テキスト72は、第2ユーザP2の発話が続く間、更新される。
 追加例として、制御部11は、近距離無線通信(例えばBluetooth)を利用したマイク付きイヤホンが第1端末装置1に接続されたことを検出すると、第1端末装置1から所定範囲内(例えば所定距離内)で対話の翻訳を行っている1以上の対話グループの一覧を検出して、一覧を表示部14に表示する。制御部11は、一覧のうち1つの対話グループに対する選択を第1ユーザP1から受け付けると、選択された対話グループ内で発話された音声を取得し、言葉を指定言語のテキストに翻訳してよい。指定言語は、第1ユーザP1によって指定される。制御部11は、指定言語のテキストに対応する音声を生成して、出力部17を介して出力する。
 図8を参照して、情報処理システムSにより任意の時点で実行される情報処理方法が説明される。
 ステップS1にて第2端末装置2は、第2ユーザP2によって発された翻訳元言語の音声を第1端末装置1に送信する。
 ステップS2にて第1端末装置1の制御部11は、音声を認識して、音声に対応するテキストを生成する。ステップS3にて制御部11は、生成されたテキストのうち、先頭10秒分を記憶部13のバッファに溜める。ステップS4にて制御部11は、溜められたテキストの分割点を評価して、先頭の一文を検出する。
 ステップS5にて制御部11は、翻訳元言語のテキストを情報処理装置3に送信する。情報処理装置3の制御部31は、翻訳元言語のテキストを、指定された翻訳先言語のテキストに翻訳する。情報処理装置3の制御部31は、翻訳先言語のテキストを第1端末装置1に送信する。
 ステップS8にて制御部11は、情報処理装置3から取得したテキストに対応する音声を出力する。ステップS9にて制御部31は、ステップS4で検出された先頭の一文の秒数と同じ秒数分のテキストを記憶部13のバッファに補充する。
 制御部11は、ステップS3以降を再度実行する。
[他の実施形態]
 上記実施形態では、第2ユーザP2の発話が日本語に翻訳されて第1端末装置1から出力される。しかし第1端末装置1の制御部11が実行する処理は、第2端末装置2の制御部21によっても実行可能である。すなわち、第1ユーザP1の発話が英語に翻訳されて、第2端末装置2から出力されることも可能である。この構成により、異なる言語を話す第1ユーザP1と第2ユーザP2とは対話することができる。
 上記実施形態では、図8のステップS2からステップS4までとステップS9との処理は第1端末装置1において実行される。代替例としてステップS2からステップS4までとステップS9との処理は情報処理装置3によって実行されてよい。どの処理をどの装置で実行させるかは、コスト、言語、プラットフォーム等に応じて任意に変更可能である。
 上記実施形態では、図5に示されるように表示部14には、英語テキスト51と、対応する日本語テキスト52とが表示される。追加例として、図9に示されるように制御部11は表示部14において、上記実施形態によって生成された対訳92に加えて、従来の方法によって生成された対訳91を表示してよい。従来の方法とは、従来の音声認識エンジンが、第2ユーザP2の音声を認識し、認識されたテキストにおける一文の終了を検知し、認識されたテキストを翻訳する方法である。
[効果]
 以上述べたように本実施形態によれば、第1端末装置1の制御部11は、翻訳元言語の音声を取得することと、音声を認識して、音声に対応するテキストを生成することと、テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、バッファに溜められたテキストの分割点を検出して、テキストの先頭の一文を検出することと、先頭の一文に対応する、翻訳先言語のテキストを取得することと、翻訳先言語のテキストを表示することと、翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、を含む動作を実行する。この構成により制御部11は、文章として成立する確率が高い正確な翻訳を実行することができる。更に制御部11は、翻訳元言語の音声が翻訳されるまでの待ち時間又は間隔を従来よりも短縮することができるので、同時通訳等への利用可能性を高めることができる。
 また本実施形態によれば、制御部11の動作は、検出された先頭の一文の秒数又は単語数と同一の秒数分又は単語数分のテキストを、バッファに補充することと、補充後のバッファに溜められたテキストの分割点を評価して、テキストの先頭の一文を検出することと、を含む。この構成により第1端末装置1は、正確な翻訳を持続することができる。
 また本実施形態によれば、制御部11の動作は、分割点を検出できない場合、分割点を検出できるまで、バッファ内のテキストを増加させることを含む。この構成により第1端末装置1は、正確な翻訳の実現性を高めることができる。
 また本実施形態によれば、制御部11の動作は、テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜める途中で、翻訳元言語の音声において所定秒数以上の無音を検出すると、バッファ内の全てのテキストに対応する翻訳先言語のテキストを取得すること、を含む。この構成により第1端末装置1は、正確な翻訳の実現性を高めることができる。
 また本実施形態によれば、制御部11の動作は、翻訳元言語のテキストの先頭の一文のテキストと、先頭の一文に対応する翻訳先言語のテキストとを、対にして表示することを含む。この構成により第1端末装置1は、具体的な翻訳状況をユーザに通知することができる。
 また本実施形態によれば、制御部11の動作は、翻訳元言語の音声の出力に対して、翻訳先言語のテキストに対応する音声の出力が所定時間以上遅れることを検出すると、翻訳先言語のテキストに対応する音声の再生速度を早めることを含む。この構成により第1端末装置1は、翻訳元言語の音声が翻訳されるまでの待ち時間又は間隔が長くなることを低減することができる。
 また本実施形態によれば、制御部11の動作は、近距離無線通信を利用したマイク付きイヤホンが第1端末装置に接続されたことを検出すると、第1端末装置1から所定範囲内で対話の翻訳を行っている1以上の対話グループの一覧を表示することと、一覧のうち1つの対話グループに対する選択を受け付けると、選択された対話グループ内で発話された音声を取得し、音声を指定言語のテキストに翻訳することと、指定言語のテキストに対応する音声を生成して出力することと、を含む。この構成により第1端末装置1は、ユーザが、言語の壁を意識することなく、ハンズフリーで、他のグループの対話に参加することを可能にすることができる。
 本開示が諸図面及び実施例に基づき説明されるが、当業者であれば本開示に基づき種々の変形及び改変を行ってもよいことに注意されたい。その他、本開示の趣旨を逸脱しない範囲での変更が可能である。例えば、各手段又は各ステップに含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップを1つに組み合わせたり、或いは分割したりすることが可能である。
 例えば、上記の実施形態において、第1端末装置1、第2端末装置2、又は情報処理装置3の機能又は処理の全部又は一部を実行するプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD(Digital Versatile Disc)又はCD-ROM(Compact Disc Read Only Memory)などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムを任意のサーバのストレージに格納しておき、任意のサーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。本開示は、プロセッサが実行可能なプログラムとしても実現可能である。
 コンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、主記憶装置に格納する。そして、コンピュータは、主記憶装置に格納されたプログラムをプロセッサで読み取り、読み取ったプログラムに従った処理をプロセッサで実行する。コンピュータは、可搬型記録媒体から直接プログラムを読み取り、プログラムに従った処理を実行してもよい。コンピュータは、コンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行してもよい。サーバからコンピュータへのプログラムの転送は行わず、実行指示及び結果取得のみによって機能を実現する、いわゆるASP型のサービスによって処理を実行してもよい。「ASP」は、application service providerの略語である。プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるものが含まれる。例えば、コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータは、「プログラムに準ずるもの」に該当する。
S  情報処理システム

Claims (11)

  1.  端末装置による情報処理方法であって、
     翻訳元言語の音声を取得することと、
     前記音声を認識して、前記音声に対応するテキストを生成することと、
     前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
     前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
     前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
     前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
     を含む、情報処理方法。
  2.  請求項1に記載の情報処理方法において、
     検出された前記先頭の一文の秒数又は単語数と同一の秒数分又は単語数分のテキストを、前記バッファに補充することと、
     補充後のバッファに溜められたテキストの分割点を評価して、前記テキストの先頭の一文を検出することと、
     を含む、情報処理方法。
  3.  請求項1に記載の情報処理方法において、
     前記分割点を検出できない場合、前記分割点を検出できるまで、前記バッファ内のテキストを増加させることを含む、情報処理方法。
  4.  請求項1に記載の情報処理方法において、
     前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分を前記バッファに溜める途中で、前記翻訳元言語の音声において所定秒数以上の無音を検出すると、前記バッファ内の全てのテキストに対応する翻訳先言語のテキストを取得すること、
     を含む情報処理方法。
  5.  請求項1に記載の情報処理方法において、
     前記翻訳元言語のテキストの前記先頭の一文のテキストと、前記先頭の一文に対応する翻訳先言語のテキストとを、対にして表示することを含む、情報処理方法。
  6.  請求項1に記載の情報処理方法において、
     前記翻訳元言語の音声の出力に対して、前記翻訳先言語のテキストに対応する音声の出力が所定時間以上遅れることを検出すると、前記翻訳先言語のテキストに対応する音声の再生速度を早めることを含む、情報処理方法。
  7.  請求項1に記載の情報処理方法において、
     近距離無線通信を利用したマイク付きイヤホンが前記端末装置に接続されたことを検出すると、前記端末装置から所定範囲内で対話の翻訳を行っている1以上の対話グループの一覧を表示することと、
     前記一覧のうち1つの対話グループに対する選択を受け付けると、選択された対話グループ内で発話された音声を取得し、前記音声を指定言語のテキストに翻訳することと、
     前記指定言語のテキストに対応する音声を生成して出力することと、
     を含む情報処理方法。
  8.  コンピュータに、
     翻訳元言語の音声を取得することと、
     前記音声を認識して、前記音声に対応するテキストを生成することと、
     前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
     前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
     前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
     前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
     を含む動作を実行させる、プログラム。
  9.  制御部を含む端末装置であって、前記制御部は、
     翻訳元言語の音声を取得することと、
     前記音声を認識して、前記音声に対応するテキストを生成することと、
     前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
     前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
     前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
     前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
     を含む動作を実行する、端末装置。
  10.  端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムによる情報処理方法であって、
     翻訳元言語の音声を取得することと、
     前記音声を認識して、前記音声に対応するテキストを生成することと、
     前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
     前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
     前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
     前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
     を含む、情報処理方法。
  11.  端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムであって、
     翻訳元言語の音声を取得することと、
     前記音声を認識して、前記音声に対応するテキストを生成することと、
     前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
     前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
     前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
     前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
     を含む動作を実行する、情報処理システム。
     
PCT/JP2022/037142 2022-10-04 2022-10-04 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法 WO2024075179A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/037142 WO2024075179A1 (ja) 2022-10-04 2022-10-04 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/037142 WO2024075179A1 (ja) 2022-10-04 2022-10-04 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2024075179A1 true WO2024075179A1 (ja) 2024-04-11

Family

ID=90607724

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/037142 WO2024075179A1 (ja) 2022-10-04 2022-10-04 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Country Status (1)

Country Link
WO (1) WO2024075179A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318300A (ja) * 2003-04-14 2004-11-11 Advanced Telecommunication Research Institute International 節境界検出装置、機械翻訳装置及びコンピュータプログラム
JP2007018098A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International テキスト分割処理装置及びコンピュータプログラム
JP2015201215A (ja) * 2015-05-25 2015-11-12 株式会社東芝 機械翻訳装置、方法、およびプログラム
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
WO2020070959A1 (ja) * 2018-10-05 2020-04-09 株式会社Abelon 通訳システム、サーバ装置、配信方法、および記録媒体
JP2021103587A (ja) * 2017-07-07 2021-07-15 株式会社富士通ソーシアルサイエンスラボラトリ 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318300A (ja) * 2003-04-14 2004-11-11 Advanced Telecommunication Research Institute International 節境界検出装置、機械翻訳装置及びコンピュータプログラム
JP2007018098A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International テキスト分割処理装置及びコンピュータプログラム
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2015201215A (ja) * 2015-05-25 2015-11-12 株式会社東芝 機械翻訳装置、方法、およびプログラム
JP2021103587A (ja) * 2017-07-07 2021-07-15 株式会社富士通ソーシアルサイエンスラボラトリ 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法
WO2020070959A1 (ja) * 2018-10-05 2020-04-09 株式会社Abelon 通訳システム、サーバ装置、配信方法、および記録媒体

Similar Documents

Publication Publication Date Title
US11227129B2 (en) Language translation device and language translation method
US10388284B2 (en) Speech recognition apparatus and method
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
US9530415B2 (en) System and method of providing speech processing in user interface
CA2970725C (en) Headless task completion within digital personal assistants
US8868428B2 (en) Integration of embedded and network speech recognizers
KR20190113927A (ko) 장치에 대한 다중 사용자 인증
KR101827773B1 (ko) 통역 장치 및 방법
KR102356623B1 (ko) 가상 비서 전자 장치 및 그 제어 방법
KR20180028341A (ko) 단말 및 그 제어 방법
KR20150058286A (ko) 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징
CN111919249A (zh) 词语的连续检测和相关的用户体验
WO2022052776A1 (zh) 一种人机交互的方法、电子设备及系统
US20210297494A1 (en) Intelligent layer to power cross platform, edge-cloud hybrid artificial intelligence services
US20200204677A1 (en) Electronic apparatus, controlling method of electronic apparatus and computer readable medium
US20190303393A1 (en) Search method and electronic device using the method
US20120242860A1 (en) Arrangement and method relating to audio recognition
US11019116B2 (en) Conference system, conference server, and program based on voice data or illumination light
CN110555329A (zh) 一种手语翻译的方法、终端以及存储介质
US20210110824A1 (en) Electronic apparatus and controlling method thereof
WO2024075179A1 (ja) 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法
KR20210079061A (ko) 정보 처리 방법 및 정보 처리 장치
WO2021202605A1 (en) A universal client api for ai services
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
US20210294986A1 (en) Computer system, screen sharing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22961369

Country of ref document: EP

Kind code of ref document: A1