WO2016151761A1 - 音訳支援装置、音訳支援方法及び音訳支援プログラム - Google Patents

音訳支援装置、音訳支援方法及び音訳支援プログラム Download PDF

Info

Publication number
WO2016151761A1
WO2016151761A1 PCT/JP2015/058924 JP2015058924W WO2016151761A1 WO 2016151761 A1 WO2016151761 A1 WO 2016151761A1 JP 2015058924 W JP2015058924 W JP 2015058924W WO 2016151761 A1 WO2016151761 A1 WO 2016151761A1
Authority
WO
WIPO (PCT)
Prior art keywords
transliteration
text
tag
unit
pattern
Prior art date
Application number
PCT/JP2015/058924
Other languages
English (en)
French (fr)
Inventor
平 芦川
布目 光生
由加 黒田
良彰 水岡
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to JP2017507217A priority Critical patent/JP6392445B2/ja
Priority to PCT/JP2015/058924 priority patent/WO2016151761A1/ja
Publication of WO2016151761A1 publication Critical patent/WO2016151761A1/ja
Priority to US15/417,650 priority patent/US10373606B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Definitions

  • Embodiments of the present invention relate to a transliteration support apparatus, a transliteration support method, and a transliteration support program.
  • transliteration support devices are used to improve transliteration work efficiency.
  • a conventional transliteration support apparatus edits a text to be subjected to speech synthesis, first, morphological analysis and phonogram generation are performed on each text before and after editing. Next, the conventional transliteration support apparatus determines from the result of the morphological analysis whether the text editing is editing for correcting the reading of the synthesized speech or the accent.
  • the conventional transliteration support apparatus creates editing history data indicating the editing content and stores it in the storage unit. .
  • the conventional transliteration support device searches the editing history data to be edited to correct the text when an error is pointed out by the operator. Re-edit.
  • the conventional transliteration support apparatus needs to repeatedly correct similar reading, accent, pose position, or speech synthesis parameter, and there is a problem that it is difficult to perform transliteration work efficiently.
  • the adding unit when the acquisition unit acquires the text to be transliterated, the adding unit adds a transliteration tag indicating the transliteration setting of the text to the text.
  • the extraction unit extracts a transliteration pattern that associates frequent transliteration settings that frequently appear among transliteration settings indicated by transliteration tags and adaptation conditions for applying the frequent transliteration settings to text.
  • the creation unit creates synthesized speech using the transliteration pattern, and the playback unit plays back the created synthesized speech.
  • FIG. 1 is a hardware configuration diagram of the transliteration support apparatus according to the first embodiment.
  • FIG. 2 is a functional block diagram of the transliteration support apparatus according to the first embodiment.
  • FIG. 3 is a flowchart illustrating the flow of the transliteration support operation of the transliteration support apparatus according to the first embodiment.
  • FIG. 4 is a diagram illustrating a transliteration pattern selection screen in the transliteration support apparatus according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of text acquired by the transliteration support apparatus according to the first embodiment.
  • FIG. 6 is a diagram illustrating an example of text to which a transliteration tag is assigned in the transliteration support apparatus according to the first embodiment.
  • FIG. 1 is a hardware configuration diagram of the transliteration support apparatus according to the first embodiment.
  • FIG. 2 is a functional block diagram of the transliteration support apparatus according to the first embodiment.
  • FIG. 3 is a flowchart illustrating the flow of the transliteration support operation of the transliter
  • FIG. 7 is a diagram illustrating an example of a transliteration work screen for performing transliteration settings, which is displayed by the transliteration support apparatus according to the first embodiment.
  • FIG. 8 is a diagram showing a transliteration work screen in which transliteration tags are not displayed.
  • FIG. 9 is a diagram showing an example of combinations of adaptation conditions and transliteration settings for each transliteration pattern.
  • FIG. 10 is a hardware configuration diagram of the transliteration support apparatus according to the second embodiment.
  • FIG. 11 is a flowchart illustrating the flow of the transliteration support operation of the transliteration support apparatus according to the second embodiment.
  • FIG. 12 is a diagram illustrating an example of transliteration history data used in the transliteration support apparatus according to the second embodiment.
  • FIG. 13 is a hardware configuration diagram of the transliteration support apparatus according to the third embodiment.
  • FIG. 14 is a diagram illustrating an example of an external data selection screen displayed by the transliteration support apparatus according to the third embodiment.
  • FIG. 15 is a diagram illustrating an example of an external data creation screen displayed by the transliteration support apparatus according to the third embodiment.
  • the transliteration support apparatus is used for creating an electronic book (such as an audio book or DAISY standard data) including text and synthesized speech corresponding to the text, for example.
  • DAISY is an abbreviation for “Digital Accessible Information System”.
  • the transliteration work described below means a work for creating synthesized speech corresponding to input text and correcting the created synthesized speech for reading, accent, pose, and the like.
  • FIG. 1 is a block diagram of the transliteration support apparatus according to the first embodiment.
  • the transliteration support apparatus according to the embodiment can be realized by a so-called personal computer apparatus.
  • the present invention is not limited to this, and the transliteration support apparatus according to the embodiment may be realized by another apparatus.
  • the transliteration support apparatus includes a CPU 1, a ROM 2, a RAM 3, a communication unit 4, an HDD 5, a display unit 6, and an operation unit 7, as shown in FIG.
  • the CPU 1 to the operation unit 7 are connected to each other via a bus line 8.
  • CPU is an abbreviation for “Central Processing Unit”.
  • ROM is an abbreviation for “Read Only Memory”.
  • RAM is an abbreviation for “Random Access Memory”.
  • HDD is an abbreviation for “Hard Disk Drive”.
  • the transliteration support program is stored in the HDD 5.
  • the CPU 1 develops each part of the transliteration support program described with reference to FIG. 2 on the RAM 3 and executes a transliteration support operation.
  • the transliteration support program is stored in the HDD 5.
  • FIG. 2 shows a functional block diagram of each function realized by the CPU 1 executing the transliteration support program stored in the HDD 5.
  • the CPU 1 functions as a text acquisition unit 11, transliteration tag assignment unit 12, speech reproduction unit 13, transliteration pattern extraction unit 14, and synthesized speech creation unit 15 by executing a transliteration support program. .
  • the text acquisition unit 11 is an example of an acquisition unit.
  • the transliteration tag assigning unit 12 is an example of an assigning unit.
  • the audio reproduction unit 13 is an example of a reproduction unit.
  • the transliteration pattern extraction unit 14 is an example of an extraction unit.
  • the synthesized speech creation unit 15 is an example of a creation unit.
  • the text acquisition unit 11 acquires text.
  • the voice reproducing unit 13 instructs the synthesized voice creating unit 15 to create a synthesized voice in response to the operator's instruction.
  • the voice reproducing unit 13 reproduces the synthesized voice (voice data) created by the synthesized voice creating unit 15.
  • the transliteration tag assigning unit 12 generates a transliteration tagged text in which a transliteration tag is added to the acquired text, and stores the generated text in a storage unit such as the HDD 5 (or RAM 3).
  • the transliteration pattern extraction unit 14 extracts a transliteration pattern (to be described later) using a transliteration tag and stores it in a storage unit such as the HDD 5 (or RAM 3).
  • the synthesized speech creating unit 15 creates synthesized speech corresponding to the text using the text, the transliteration tag, and the transliteration pattern.
  • the text acquisition unit 11 to the synthesized speech creation unit 15 will be described as being realized by software. However, some or all of the text acquisition unit 11 to the synthesized speech creation unit 15 may be realized by hardware.
  • the transliteration support program may be provided as a file in an installable or executable format and recorded on a recording medium readable by a computer device such as a CD-ROM or a flexible disk (FD).
  • the transliteration support program may be provided by being recorded on a computer-readable recording medium such as a CD-R, DVD, Blu-ray disc (registered trademark), or semiconductor memory. DVD is an abbreviation for “Digital Versatile Disk”.
  • the transliteration support program may be provided via a network such as the Internet.
  • the transliteration support apparatus may download a transliteration support program via a network, install it in a storage unit such as the HDD 5, and execute the program.
  • the transliteration support program may be provided by being incorporated in advance in a storage unit such as the ROM 2 of the transliteration support apparatus.
  • FIG. 3 is a flowchart showing the flow of the transliteration support operation of the transliteration support apparatus.
  • the transliteration support apparatus is activated, and the CPU 1 reads the transliteration support program stored in the HDD 5 in response to the operation of the operator.
  • the CPU 1 expands the text acquisition unit 11 to the synthesized speech creation unit 15 corresponding to the transliteration support program in the RAM 3. Thereby, the process of the flowchart of FIG. 3 is started.
  • step S1 the text acquisition unit 11 acquires the text specified by the operator.
  • the text is a structured document described in, for example, an HTML method.
  • HTML is an abbreviation for “Hypertext Markup Language”.
  • the text acquisition unit 11 displays the acquired text on the transliteration work screen for editing work.
  • the transliteration work screen will be described later with reference to FIG.
  • the operator designates desired transliteration settings such as speaker, volume, pitch, pause (pause), and the like via the transliteration work screen.
  • the transliteration tag adding unit 12 expands and describes the HTML tag of the text so that synthesized speech instructed by the operator's operation is generated.
  • a tag described by extending a structured document tag such as an HTML tag in this way is referred to as a “transliteration tag”. Then, by translating and describing the structured document tag of the text, a transliteration tag corresponding to the transliteration setting instructed by the operator is given to the text.
  • step S3 the voice reproduction unit 13 determines whether or not the operator has instructed the reproduction of the synthesized voice via the operation unit 7. Until the reproduction of the synthesized speech is instructed (step S3: No), the transliteration tag adding unit 12 performs an operation of adding a transliteration tag corresponding to the operation of the operator to the text in step S2.
  • step S3 When the operator instructs the reproduction of the synthesized speech (step S3: Yes), the speech reproduction unit 13 determines whether or not there is a transliteration tag indicating a transliteration setting of a text to be reproduced or a transliteration pattern described later in step S4. . When there is no transliteration tag or transliteration pattern (step S4: No), the transliteration tag adding unit 12 performs an operation of adding a transliteration tag corresponding to the operation of the operator to the text in step S2.
  • step S4 if there is a transliteration tag or transliteration pattern (step S4: Yes), the synthesized speech creating unit 15 uses the transliteration tag or transliteration pattern in step S5 to correspond to the text instructed to be reproduced. Create synthesized speech.
  • the voice reproduction unit 13 reproduces the generated synthesized voice in step S6. As a result, the synthesized speech corresponding to the text is reproduced with the speaker, volume, pitch, etc. designated by the operator.
  • the operator listens to the reproduced synthesized speech, and operates the operation unit 7 to correct (change) the speaker, volume, pitch, pose insertion position, etc. of the text determined to be corrected. This is specified via the transliteration work screen.
  • the transliteration tag assigning unit 12 corrects the transliteration setting of the transliteration tag attached to the text in accordance with the operator's instruction in step S7. Thereby, the transliteration tag corresponding to the corrected transliteration setting is added to the text.
  • a transliteration pattern in which a predetermined adaptation condition and a predetermined transliteration setting are associated is extracted, so that each text satisfying the predetermined adaptation condition is uniformly determined. It is possible to reflect the transliteration setting.
  • the operator operates the operation unit 7 to specify such transliteration pattern extraction.
  • the CPU 1 determines whether or not there is an operation for designating extraction of a transliteration pattern.
  • step S4 it is determined whether or not there is a transliteration tag or transliteration pattern for the text instructed to reproduce the synthesized speech.
  • the synthesized speech creation unit 15 creates the synthesized speech according to the transliteration tag in step S5.
  • a synthesized speech corresponding to the transliteration setting corrected in step S7 is generated, and is reproduced by the audio reproduction unit 13 in step S6.
  • step S9 the transliteration pattern extraction unit 14 uses transliteration tag elements or text format as an adaptation condition, and extracts a transliteration pattern in which each adaptation condition is associated with a transliteration setting corresponding to each adaptation condition. Then, the transliteration pattern extraction unit 14 displays a list of extracted transliteration patterns on, for example, a transliteration pattern selection screen shown in FIG. In the example of FIG. 4, the transliteration pattern extraction unit 14 displays the adaptation conditions and transliteration settings of each transliteration pattern on the transliteration pattern selection screen. The transliteration pattern extraction unit 14 displays a check box 18 for selecting a transliteration pattern desired to be registered and a registration button 19 for designating registration of the selected transliteration pattern on the transliteration pattern selection screen. .
  • the operator performs an operation of adding a check mark to the check box 18 of the transliteration pattern of the desired adaptation condition and transliteration setting, and operates the registration button 19.
  • the transliteration pattern extraction unit 14 stores and controls the transliteration pattern in which the check box 18 is checked in the pattern dictionary which is a storage area for transliteration patterns in the HDD 5 in step S10 ( sign up.
  • step S4 when the extracted transliteration pattern is stored in the pattern dictionary, the process returns to step S3. Then, when reproduction of the synthesized speech is instructed by the operator (step S3: Yes), in step S4, it is determined whether or not there is a transliteration tag or transliteration pattern for the text instructed to reproduce the synthesized speech.
  • the synthesized speech creation unit 15 creates the synthesized speech according to the transliteration tag.
  • the synthesized speech creating unit 15 creates a synthesized speech corresponding to the transliteration pattern.
  • FIG. 5 shows an example of text acquired by the text acquisition unit 11.
  • a text that is a structured document by the HTML method or the like is acquired.
  • HTML is an abbreviation for “Hypertext Markup Language”.
  • the text may be so-called plain data that does not include a tag structure, in addition to data having a tag structure such as HTML.
  • text according to a certain rule such as inserting a ruby character string enclosed in parentheses behind the target character string may be used.
  • FIG. 6 shows an example of text to which transliteration tags are assigned by the transliteration tag assignment unit 12.
  • the transliteration tag assigning unit 12 extends, as an example, an existing structured document tag such as an HTML tag to the above-described transliteration tag and assigns it to each text.
  • transliteration tag types include synthesized speech parameter information (x-audio-param) for designating the text speaker, volume and pitch, and pause information (x for designating pause of synthesized speech output) -audio-pause).
  • the transliteration tag assigning unit 12 sets the HTML tag of the telephone number “012-345-XXX” as “012 ⁇ span x-audio-pause> ⁇ / span> ⁇ ” as shown in FIG. 345 ⁇ span x-audio-pause> ⁇ / span> -XXXX ”.
  • the synthesized speech is output between “2” and “3” and between “5” and “ ⁇ ” for the telephone number “012-345-XXX”.
  • a transliteration tag of pause information that temporarily stops is added.
  • FIG. 7 shows a transliteration work screen for text with the transliteration tag described above.
  • the CPU 1 displays this transliteration work screen on the display unit 6 in accordance with the transliteration support program stored in the HDD 5.
  • the CPU 1 displays the name 20 of the software attached to the transliteration support program such as “transliteration support software” on the transliteration work screen.
  • the CPU 1 displays the text 21 which is a structured document by an HTML method such as “1. Information” and “2. Contact” on the transliteration work screen.
  • the CPU 1 displays on the transliteration work screen the transliteration tags such as synthesized speech parameter information, pose information, reading information and non-reading information, and the editing form attached to the text 21.
  • transliteration tags such as “speaker: Mr. B”, “volume: +10”, “pitch: +3” are the synthesized speech parameter information 22.
  • the transliteration tag shown in the display form of [L] is the pose information 23 set in the text.
  • the transliteration tag “Yuaruel” displayed as a superscript of the URL is the reading information 24.
  • the band-shaped mark displayed in superscript form with respect to the text “(Heisei 26)” on the date at the bottom of FIG. 7 indicates that the synthesized speech of the text “(Heisei 26)” is not output. This is non-read information 25 indicating what to do (not to read).
  • the CPU 1 displays on the transliteration work screen an operation button 26 for designating the reproduction of the synthesized speech corresponding to the text and the pause of the reproduction. Further, the CPU 1 displays on the transliteration work screen a character decoration form 27 for performing character decoration such as bold, italic, and color for the displayed text.
  • the synthesized voice parameter information 22 can be specified and modified by an operator operating a select box or a slide bar of the synthesized voice parameter information 22.
  • the transliteration tag assigning unit 12 assigns the synthesized speech parameter information 22 corresponding to the operation of the select box or the slide bar by the operator to the text. Further, the operator designates the insertion of the pose information 23 by designating an arbitrary position of the text by the key operation of the operation unit 7 or the like.
  • the transliteration tag assigning unit 12 inserts (applies) the pose information 23 at the position of the text designated by the operator.
  • the transliteration tag adding unit 12 adds reading information 24 corresponding to the input reading to the selected text.
  • the CPU 1 displays on the transliteration work screen a check box 28 for selecting display or non-display of the transliteration tag.
  • the operator desires to display the transliteration tag, the operator performs an operation of checking the check box 28 as shown in the example of FIG.
  • the CPU 1 controls display of transliteration tags added to each text as shown in the example of FIG.
  • the CPU 1 does not display the transliteration tag added to each text as shown in FIG. 8 until an operation for checking the check box 28 is performed (while the check box 28 is not checked).
  • the transliteration pattern extraction unit 14 uses the transliteration tag element or text format as an adaptation condition, extracts a transliteration pattern in which each adaptation condition and a transliteration setting corresponding to each adaptation condition are associated, and stores them in the pattern dictionary of the HDD 5. (sign up.
  • the transliteration pattern extraction unit 14 assigns a transliteration tag ( ⁇ span x-audio-pause> ⁇ / span>) of pause information by the transliteration tag addition unit 12 as described above. Detect each typed text. Next, the transliteration pattern extraction unit 14 determines whether or not a character string satisfying the following condition exists in the detected text using template matching. As an example, a regular expression can be used as template matching.
  • the transliteration pattern extraction unit 14 determines whether or not a phone number format character string consisting only of character strings of numbers and symbols (hyphens or parentheses) exists in the detected text.
  • the transliteration pattern extraction unit 14 determines whether or not a URL-format character string that starts with “http: //” and includes only alphanumeric characters and symbols (dots) is present in the detected text. . Further, the transliteration pattern extraction unit 14 determines whether or not a character string in a date / time format including only numerical values and character strings of “year”, “month”, and “day” exists in the detected text.
  • the transliteration pattern extraction unit 14 determines that there is a character string that satisfies such a condition, the transliteration pattern extraction unit 14 registers a “transliteration pattern” that associates “adaptation conditions” and “transliteration settings” corresponding to each character string.
  • the transliteration pattern extraction unit 14 uses the phone number format as an adaptation condition as shown in FIG. Also, in this case, the transliteration pattern extraction unit 14 assigns a transliteration setting to a “pause information tag (pause tag) before a hyphen ( ⁇ )”, and a hyphenation reading tag “no (no)”. (Read tag) ". Then, the transliteration pattern extraction unit 14 registers a transliteration pattern in which the adaptation condition of the telephone number format is associated with the above-described transliteration setting in the pattern dictionary.
  • the transliteration pattern extracting unit 14 uses the URL format as an adaptation condition as shown in FIG. In this case, the transliteration pattern extraction unit 14 sets the transliteration setting to “add a pause tag between alphanumeric characters between“ http: // ”and“ co.jp ”. Then, the transliteration pattern extraction unit 14 registers the transliteration pattern in which the URL format adaptation condition and the transliteration setting described above are associated with each other in the pattern dictionary.
  • the transliteration pattern described above corresponds to a transliteration tag such as “http: //. ⁇ L /> ⁇ ⁇ L /> ⁇ ⁇ L /> ⁇ .co.jp”, for example.
  • a synthesized speech is generated.
  • the transliteration pattern extraction unit 14 When the detected text has a date format of “numerical value (Heisei (numeric)) year” such as “2014 (Heisei 26) year”, the transliteration pattern extraction unit 14 changes the date format as shown in FIG. It is an adaptation condition. Also, in this case, the transliteration pattern extraction unit 14 sets the transliteration setting as “(Heisei (numerical value)” is assigned a reading tag with a null character string (not read) ”. Then, the transliteration pattern extraction unit 14 registers a transliteration pattern in which the adaptation condition of the date format is associated with the above-described transliteration setting in the pattern dictionary.
  • the transliteration pattern extraction unit 14 uses the date format as an adaptation condition. In this case, the transliteration pattern extraction unit 14 sets the transliteration setting to “add a pose tag before special characters of“ year ”,“ month ”, and“ day ”. Then, the transliteration pattern extraction unit 14 registers a transliteration pattern in which the adaptation condition of the date format is associated with the above-described transliteration setting in the pattern dictionary.
  • the transliteration pattern extraction unit 14 may register transliteration patterns as follows. When a character string in the above-described telephone format, URL format, and date format is detected, a pause position in the detected character string is acquired. Next, it is determined whether or not the pause position interval is a fixed character interval. If the interval is a fixed number of characters, a transliteration pattern that associates the adaptation conditions such as the above-described telephone format with the transliteration setting of “insert pause at a fixed number of character intervals” is registered in the pattern dictionary.
  • the transliteration pattern extraction unit 14 acquires the characters immediately before and after each pose position.
  • the acquired character is a symbol character or a special character such as “year”, “month”, “day”
  • the transliteration pattern extracting unit 14 detects the number of appearances of each character.
  • the transliteration pattern extraction unit 14 associates the adaptation condition such as the above telephone format with the transliteration setting “insert a pause before a symbol character or special character”.
  • the transliteration pattern is registered in the pattern dictionary.
  • the transliteration pattern extraction unit 14 may register the part-of-speech string and the pause position pattern as a transliteration pattern after classifying the part-of-speech by morphological analysis.
  • the transliteration pattern extraction unit 14 may register a pattern of punctuation marks and pause positions in the text as a transliteration pattern.
  • the transliteration pattern extracting unit 14 acquires the transliteration tag of the synthesized speech parameter information provided by the transliteration tag attaching unit 12 from all the texts. That is, the transliteration pattern extraction unit 14 detects a transliteration tag including synthesized speech parameter information of “x-audio-param” from all texts. Next, the transliteration pattern extraction unit 14 detects an element of each acquired transliteration tag. The transliteration pattern extraction unit 14 detects the number of combinations of the element and the synthesized speech parameter information.
  • the transliteration pattern extraction unit 14 registers a transliteration pattern in which the element name is an adaptation condition and the value of the synthesized speech parameter information is associated as a transliteration setting in the pattern dictionary.
  • the transliteration pattern extraction unit 14 sets the h1 element as an adaptation condition as shown in FIG. Also, the transliteration pattern extraction unit 14 sets the transliteration setting to the synthesized speech parameter information in which “the speaker is Mr. B, the volume is +5, the pitch is ⁇ 2”, for example, when the number of combinations equal to or greater than a certain number is detected. Then, a transliteration pattern in which such an adaptation condition is associated with synthesized speech parameter information is registered in the pattern dictionary.
  • the transliteration pattern extraction unit 14 sets the strong element as an adaptation condition as shown in FIG. Also, the transliteration pattern extraction unit 14 sets, as transliteration setting, synthetic speech parameter information in which “the volume is +5”, for example, in which the number of combinations equal to or greater than a predetermined number is detected. That is, the transliteration pattern extraction unit 14 sets the synthesized speech parameter information in which only the volume is changed to “+5” without changing the speaker and the pitch among the synthesized speech parameter information of the speaker, the volume, and the pitch. . Then, the transliteration pattern extraction unit 14 registers a transliteration pattern in which such an adaptation condition is associated with the synthesized speech parameter information in the pattern dictionary.
  • the transliteration pattern extracting unit 14 acquires the transliteration tag of the reading information added by the transliteration tag adding unit 12 from all the texts. That is, the transliteration pattern extraction unit 14 detects a transliteration tag including synthesized speech parameter information of “x-audio-ruby” from all texts. Next, the transliteration pattern extraction unit 14 detects an element of each acquired transliteration tag. The transliteration pattern extraction unit 14 detects the number of combinations of elements and reading information. When the number of combinations is equal to or greater than a certain number, the transliteration pattern extraction unit 14 registers a transliteration pattern in which the element name is used as an adaptation condition and the reading information is associated as a transliteration setting in the pattern dictionary.
  • the transliteration pattern extraction unit 14 sets the span element as an adaptation condition. Also, the transliteration pattern extraction unit 14 sets the transliteration setting on the reading information in which the number of combinations more than a certain number is detected. Then, a transliteration pattern that associates such adaptive conditions with reading information is registered in the pattern dictionary. In addition, after acquiring text including a span element and classifying the part of speech by morphological analysis, the part of speech string, notation, and reading information may be registered as transliteration patterns.
  • the transliteration pattern extraction unit 14 uses a regular expression or the like for the acquired text.
  • the extracted non-read pattern is registered in the pattern dictionary as a transliteration pattern.
  • the transliteration pattern extraction unit 14 detects text in a date / time format string consisting of numbers, symbols, and special characters such as “year”, “month”, “day”, “Heisei”. Thereby, for example, a character string such as “2014 (Heisei 26)” is detected.
  • the transliteration pattern extraction unit 14 uses a date / time format character string as an adaptation condition, and associates the transliteration setting “character string in parentheses is not read”
  • the transliteration pattern is registered in the pattern dictionary.
  • the synthesized speech creating unit 15 receives a synthesized speech creation request from the speech reproducing unit 13, the synthesized speech creating unit 15 acquires the text of the block to be speech synthesized.
  • the transliteration tag included in the acquired block text and the transliteration pattern extracted by the transliteration pattern extraction unit 14 are used to convert the text into a language that can be recognized by the speech synthesis engine.
  • the synthesized speech creation unit 15 converts the text into a language in the SSML format.
  • SSML is an abbreviation for “Speech Synthesis Markup Language”.
  • the synthesized speech creating unit 15 supplies the converted language to the speech synthesis engine, creates synthesized speech corresponding to the text, and supplies the created synthesized speech to the speech reproducing unit 13.
  • the voice reproducing unit 13 requests the synthesized voice creating unit 15 to create synthesized speech.
  • the voice reproducing unit 13 acquires and reproduces the synthesized voice created by the synthesized voice creating unit 15.
  • the transliteration support apparatus adds a transliteration tag serving as transliteration setting information such as reading, accent, and pose to the input text. Also, from the transliteration settings indicated by the transliteration tags attached to the text, a transliteration pattern in which frequent transliteration settings are associated with adaptation conditions for frequent transliteration settings is extracted. Alternatively, a transliteration pattern in which a text format as an adaptation condition is associated with a transliteration setting corresponding to the text format as an adaptation condition is extracted. Then, the transliteration support device creates and reproduces the synthesized speech corresponding to the transliteration setting indicated by the transliteration tag attached to the text or the extracted transliteration pattern.
  • the transliteration support apparatus stores the transliteration history information (transliteration history data) of the operator. Also, transliteration reliability (transliteration reliability) is calculated from transliteration history data. Then, according to the calculated transliteration reliability, a transliteration pattern used to create a synthesized speech is determined.
  • transliteration history data transliteration history data
  • transliteration reliability transliteration reliability
  • FIG. 10 is a block diagram of the transliteration support apparatus according to the second embodiment.
  • the same reference numerals are given to blocks showing the same operations as the blocks shown in FIG. 2.
  • the transliteration support apparatus according to the second exemplary embodiment uses history information (transliteration history data) generated by the transliteration tag assignment unit 12 corresponding to the transliteration work of the worker, for example, the HDD 5 or the like. It has the structure which memorize
  • the transliteration support apparatus according to the second embodiment has a transliteration reliability calculation unit 17 that calculates transliteration reliability using transliteration history data stored in the HDD 5.
  • the transliteration history data includes a transliteration tag identifier that uniquely identifies a transliteration tag assigned by the transliteration tag assignment unit 12, a transliteration setting of the transliteration tag, and a transliteration tag update time.
  • the transliteration tag adding unit 12 updates the transliteration tag update time of the corresponding transliteration tag identifier in the transliteration history data stored in the HDD 5 when the transliteration tag is updated according to the operator's instruction.
  • the transliteration reliability calculation unit 17 calculates transliteration reliability from the transliteration history data. For example, if the transliteration tag is updated many times in spite of a short time, it means that an uncertain transliteration setting is repeatedly performed by the operator. In this case, as the transliteration reliability of the corresponding transliteration tag, the low transliteration reliability is calculated by the transliteration reliability calculation unit 17.
  • the transliteration reliability calculation unit 17 calculates the transliteration reliability of the transliteration tag using the following equation (1).
  • Equation 1 “ ⁇ ” and “ ⁇ ” represent constants.
  • Transliteration reliability of transliteration tag i (transliteration reliability of current transliteration tag i)- ⁇ x (number of updates of tag i) / (difference of last update time of tag i) ... (Equation 1)
  • the transliteration pattern extraction unit 14 calculates the reliability of each transliteration pattern by performing, for example, the following equation 2 using the transliteration reliability calculated by the transliteration reliability calculation unit 17.
  • the transliteration pattern extraction unit 14 registers only transliteration patterns whose reliability calculated by Equation 2 is a certain value or more in the pattern dictionary.
  • the flow of such processing is shown in the flowchart of FIG.
  • steps having the same operations as those of the first embodiment described with reference to FIG. 3 are denoted by the same step numbers.
  • the processing different from the flowchart of FIG. 3 is the processing of steps S11 to S14.
  • the transliteration tag assignment unit 12 performs the step in step S11 or step S12.
  • the “transliteration tag update time” of the corresponding transliteration tag is updated.
  • the transliteration reliability calculation unit 17 uses each of the transliteration tags stored in the HDD 5 in step S13 by using the above equation (1). Transliteration reliability of is calculated.
  • step S14 the transliteration pattern extraction unit 14 performs the above equation 2 using the transliteration reliability calculated by the transliteration reliability calculation unit 17, and calculates the reliability of each transliteration pattern. Then, the transliteration pattern extraction unit 14 extracts a transliteration pattern having a certain degree of reliability or higher, and displays a list of adaptation conditions and transliteration settings on the display unit 6 as described with reference to FIG. In step S10, the transliteration pattern extraction unit 14 registers the transliteration pattern selected by the operator in the pattern dictionary.
  • the transliteration tag update time is the time elapsed since the transliteration work was started (the time elapsed from the display start time of the transliteration work screen shown in FIG. 7).
  • the initial value of transliteration reliability is 100.
  • the constant ⁇ in the above formula 1 is 10.
  • the transliteration tag adding unit 12 converts the HTML tag of the text “1.
  • ⁇ / H1> the description is expanded to a transliteration tag having a transliteration setting and a transliteration tag identifier.
  • the transliteration reliability of the transliteration tag of the transliteration tag identifier of “1” at the transliteration tag update time of “00:00:05” is “100”.
  • Transliteration history data with the transliteration tag update time “00:00:30” is stored in the HDD 5.
  • FIG. 12 also shows an example of transliteration history data of the text “2. Contact” shown in FIG. 5 and transliteration history data of the text “3. Agenda”.
  • the transliteration setting and transliteration tag update time information of the transliteration tag identifier “2” shown in FIG. 12 are transliteration history data of the text “2. Contact” shown in FIG.
  • the transliteration setting and transliteration tag update time information of the transliteration tag identifier “3” shown in FIG. 12 are transliteration history data of the text “3. Agenda” shown in FIG.
  • transliteration history data of the text “2. Contact” is set to “00:00:40” by the worker, the speaker is “Mr. B”, the volume is “+10”, and the pitch is “+3”. This is an example of transliteration setting. Also, transliteration history data of the text “2. Contact” is updated to “+2” at “00:00:45”, and updated to “+1” at “00:00:50”. An example is shown.
  • the transliteration reliability of the transliteration tag of the transliteration tag identifier of “2” is “100” at the time of “00:00:40”, and “100-10 ⁇ 2 // at the time of“ 00:00:45 ”.
  • Agenda” is set to “00:01:00” by the operator, the speaker is “Mr. B”, the volume is “+10”, and the pitch is “+1”. It is an example of transliteration setting.
  • Agenda” shows an example in which the pitch is updated to “+3” at “00:01:10”.
  • the transliteration pattern extraction unit 14 extracts transliteration patterns whose reliability calculated in this way is a predetermined value or more, and displays a list of adaptation conditions and transliteration settings on the display unit 6 as described with reference to FIG. . Then, the transliteration pattern extraction unit 14 registers the transliteration pattern selected by the operator in the pattern dictionary.
  • transliteration tag update time of the transliteration tag identifier of “3” there is a transliteration tag with a transliteration tag identifier of “1”, “Speaker is B, volume is +10, pitch is +3”.
  • transliteration tag with a transliteration tag identifier of “3” “speaker is B, volume is +10, pitch is +3”.
  • the transliteration tags of the transliteration tag identifiers “1” and “3” have transliteration patterns of “speaker is B, volume is +10, pitch is +3”, respectively.
  • the transliteration pattern extraction unit 14 detects the average value of the reliability of the final update time corresponding to the transliteration tags of the transliteration tag identifiers “1” and “3”.
  • the transliteration pattern reliability of the transliteration tag identifier of “1” is “96”.
  • the transliteration pattern extraction unit 14 calculates “90” as the transliteration pattern reliability of the transliteration tag identifier “2”, which is the transliteration pattern of another transliteration tag that exists only once. The above-mentioned average value “97” is compared. In this case, the transliteration pattern of “speaker is B, volume is +10, pitch is +3” has higher reliability. For this reason, the transliteration pattern extraction unit 14 extracts a transliteration pattern of “speaker is B, volume is +10, pitch is +3” and registers it in the pattern dictionary.
  • the transliteration pattern extraction unit 14 calculates the average value of the reliability of the final update time. Then, the transliteration pattern extraction unit 14 compares the calculated reliability of the average value with other reliability that exists only one, extracts the transliteration pattern with the higher reliability, and registers it in the pattern dictionary. Thereby, only a transliteration pattern with high reliability can be used.
  • the transliteration support apparatus can register and use only transliteration patterns with high reliability. For this reason, it is possible to perform transliteration support with high accuracy, and it is possible to obtain the same effect as in the first embodiment.
  • the transliteration support apparatus according to the third embodiment.
  • An operator who performs transliteration preferably sets the transliteration setting of the text to a transliteration setting that more people prefer.
  • the transliteration support apparatus allows a third party (participant) to hear the sound of each candidate transliteration setting using an external service such as a crowdsourcing service.
  • the transliteration assistance apparatus of 3rd Embodiment selects the transliteration setting with the most instruction
  • the external service is a service that can accept one file (for example, a compressed file such as a zip format) including XML data and audio data by WebAPI or the like.
  • FIG. 13 is a block diagram of the transliteration support apparatus according to the third embodiment.
  • the same reference numerals are given to blocks showing the same operations as the blocks shown in FIG. 10.
  • the transliteration support apparatus according to the third embodiment is an external device for transmitting to the external service from the transliteration history data stored in the HDD 5 and the transliteration reliability calculated as described above.
  • An external data creation unit 32 for creating data is included.
  • the transliteration support apparatus according to the third embodiment includes a display control unit 33 that controls display of an external data selection screen and an external data creation screen described later on the display unit 6.
  • the transliteration support apparatus transmits external data created by the following flow to an external service performed by a server apparatus on the network (crowd sourcing). That is, first, the operator operates the operation unit 7 to instruct display of the external data selection screen.
  • the display control unit 33 reads each transliteration tag currently set for each text and the transliteration reliability of the transliteration tag from the HDD 5 to generate an external data selection screen and displays it on the display unit 6.
  • FIG. 14 is a display example of the external data selection screen.
  • the display control unit 33 reads the texts such as “1. Information” and “2. Contact” described with reference to FIG. 5 from the HDD 5 and displays them on the external data selection screen.
  • transliteration reliability such as “96” and “90” calculated using the update history of each transliteration tag from the HDD 5 and displays it on the external data selection screen.
  • the display control unit 33 displays a creation button 35 for designating display of a display screen of external data to be transmitted on the external data selection screen.
  • a creation button 35 for designating display of a display screen of external data to be transmitted on the external data selection screen.
  • Such an external data selection screen may be displayed around each transliteration tag on the transliteration work screen described with reference to FIG.
  • the operator selects, via the operation unit 7, a text that is desired to be given transliteration settings that are often instructed by a third party among the texts displayed on the external data selection screen, and the creation button 35 is pressed. Manipulate.
  • a check box is displayed for each text. The operator selects a desired text by checking a check box via the operation unit 7 and operates the creation button 35.
  • the external data creation unit 32 extracts the transliteration setting of the transliteration tag selected by the operator from the transliteration history data read from the HDD 5. At this time, overlapping transliteration settings may be excluded.
  • the external data creation unit 32 supplies the synthesized speech creation unit 15 with each text selected by the operator and the extracted transliteration settings.
  • the synthesized speech creating unit 15 converts the supplied text and transliteration settings into a format (for example, an SSML format language) that can be recognized by the speech synthesis engine.
  • the synthesized speech creation unit 15 inputs the converted language to the speech synthesis engine, and creates a synthesized speech.
  • the display control unit 33 displays the external data creation screen shown in FIG.
  • the display control unit 33 displays a message input unit 41 for an operator to input a message or the like on the external data creation screen.
  • the display control unit 33 displays question units 42 and 43 for selecting a transliteration setting desired by a third party on the external data creation screen.
  • the display control unit 33 also displays on the external data creation screen a transmission button 44 for instructing transmission of external data created on the external data creation screen to a server device on a predetermined network.
  • the display control unit 33 displays the corresponding text 45 on each of the question units 42 and 43 and also displays a plurality of transliteration settings 47 set for the text 45. Further, the display control unit 33 displays a playback button 45 for designating playback of the synthesized speech corresponding to the transliteration setting of each text on each of the question units 42 and 43.
  • the synthesized voice reproduced by the play button 45 is a synthesized voice created by the synthesized voice creating unit 15.
  • the worker confirms such an external data creation screen, and if necessary, inputs a message to the message input unit 41 and corrects the transliteration setting of a desired text. Then, the worker performs a transmission operation of the transmission button 44 via the operation unit 7.
  • the external data creation unit 32 creates a compressed file in which messages input to the external data creation screen, XML data of each text and transliteration setting of each text, and synthesized speech corresponding to the transliteration setting of each text are collected.
  • XML is an abbreviation for “Extensible Markup Language”.
  • the communication unit 4 shown in FIG. 1 transmits the compressed file created by the external data creation unit 32 to a server device on a predetermined network using the Web API of the external service. To do.
  • the third party accesses a server device on a predetermined network and selects a desired transliteration setting from among a plurality of transliteration settings attached to the text.
  • the server device transmits selection result information indicating transliteration settings most frequently selected by a third party to the transliteration support device via the network (crowd sourcing).
  • the selection result information is received by the communication unit 4.
  • the received selection result information is displayed on the display unit 6 by the display control unit 33.
  • the selection result information is supplied to the transliteration tag assignment unit 12.
  • the transliteration tag assigning unit 12 performs transliteration setting indicated by the selection result information on the corresponding text. Thereby, the transliteration setting of the text desired by the operator can be set to the transliteration setting instructed by many third parties.
  • the transliteration support apparatus can add transliteration settings instructed by many third parties to text using crowdsourcing. For this reason, the quality of transliteration can be improved, and the same effects as those of the above-described embodiments can be obtained.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

 取得部が、音訳するテキストを取得すると、付与部が、テキストの音訳設定を示す音訳タグをテキストに付与する。抽出部は、音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、頻出音訳設定をテキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する。そして、作成部が、音訳パターンを用いて合成音声を作成し、再生部が、作成された合成音声を再生する。これにより、音訳作業の効率化を図ることができる。

Description

音訳支援装置、音訳支援方法及び音訳支援プログラム
 本発明の実施の形態は、音訳支援装置、音訳支援方法及び音訳支援プログラムに関する。
 従来、テキストを音声化する際、音訳支援装置を用いることで、音訳作業の効率化が図られている。具体的には、従来の音訳支援装置は、音声合成の対象となるテキストを編集した際に、まず、編集前後の各テキストに対して、形態素解析及び表音文字列生成を行う。次に、従来の音訳支援装置は、形態素解析の結果から、テキストの編集が、合成音声の読み又はアクセントを修正するための編集か否かを判定する。
 そして、従来の音訳支援装置は、テキストの編集が、合成音声の読み又はアクセントを修正するための編集であると判定した場合に、編集内容を示す編集履歴データを作成して記憶部に記憶する。次に、従来の音訳支援装置は、作業者から音声の誤りが指摘された場合、修正するために実施すべきテキスト編集の編集内容を編集履歴データから検索し、検索できた場合にテキストを自動的に再編集する。
特許第5423466号公報
 しかし、従来の音訳支援技術は、記憶部に記憶された編集履歴データで示される、過去に修正されたテキストと同じテキストが修正の対象となる。このため、従来の音訳支援装置は、似たような読み、アクセント、ポーズ位置又は音声合成パラメタの修正を繰り返し行う必用があり、音訳作業を効率良く行うことが困難な問題があった。
 実施の形態の音訳支援装置は、取得部が、音訳するテキストを取得すると、付与部が、テキストの音訳設定を示す音訳タグをテキストに付与する。抽出部は、音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、頻出音訳設定をテキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する。そして、作成部が、音訳パターンを用いて合成音声を作成し、再生部が、作成された合成音声を再生する。
図1は、第1の実施の形態の音訳支援装置のハードウェア構成図である。 図2は、第1の実施の形態の音訳支援装置の機能ブロック図である。 図3は、第1の実施の形態の音訳支援装置の音訳支援動作の流れを示すフローチャートである。 図4は、第1の実施の形態の音訳支援装置における音訳パターンの選択画面を示す図である。 図5は、第1の実施の形態の音訳支援装置で取得されるテキストの一例を示す図である。 図6は、第1の実施の形態の音訳支援装置において、音訳タグが付与されたテキストの一例を示す図である。 図7は、第1の実施の形態の音訳支援装置により表示される、音訳設定を行うための音訳作業画面の一例を示す図である。 図8は、音訳タグを非表示とした音訳作業画面を示す図である。 図9は、各音訳パターンの適応条件及び音訳設定の組み合わせの一例を示す図である。 図10は、第2の実施の形態の音訳支援装置のハードウェア構成図である。 図11は、第2の実施の形態の音訳支援装置の音訳支援動作の流れを示すフローチャートである。 図12は、第2の実施の形態の音訳支援装置で用いられる音訳履歴データの例を示す図である。 図13は、第3の実施の形態の音訳支援装置のハードウェア構成図である。 図14は、第3の実施の形態の音訳支援装置で表示される外部データ選択画面の例を示す図である。 図15は、第3の実施の形態の音訳支援装置で表示される外部データ作成画面の例を示す図である。
 以下、実施の形態の音訳支援装置を、図面を参照しながら詳細に説明する。
 (第1の実施の形態)
 第1の実施の形態の音訳支援装置は、例えばテキストとテキストに対応する合成音声が含まれる電子書籍(オーディオブック又はDAISY規格データ等)の作成作業に用いられる。DAISYは、「Digital Accessible Information System」の略記である。また、以下に説明する音訳作業とは、入力されたテキストに対応する合成音声を作成し、また、作成された合成音声の読み、アクセント、ポーズ等の修正を行う作業を意味する。
 (第1の実施の形態の構成)
 図1は、第1の実施の形態の音訳支援装置のブロック図である。一例ではあるが、実施の形態の音訳支援装置は、いわゆるパーソナルコンピュータ装置で実現できる。なお、これに限定されず、他の装置で実施の形態の音訳支援装置を実現してもよい。この例においては、音訳支援装置は、図1に示すように、CPU1、ROM2、RAM3、通信部4、HDD5、表示部6及び操作部7を備えている。CPU1~操作部7は、それぞれバスライン8を介して相互に接続されている。
 CPUは、「Central Processing Unit」の略記である。ROMは、「Read Only Memory」の略記である。RAMは、「Random Access Memory」の略記である。HDDは、「Hard Disk Drive」の略記である。
 HDD5には、音訳支援プログラムが記憶されている。CPU1は、図2を用いて説明する音訳支援プログラムによる各部をRAM3上に展開し、音訳支援動作を実行する。なお、この例の場合、音訳支援プログラムは、HDD5に記憶されていることとした。しかし、ROM2又はRAM3等の他の記憶部に記憶されていてもよい。
 図2に、CPU1がHDD5に記憶されている音訳支援プログラムを実行することで実現される各機能の機能ブロック図を示す。この図2に示すように、CPU1は、音訳支援プログラムを実行することで、テキスト取得部11、音訳タグ付与部12、音声再生部13、音訳パターン抽出部14及び合成音声作成部15として機能する。
 テキスト取得部11は、取得部の一例である。音訳タグ付与部12は、付与部の一例である。音声再生部13は、再生部の一例である。音訳パターン抽出部14は、抽出部の一例である。合成音声作成部15は、作成部の一例である。
 テキスト取得部11は、テキストを取得する。音声再生部13は、作業者の指示に対応して合成音声作成部15に合成音声の作成指示を行う。音声再生部13は、合成音声作成部15に作成された合成音声(音声データ)を再生する。音訳タグ付与部12は、取得されたテキストに対して音訳タグを付与した音訳タグ付きテキストを生成し、HDD5(RAM3でもよい)等の記憶部に記憶する。
 音訳パターン抽出部14は、音訳タグを用いて後述する音訳パターンを抽出し、HDD5(RAM3でもよい)等の記憶部に記憶する。合成音声作成部15は、テキスト、音訳タグ及び音訳パターンを用いて、テキストに対応した合成音声を作成する。
 なお、この例では、テキスト取得部11~合成音声作成部15は、ソフトウェアで実現することとして説明を進める。しかし、テキスト取得部11~合成音声作成部15のうち、一部又は全部をハードウェアで実現してもよい。
 また、音訳支援プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音訳支援プログラムは、CD-R、DVD、ブルーレイディスク(登録商標)、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。DVDは、「Digital Versatile Disk」の略記である。また、音訳支援プログラムを、インターネット等のネットワーク経由で提供してもよい。また、音訳支援装置は、ネットワークを介して音訳支援プログラムをダウンロードし、HDD5等の記憶部にインストールして実行してもよい。また、音訳支援プログラムを、音訳支援装置のROM2等の記憶部に予め組み込んで提供してもよい。
 (音訳支援動作)
 図3は、音訳支援装置の音訳支援動作の流れを示すフローチャートである。音訳支援装置が起動され、作業者の操作に対応して、CPU1がHDD5に記憶されている音訳支援プログラムを読み込む。CPU1は、音訳支援プログラムに対応するテキスト取得部11~合成音声作成部15を、RAM3に展開する。これにより、図3のフローチャートの処理が開始される。
 ステップS1では、テキスト取得部11が、作業者により指定されたテキストを取得する。テキストは、例えばHTML方式で記述された構造化文書となっている。HTMLは、「Hypertext Markup Language」の略記である。テキスト取得部11は、取得されたテキストを、編集作業用の音訳作業画面に表示する。音訳作業画面は、図7を用いて後述する。作業者は、部分的なテキスト毎に、例えば話者、音量、ピッチ、一時停止(ポーズ)等の所望の音訳設定を、音訳作業画面を介して指定する。ステップS2では、音訳タグ付与部12が、作業者の操作で指示される合成音声が生成されるように、テキストのHTMLタグを拡張して記述する。このようにHTMLタグ等の構造化文書タグを拡張して記述したタグを、「音訳タグ」という。そして、テキストの構造化文書タグが拡張されて記述されることで、作業者が指示する音訳設定に対応する音訳タグが、テキストに対して付与される。
 次に、ステップS3では、音声再生部13が、作業者により操作部7を介して合成音声の再生が指示されたか否かを判別する。合成音声の再生が指示されるまでの間は(ステップS3:No)、音訳タグ付与部12が、ステップS2において、作業者の操作に対応する音訳タグをテキストに付与する動作を行う。
 作業者により合成音声の再生が指示されると(ステップS3:Yes)、音声再生部13が、ステップS4において、再生するテキストの音訳設定を示す音訳タグ、又は後述する音訳パターンの有無を判別する。音訳タグ又は音訳パターンが存在しない場合(ステップS4:No)、音訳タグ付与部12が、ステップS2において、作業者の操作に対応する音訳タグをテキストに付与する動作を行う。
 これに対して、音訳タグ又は音訳パターンが存在する場合(ステップS4:Yes)、合成音声作成部15が、ステップS5において、音訳タグ又は音訳パターンを用いて、再生が指示されたテキストに対応する合成音声を作成する。音声再生部13は、作成された合成音声を、ステップS6において再生する。これにより、作業者により指定された話者、音量、ピッチ等で、テキストに対応する合成音声が再生される。
 次に、作業者は、再生された合成音声を聞き、修正が必要であると判断したテキストの、話者、音量、ピッチ、ポーズの挿入位置等の修正(変更)を、操作部7を操作し音訳作業画面を介して指定する。修正作業が行われた場合、音訳タグ付与部12は、ステップS7において、テキストに付与されている音訳タグの音訳設定を、作業者の指示に応じて修正する。これにより、修正された音訳設定に対応する音訳タグがテキストに付与される。
 次に、実施の形態の音訳支援装置の場合、所定の適応条件及び所定の音訳設定を関連付けた音訳パターンを抽出することで、所定の適応条件を満足する各テキストに対して、一律的に所定の音訳設定を反映させることが可能となっている。作業者は、操作部7を操作して、このような音訳パターンの抽出を指定する。ステップS8では、CPU1が、音訳パターンの抽出を指定する操作の有無を判別する。
 音訳パターンの抽出を指定する操作を検出しない場合、処理は、ステップS3に戻る。作業者により合成音声の再生が指示された際に(ステップS3:Yes)、ステップS4において、合成音声の再生が指示されたテキストに対する音訳タグ又は音訳パターンの有無が判別される。合成音声の再生が指示されたテキストに音訳タグのみが存在する場合、合成音声作成部15は、ステップS5において、音訳タグに従って合成音声を作成する。これにより、ステップS7で修正された音訳設定に対応する合成音声が生成され、ステップS6において、音声再生部13により再生される。
 これに対して、音訳パターンの抽出を指定する操作を検出した場合、ステップS9に処理が進む。詳しくは後述するが、ステップS9では、音訳パターン抽出部14が、音訳タグの要素又はテキスト形式を適応条件とし、各適応条件と各適応条件に対応する音訳設定を関連付けた音訳パターンを抽出する。そして、音訳パターン抽出部14は、抽出した音訳パターンの一覧を、例えば図4に示す音訳パターンの選択画面に表示する。図4の例の場合、音訳パターン抽出部14は、音訳パターンの選択画面に、各音訳パターンの適応条件及び音訳設定を表示している。また、音訳パターン抽出部14は、音訳パターンの選択画面に、登録を希望する音訳パターンを選択するためのチェックボックス18及び選択した音訳パターンの登録を指定するための登録ボタン19を表示している。
 作業者は、所望の適応条件及び音訳設定の音訳パターンのチェックボックス18に対してチェックマークを付す操作を行い、登録ボタン19を操作する。登録ボタン19が操作されると、音訳パターン抽出部14は、ステップS10において、チェックボックス18にチェックマークが入れられた音訳パターンを、HDD5の音訳パターン用の記憶領域であるパターン辞書に記憶制御(登録)する。
 次に、抽出された音訳パターンがパターン辞書に記憶されると、処理がステップS3に戻る。そして、作業者により合成音声の再生が指示された際に(ステップS3:Yes)、ステップS4において、合成音声の再生が指示されたテキストに対する音訳タグ又は音訳パターンの有無が判別される。合成音声の再生が指示されたテキストに音訳タグのみが存在する場合、合成音声作成部15は、音訳タグに従って合成音声を作成する。これに対して、合成音声の再生が指示されたテキストに対応する音訳パターンが存在する場合、合成音声作成部15は、音訳パターンに対応する合成音声を作成する。
 これにより、抽出した音訳パターンに対応するテキストと同一又は類似のテキストは、一律に、抽出した音訳パターンの音訳設定の合成音声とすることができる。このため、作業者が過去の音訳設定の修正と同じ修正を繰り返し行うという、面倒な作業を防止でき、効率的な音訳作業を可能とすることができる。
 (音訳支援装置の各部の詳細な動作)
 次に、テキスト取得部11~合成音声作成部15の動作を詳細に説明する。まず、図5に、テキスト取得部11により取得されたテキストの一例を示す。実施の形態の音訳支援装置の場合、一例として、HTML方式等で構造化文書とされたテキストを取得する。HTMLは、「Hypertext Markup Language」の略記である。
 テキストは、HTML等のタグ構造を持つデータの他、タグ構造を含まない、いわゆるプレーン形式のデータでもよい。また、例えばルビが付与されている場合は、対象文字列の後方に、括弧で括ったルビ文字列を挿入する等の、一定のルールに従ったテキストでもよい。
 図5の例の場合、「<h1>」及び「</h1>」のHTMLタグが付された「1.ご案内」、「2.連絡先」、「3.議題」及び「4.スケジュール」等の見出しのテキストが記述されている。また、図5の例の場合、「<span>」及び「</span>」のHTMLタグが付された「*重要:欠席する場合は、以下へ連絡ください」等のインライン要素が記述されている。
 また、図5の例の場合、「<div>」及び「</div>」のHTMLタグが付された「電話番号は、012-345-○○○○」、「携帯は、090-1234-○○○○」、「URLは、http://www.○○○.co.jp」等のブロック要素が記述されている。また、図5の例の場合、「<div>」及び「</div>」のHTMLタグが付された「2014(平成26)年8月4日」等のブロック要素が記述されている。
 次に、音訳タグ付与部12により音訳タグが付与されたテキストの一例を、図6に示す。実施の形態の音訳支援装置の場合、音訳タグ付与部12は、一例として、HTMLタグ等の既存の構造化文書タグを、上述の音訳タグに拡張して各テキストに付与する。
 一例として、音訳タグの種類としては、テキストの話者、音量及びピッチを指定するための合成音声パラメタ情報(x-audio-param)、合成音声出力の一時停止を指定するためのポーズ情報(x-audio-pause)がある。また、音訳タグの種類としては、テキストの読みを示す読み情報(x-audio-ruby="○○○")がある。なお、読み情報中の「○」の記号は、テキストの読みである。また、音訳タグの種類としては、テキストに対応する合成音声の非出力を指定するための非読み情報(x-audio-ruby="")がある。読み情報の場合、「"」と「"」との間に入力された読み(上述の○の記号)の合成音声が出力される。しかし、非読み情報の場合、「"」と「"」との間にテキストの読みが入力されていない。この場合、指定されたテキストに対する合成音声は非出力となる。また、音訳タグの種類としては、テキストの合成音声の音量を指定するためのアクセント情報(strong)がある。
 作業者により、図5に示す「1.ご案内」の見出しのテキストに対して、「話者:Bさん」、「音量:+10」、「ピッチ:+3」の合成音声の生成が指定されたとする。この場合、音訳タグ付与部12は、「1.ご案内」の見出しのテキストの「<h1>」及び「</h1>」のHTMLタグを、例えば図6に示すように「<h1 x-audio-param="B,+10,+3">1.ご案内</h1>」等のように拡張して記述する。これにより、「1.ご案内」の見出しのテキストに対して、合成音声パラメタ情報(x-audio-param)の音訳タグが付与される。
 作業者により、図5に示す「URL」のテキストに対して、「ユーアルエル」の読みが指定されたとする。この場合、音訳タグ付与部12は、「URL」のHTMLタグを、例えば図6に示すように「<span x-audio-ruby="ユーアルエル">URL</span>」とのように拡張して記述する。これにより、URLのテキストに対して、「ユーアルエル」の合成音声を出力する読み情報(x-audio-ruby="○○○")の音訳タグが付与される。
 作業者により、図5に示す「012-345-○○○○」の電話番号のテキストに対して、「2」の後、及び、「5」の後に、合成音声の出力を一時停止するポーズの挿入が指定されたとする。この場合、音訳タグ付与部12は、「012-345-○○○○」の電話番号のHTMLタグを、例えば図6に示すように「012<span x-audio-pause></span>-345<span x-audio-pause></span>-○○○○」とのように拡張して記述する。これにより、「012-345-○○○○」の電話番号に対して、「2」と「3」との間、及び、「5」と「○」との間に、合成音声の出力を一時的に停止するポーズ情報の音訳タグが付与される。
 作業者により、図5に示す日付のテキストの「(平成26)」の合成音声の非出力が指定されたとする。この場合、音訳タグ付与部12は、「(平成26)」のHTMLタグを、例えば図6に示すように「<span x-audio-ruby="">(平成26)</span>」とのように拡張して記述する。これにより、「(平成26)」のテキストに対応する合成音声を非出力とする非読み情報(x-audio-ruby="")の音訳タグが付与される。
 次に、図7に、上述の音訳タグが付与されたテキストの音訳作業画面を示す。CPU1は、HDD5に記憶されている音訳支援プログラムに従って、この音訳作業画面を表示部6に表示する。図7の例で説明すると、CPU1は、例えば「音訳支援ソフト」等の、音訳支援プログラムに付されているソフトウェアの名称20を音訳作業画面に表示する。また、CPU1は、「1.ご案内」及び「2.連絡先」等のHTML方式等で構造化文書とされたテキスト21を音訳作業画面に表示する。
 また、CPU1は、テキスト21に付与されている、例えば合成音声パラメタ情報、ポーズ情報、読み情報及び非読み情報等の音訳タグ及び編集用のフォームを音訳作業画面に表示する。具体的には、図7の例の場合、「話者:Bさん」、「音量:+10」、「ピッチ:+3」等の音訳タグが、合成音声パラメタ情報22である。また、[L]の表示形態で示される音訳タグが、テキストに設定されたポーズ情報23である。また、URLの上付き文字として表示される「ユーアルエル」の音訳タグが読み情報24である。また、図7の最下段の日付の「(平成26)」のテキストに対して上付きのかたちで表示されている帯状のマークは、「(平成26)」のテキストの合成音声は非出力とすること(読まないこと)を示す非読み情報25である。
 また、CPU1は、テキストに対応する合成音声の再生及び再生の一時停止を指定するための操作ボタン26を音訳作業画面に表示する。また、CPU1は、表示されているテキストに対して、太文字(Bold)、斜体(Italic)、文字色(color)等の文字装飾を行うための文字装飾フォーム27を音訳作業画面に表示する。
 合成音声パラメタ情報22は、合成音声パラメタ情報22のセレクトボックス又はスライドバー等を作業者が操作することで指定及び修正が可能となっている。音訳タグ付与部12は、作業者によるセレクトボックス又はスライドバー等の操作に対応する合成音声パラメタ情報22を、テキストに付与する。また、作業者は、操作部7のキー操作等で、テキストの任意の位置を指定してポーズ情報23の挿入を指定する。音訳タグ付与部12は、作業者により指定されたテキストの位置に、ポーズ情報23を挿入(付与)する。また、作業者が、操作部7のキー操作等で選択したテキストの読みを入力すると、音訳タグ付与部12は、入力された読みに対応する読み情報24を、選択されたテキストに付与する。
 作業者は、このような音訳タグの表示又は非表示の選択が可能となっている。すなわち、CPU1は、音訳タグの表示又は非表示を選択するためのチェックボックス28を音訳作業画面に表示する。作業者は、音訳タグの表示を希望する場合、図7の例に示すようにチェックボックス28にチェックを入れる操作を行う。チェックボックス28にチェックを入れる操作が行われると、CPU1は、図7の例に示すように各テキストに付加されている音訳タグを表示制御する。これに対して、CPU1は、チェックボックス28にチェックを入れる操作が行われるまでの間(チェックが入っていない間)は、図8に示すように各テキストに付加されている音訳タグを非表示とする。
 (音訳パターン抽出部の動作)
 次に、音訳パターン抽出部14は、音訳タグの要素又はテキスト形式を適応条件とし、各適応条件と各適応条件に対応する音訳設定を関連付けた音訳パターンを抽出し、HDD5のパターン辞書に記憶制御(登録)する。
 例えば、ポーズ情報の音訳パターンを登録する場合、音訳パターン抽出部14は、上述のように音訳タグ付与部12によりポーズ情報の音訳タグ(<span x-audio-pause></span>)が付与された各テキストを検出する。次に、音訳パターン抽出部14は、検出したテキストに、以下の条件を満たす文字列が存在するか否かを、テンプレートマッチングを用いて判定する。一例ではあるが、テンプレートマッチングとしては、正規表現を用いることができる。
 すなわち、音訳パターン抽出部14は、数字と記号(ハイフン又は括弧)の文字列のみからなる電話番号形式の文字列が、検出したテキストに存在するか否かを判定する。また、音訳パターン抽出部14は、「http://」から始まり、英数字と記号(ドット)の文字列のみからなるURL形式の文字列が、検出したテキストに存在するか否かを判定する。また、音訳パターン抽出部14は、数値及び「年」、「月」、「日」の文字列のみからなる日時形式の文字列が、検出したテキストに存在するか否かを判定する。
 音訳パターン抽出部14は、このような条件を満たす文字列が存在すると判定した場合、各文字列に対応する「適応条件」及び「音訳設定」を関連付けした「音訳パターン」を登録する。
 具体的には、検出したテキストが電話番号形式の場合、音訳パターン抽出部14は、図9に示すように、電話番号形式を適応条件とする。また、この場合、音訳パターン抽出部14は、音訳設定を、「ハイフン(-)の前にポーズ情報のタグ(ポーズタグ)を付与し、ハイフンの読みが「ノ(の)」の読み情報のタグ(読みタグ)を付与する」とする。そして、音訳パターン抽出部14は、電話番号形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。
 これにより、電話番号形式のテキストの場合、上述の音訳パターンにより、例えば「012<ruby>-<rt>ノ</rt><L/></ruby>345<ruby>-<rt>ノ</rt><L/></ruby>○○○○<ruby>-<rt>ノ</rt><L/></ruby>」との音訳タグに対応する合成音声が生成される。
 検出したテキストがURL形式の場合、音訳パターン抽出部14は、図9に示すように、URL形式を適応条件とする。また、この場合、音訳パターン抽出部14は、音訳設定を、「「http://」と「co.jp」との間の英数字の間に、ポーズタグを付与する」とする。そして、音訳パターン抽出部14は、URL形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。
 これにより、URL形式のテキストの場合、上述の音訳パターンにより、例えば「http://.<L/>○<L/>○<L/>○.co.jp」との音訳タグに対応する合成音声が生成される。
 検出したテキストが「2014(平成26)年」等のように、「数値(平成(数値))年」の日付形式の場合、音訳パターン抽出部14は、図9に示すように、日付形式を適応条件とする。また、この場合、音訳パターン抽出部14は、「(平成(数値))」は、読みが空文字列(読まない)の読みタグを付与する」との音訳設定とする。そして、音訳パターン抽出部14は、日付形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。
 これにより、日付形式のテキストの場合、上述の音訳パターンにより、例えば「2014<ruby>(平成26)<rt></rt></ruby>」との音訳タグに対応する合成音声が生成される。
 検出したテキストが「2014年8月4日」等のように、「(平成(数値))」を含まない日付形式の場合、音訳パターン抽出部14は、日付形式を適応条件とする。また、この場合、音訳パターン抽出部14は、「「年」、「月」、「日」の特殊文字の前にポーズタグを付与する」との音訳設定とする。そして、音訳パターン抽出部14は、日付形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。
 これにより、「(平成(数値))」の記載の無い日付形式のテキストの場合、上述の音訳パターンにより、例えば「2014<ruby>(平成26)<rt></rt></ruby>」との音訳タグに対応する合成音声が生成される。
 なお、音訳パターン抽出部14は、以下のように音訳パターンの登録を行ってもよい。上述の電話形式、URL形式及び日付形式の文字列を検出した際に、検出した文字列内のポーズ位置を取得する。次に、ポーズ位置の間隔が一定の文字間隔か否かを判定する。そして、間隔が一定文字数であれば、上述の電話形式等の適応条件と、「一定数文字間隔でポーズを挿入」という音訳設定とを関連付けた音訳パターンを、パターン辞書に登録する。
 または、音訳パターン抽出部14は、全てのポーズ位置の一つ前及び一つ後ろの各文字を取得する。取得した文字が、記号文字又は「年」、「月」、「日」等の特殊文字の場合、音訳パターン抽出部14は、各文字の出現回数を検出する。出現回数が一定回数以上の文字を検出した場合、音訳パターン抽出部14は、上述の電話形式等の適応条件と、「記号文字又は特殊文字の前にポーズを挿入」という音訳設定とを関連付けた音訳パターンを、パターン辞書に登録する。
 この他、音訳パターン抽出部14は、形態素解析によりテキストを品詞分類した後、品詞列及びポーズ位置のパターンを、音訳パターンとして登録してもよい。または、音訳パターン抽出部14は、テキストにおける、句読点とポーズ位置のパターンを、音訳パターンとして登録してもよい。
 次に、合成音声パラメタ情報の音訳パターンを登録する場合、音訳パターン抽出部14は、音訳タグ付与部12が付与した合成音声パラメタ情報の音訳タグを、全テキストから取得する。すなわち、音訳パターン抽出部14は、「x-audio-param」の合成音声パラメタ情報を含む音訳タグを、全テキストから検出する。次に、音訳パターン抽出部14は、取得した各音訳タグの要素を検出する。また、音訳パターン抽出部14は、要素と合成音声パラメタ情報の組み合わせ回数を検出する。組み合わせ回数が、一定回数以上の場合、音訳パターン抽出部14は、要素名を適応条件とし、合成音声パラメタ情報の値を音訳設定として関連付けた音訳パターンを、パターン辞書に登録する。
 例えば、一定回数以上の組み合わせ回数が検出された要素名がh1要素の場合、音訳パターン抽出部14は、図9に示すようにh1要素を適応条件とする。また、音訳パターン抽出部14は、一定回数以上の組み合わせ回数が検出された、例えば「話者をBさん、音量を+5、ピッチを-2」とする合成音声パラメタ情報を音訳設定とする。そして、このような適応条件と合成音声パラメタ情報を関連付けた音訳パターンを、パターン辞書に登録する。
 また、一定回数以上の組み合わせ回数が検出された要素がstrong要素の場合、音訳パターン抽出部14は、図9に示すようにstrong要素を適応条件とする。また、音訳パターン抽出部14は、一定回数以上の組み合わせ回数が検出された、例えば「音量を+5」とする合成音声パラメタ情報を音訳設定とする。すなわち、音訳パターン抽出部14は、話者、音量及びピッチの合成音声パラメタ情報のうち、話者及びピッチは変更せず、音量のみを「+5」に変更した合成音声パラメタ情報を音訳設定とする。そして、音訳パターン抽出部14は、このような適応条件と合成音声パラメタ情報を関連付けた音訳パターンを、パターン辞書に登録する。
 次に、読み情報の音訳パターンを登録する場合、音訳パターン抽出部14は、音訳タグ付与部12が付与した読み情報の音訳タグを、全テキストから取得する。すなわち、音訳パターン抽出部14は、「x-audio-ruby」の合成音声パラメタ情報を含む音訳タグを、全テキストから検出する。次に、音訳パターン抽出部14は、取得した各音訳タグの要素を検出する。また、音訳パターン抽出部14は、要素と読み情報の組み合わせ回数を検出する。組み合わせ回数が、一定回数以上の場合、音訳パターン抽出部14は、要素名を適応条件とし、読み情報を音訳設定として関連付けた音訳パターンを、パターン辞書に登録する。
 例えば、一定回数以上の組み合わせ回数が検出された要素名がspan要素の場合、音訳パターン抽出部14は、span要素を適応条件とする。また、音訳パターン抽出部14は、一定回数以上の組み合わせ回数が検出された読み情報を音訳設定とする。そして、このような適応条件と読み情報を関連付けた音訳パターンを、パターン辞書に登録する。なお、span要素を含むテキストを取得し、形態素解析でテキストを品詞分類した後、品詞列、表記及び読み情報を音訳パターンとして登録してもよい。
 次に、取得した音訳タグの読みが空文字列(=非読み情報:x-audio-ruby="")の場合、音訳パターン抽出部14は、取得したテキストに対して、正規表現等を用いて抽出した非読パターンを、音訳パターンとしてパターン辞書に登録する。
 すなわち、音訳パターン抽出部14は、数字、記号、及び、「年」、「月」、「日」、「平成」等の特殊文字のみからなる日時形式の文字列のテキストを検出する。これにより、例えば「2014(平成26)年」等の文字列が検出される。検出したテキスト内に、非読み情報の音訳タグが含まれる場合、音訳パターン抽出部14は、日時形式の文字列を適応条件とし、「括弧内の文字列は読まない」という音訳設定を関連付けた音訳パターンを、パターン辞書に登録する。
 (合成音声作成部の動作)
 合成音声作成部15は、音声再生部13から合成音声の作成要求を受信すると、音声合成対象となるブロックのテキストを取得する。次に、取得したブロックのテキストに含まれる音訳タグと、音訳パターン抽出部14により抽出された音訳パターンを用いて、音声合成エンジンが認識可能な形式の言語に、テキストを変換する。一例ではあるが、合成音声作成部15は、テキストをSSML形式の言語に変換する。SSMLは、「Speech Synthesis Markup Language」の略記である。次に、合成音声作成部15は、変換後の言語を音声合成エンジンに供給し、テキストに対応する合成音声を作成し、作成された合成音を音声再生部13に供給する。
 (音声再生部の動作)
 次に、作業者により、図7に示す操作ボタン26が操作され、音声再生が指示されると、音声再生部13は、合成音声作成部15に合成音声の作成要求を行う。音声再生部13は、合成音声作成部15により作成された合成音声を取得して再生する。
 (第1の実施の形態の効果)
 以上の説明から明らかなように、第1の実施の形態の音訳支援装置は、入力されたテキストに対して、読み、アクセント、ポーズ等の音訳設定情報となる音訳タグを付与する。また、テキストに付された音訳タグで示される音訳設定のうち、頻出する音訳設定と、頻出する音訳設定の適応条件とを関連付けた音訳パターンを抽出する。または、適応条件となるテキスト形式と、適応条件となるテキスト形式に対応する音訳設定とを関連付けた音訳パターンを抽出する。そして、音訳支援装置は、テキストに付与された音訳タグ又は上述の抽出した音訳パターンで示される音訳設定に対応する合成音声を作成して再生する。
 これにより、適応条件に対応する各テキスト(=音訳パターンを抽出したテキストと同一又は類似のテキスト)の合成音声を、一律的に、抽出した音訳パターンの音訳設定の合成音声とすることができる。このため、作業者が同一又は類似のテキストに対して、それぞれ音訳設定の修正を繰り返し行う不都合を防止でき、効率的な音訳作業を可能とすることができる。
 (第2の実施の形態)
 次に、第2の実施の形態の音訳支援装置を説明する。第2の実施の形態の音訳支援装置は、作業者の音訳作業の履歴情報(音訳履歴データ)を記憶する。また、音訳履歴データから音訳の信頼度(音訳信頼度)を算出する。そして、算出した音訳信頼度に応じて、合成音声の作成に用いる音訳パターンを決定する。以下、このような差異の部分の説明のみ行い、上述の第1の実施の形態の説明と重複する説明は省略する。
 (第2の実施の形態の構成)
 図10に、第2の実施の形態の音訳支援装置のブロック図を示す。図10において、図2に示したブロックと同じ動作を示すブロックには、同じ符号を付してある。図10に示すように、第2の実施の形態の音訳支援装置は、作業者の音訳作業に対応して音訳タグ付与部12で生成された履歴情報(音訳履歴データ)を、例えばHDD5等の記憶部に記憶する構成となっている。また、第2の実施の形態の音訳支援装置は、HDD5に記憶された音訳履歴データを用いて、音訳信頼度を算出する音訳信頼度算出部17を有している。
 (第2の実施の形態の動作)
 音訳履歴データは、音訳タグ付与部12が付与した音訳タグを一意に識別する音訳タグ識別子、音訳タグの音訳設定及び音訳タグの更新時刻を含んでいる。音訳タグ付与部12は、作業者の指示に従って音訳タグを更新した際に、HDD5に記憶されている音訳履歴データのうち、該当する音訳タグ識別子の音訳タグ更新時刻を更新する。
 音訳信頼度算出部17は、音訳履歴データから音訳信頼度を算出する。例えば、短時間であるにもかかわらず音訳タグの更新回数が多い場合、作業者により、不確かな音訳設定が繰り返し行われていることを意味する。この場合、該当する音訳タグの音訳信頼度として、低い音訳信頼度が、音訳信頼度算出部17により算出される。
 具体的には、音訳信頼度算出部17は、以下の数1式を用いて、音訳タグの音訳信頼度を算出する。数1式において、「α」及び「β」は、定数を示す。
 音訳タグiの音訳信頼度=(現在の音訳タグiの音訳信頼度)-α×(タグiの更新回数)/(タグiの前回更新時間の差)・・・(数1式)
 音訳パターン抽出部14は、音訳信頼度算出部17で算出された音訳信頼度を用いて、例えば以下の数2式の演算を行うことで、各音訳パターンの信頼度を算出する。
 信頼度=(対象となる音訳タグの音訳信頼度の総和)/(対象となる音訳タグの数)・・・(数2式)
 音訳パターン抽出部14は、数2式で算出した信頼度が、一定値以上の音訳パターンのみをパターン辞書に登録する。このような処理の流れを、図11のフローチャートに示す。図11のフローチャートにおいて、図3を用いて説明した第1の実施の形態の動作と同様の動作となるステップには、同じステップ番号を付してある。図11のフローチャートにおいて、図3のフローチャートとは異なる処理は、ステップS11~ステップS14の処理である。
 すなわち、第2の実施の形態の音訳支援装置の場合、ステップS2及びステップS7において、作業者により音訳設定又は音訳設定の修正がされると、音訳タグ付与部12は、ステップS11又はステップS12において、HDD5に記憶されている音訳作業履歴データのうち、該当する音訳タグの「音訳タグ更新時刻」を更新する。
 次に、ステップS8で、作業者からの音訳パターンの抽出指示を検出すると、音訳信頼度算出部17は、ステップS13において、上述の数1式を用いて、HDD5に記憶されている各音訳タグの音訳信頼度を算出する。
 次に、ステップS14において、音訳パターン抽出部14が、音訳信頼度算出部17で算出された音訳信頼度を用いて上述の数2式の演算を行い、各音訳パターンの信頼度を算出する。そして、音訳パターン抽出部14は、信頼度が一定値以上の音訳パターンを抽出し、図4を用いて説明したように適応条件及び音訳設定の一覧を表示部6に表示する。ステップS10では、音訳パターン抽出部14が、作業者により選択された音訳パターンをパターン辞書に登録する。
 以下、図5に示したテキストを例として、音訳履歴データの更新動作及び音訳信頼度の算出動作を、さらに詳細に説明する。なお、音訳タグの更新時刻は、音訳作業を開始してから経過した時間(図7に示した音訳作業画面の表示開始時刻から経過した時間)とする。また、音訳信頼度の初期値は100とする。また、上述の数1式の定数αは10とする。
 まず、作業者が、作業開始から5秒後に、図4に示す「1.ご案内」のテキストに対して、話者を「Bさん」、音量を「+10」、ピッチを「+3」に指定したとする。この場合、音訳タグ付与部12は、「1.ご案内」のテキストのHTMLタグを、「<h1 id=“1” x-audio-param=“B,+10,+3”>1.ご案内</h1>」とのように、音訳設定及び音訳タグ識別子を持つ音訳タグに拡張して記述する。
 また、音訳タグ付与部12は、図12に示すように「1」の音訳タグ識別子、「x-audio-param=“B,+10,+3”」 の音訳設定、及び、「00:00:05」の音訳タグ更新時刻情報を、音訳履歴データとして、HDD5の音訳履歴データの記憶領域に記憶する。なお、「00:00:05」の音訳タグ更新時刻における、「1」の音訳タグ識別子の音訳タグの音訳信頼度は「100」となる。
 次に、作業者が、15秒後にピッチを「+1」に更新したとする。この場合、音訳タグ付与部12は、「1.ご案内」のテキストのHTMLタグを、「<h1 id=“1” x-audio-param=“B,+10,+1”>1.ご案内</h1>」とのように変更して記述する。また、音訳タグ付与部12は、図12に示すように、「1」の音訳タグ識別子の音訳タグの音訳設定を、「x-audio-param=“B,+10,+1”」とし、音訳タグ更新時刻を「00:00:15」とした音訳履歴データをHDD5に記憶する。「00:00:15」の音訳タグ更新時刻における、「1」の音訳タグ識別子の音訳タグの音訳信頼度は「100-10×2/10=98」となる。
 次に、作業者が、30秒後にピッチを「+3」に更新したとする。この場合、音訳タグ付与部12は、「1.ご案内」のテキストのHTMLタグを、「<h1 id=“1”x-audio-param=“B,+10,+3”>1.ご案内</h1>」とのように変更して記述する。また、音訳タグ付与部12は、図12に示すように、「1」の音訳タグ識別子の音訳タグの音訳設定を、「x-audio-param=“B,+10,+3”」とし、音訳タグ更新時刻を「00:00:30」とした音訳履歴データをHDD5に記憶する。「00:00:30」の音訳タグ更新時刻における、「1」の音訳タグ識別子の音訳タグの音訳信頼度は「98-10×3/15=96」となる。
 図12には、図5に示す「2.連絡先」のテキストの音訳履歴データ、及び、「3.議題」のテキストの音訳履歴データの例も図示されている。図12に示す「2」の音訳タグ識別子の音訳設定及び音訳タグ更新時刻情報が、図5に示す「2.連絡先」のテキストの音訳履歴データである。また、図12に示す「3」の音訳タグ識別子の音訳設定及び音訳タグ更新時刻情報が、図5に示す「3.議題」のテキストの音訳履歴データである。
 「2.連絡先」のテキストの音訳履歴データは、「00:00:40」に、作業者により設定された、話者を「Bさん」、音量を「+10」、ピッチを「+3」とする音訳設定の例である。また、「2.連絡先」のテキストの音訳履歴データは、「00:00:45」にピッチが「+2」に更新され、「00:00:50」にピッチが「+1」に更新された例を示している。
 このような「2」の音訳タグ識別子の音訳タグの音訳信頼度は、「00:00:40」の時点で「100」、「00:00:45」の時点で「100-10×2/5=96」、「00:00:50」の時点で「96-10×3/5=90」となる。
 「3.議題」のテキストの音訳履歴データは、「00:01:00」に、作業者により設定された、話者を「Bさん」、音量を「+10」、ピッチを「+1」とする音訳設定の例である。また、「3.議題」のテキストの音訳履歴データは、「00:01:10」にピッチが「+3」に更新された例を示している。このような「3」の音訳タグ識別子の音訳タグの音訳信頼度は、「00:01:00」の時点で「100」、「00:01:10」の時点で「100-10×2/10=98」となる。
 音訳パターン抽出部14は、このように算出された信頼度が、一定値以上の音訳パターンを抽出し、図4を用いて説明したように適応条件及び音訳設定の一覧を表示部6に表示する。そして、音訳パターン抽出部14は、作業者により選択された音訳パターンをパターン辞書に登録する。
 なお、「3」の音訳タグ識別子の音訳タグの更新時刻である「00:01:10」の時点において、音訳パターン抽出部14が抽出する音訳パターンの候補として、以下の3つの音訳パターンが存在する。すなわち、「1」の音訳タグ識別子の「話者をB,音量を+10,ピッチを+3」とする音訳タグが存在する。また、「3」の音訳タグ識別子の「話者をB,音量を+10,ピッチを+3」とする音訳タグが存在する。また、「2」の音訳タグ識別子の「話者をB,音量を+10,ピッチを+1」とする音訳タグが存在する。
 この場合、「1」及び「3」の各音訳タグ識別子の音訳タグは、それぞれ「話者がB,音量が+10,ピッチが+3」の音訳パターンとなっている。このため、音訳パターン抽出部14は、「1」及び「3」の各音訳タグ識別子の音訳タグに対応する、最終的な更新時刻の信頼度の平均値を検出する。上述の例の場合、「1」の音訳タグ識別子の音訳パターンの信頼度は「96」である。また、「3」の音訳タグ識別子の音訳パターンの信頼度は「98」である。このため、音訳パターン抽出部14は、「話者がB,音量が+10,ピッチが+3」の音訳パターンの信頼度を、「(96+98)/2=97」として算出する。
 そして、音訳パターン抽出部14は、この例の場合において、一つのみ存在する他の音訳タグの音訳パターンである、「2」の音訳タグ識別子の音訳パターンの信頼度の「90」と、算出した上述の平均値の「97」とを比較する。この場合、「話者がB,音量が+10,ピッチが+3」の音訳パターンの方が、信頼度が高い。このため、音訳パターン抽出部14は、「話者がB,音量が+10,ピッチが+3」の音訳パターンを抽出してパターン辞書に登録する。
 すなわち、同じ音訳パターンが複数存在する場合、音訳パターン抽出部14は、最終的な更新時刻の信頼度の平均値を算出する。そして、音訳パターン抽出部14は、算出した平均値の信頼度と、一つのみ存在する他の信頼度とを比較し、信頼度が高い方の音訳パターンを抽出してパターン辞書に登録する。これにより、信頼度が高い音訳パターンのみを利用可能とすることができる。
 (第2の実施の形態の効果)
 このように、第2の実施の形態の音訳支援装置は、信頼度が高い音訳パターンのみを登録して用いることができる。このため、精度の高い音訳支援を行うことができる他、上述の第1の実施の形態と同様の効果を得ることができる。
 (第3の実施の形態)
 次に、第3の実施の形態の音訳支援装置を説明する。音訳を行う作業者は、テキストの音訳設定を、より多くの人が好む音訳設定とすることが好ましい。この第3の実施の形態の音訳支援装置は、クラウドソーシングサービス等の外部サービスを用いて、第三者(参加者)に、候補となる各音訳設定の音声を聞かせる。そして、第3の実施の形態の音訳支援装置は、参加者の指示が一番多い音訳設定を選択する。これにより、テキストの音訳設定を、より多くの人が好む音訳設定とすることができる。以下、このような差異の部分の説明のみ行い、上述の各実施の形態の説明と重複する説明は省略する。なお、以下の説明において、外部サービスは、WebAPI等でXMLデータ及び音声データを含む一つのファイル(例えば、zip形式等の圧縮ファイル)を受け付けることが可能なサービスとする。
 (第3の実施の形態の構成)
 図13に、第3の実施の形態の音訳支援装置のブロック図を示す。図13において、図10に示したブロックと同じ動作を示すブロックには、同じ符号を付してある。図13に示すように、第3の実施の形態の音訳支援装置は、HDD5に記憶された上述の音訳履歴データ及び上述のように算出された音訳信頼度から、外部サービスへ送信するための外部データを作成する外部データ作成部32を有している。また、第3の実施の形態の音訳支援装置は、後述する外部データ選択画面及び外部データ作成画面を表示部6に表示制御する表示制御部33を有している。
 (第3の実施の形態の動作)
 第3の実施の形態の音訳支援装置は、以下の流れで作成した外部データを、ネットワーク上のサーバ装置で行われている外部サービスに送信する(クラウドソーシング)。すなわち、まず、作業者は、操作部7を操作して、外部データ選択画面の表示を指示する。表示制御部33は、各テキストに対して現在設定されている各音訳タグ及び音訳タグの音訳信頼度をHDD5から読み出して外部データ選択画面を生成し、表示部6に表示する。
 図14は、外部データ選択画面の表示例である。この図14に示すように、表示制御部33は、図5を用いて説明した「1.ご案内」、「2.ご連絡」等のテキストを、HDD5から読み出して外部データ選択画面に表示する。また、表示制御部33は、各テキストに付与されている「x-audio-param=“B,+10,+3”」等の音訳タグを、HDD5から読み出して外部データ選択画面に表示する。また、表示制御部33は、各音訳タグの更新履歴を用いて算出された、「96」、「90」等の音訳信頼度をHDD5から読み出して、外部データ選択画面に表示する。また、表示制御部33は、送信する外部データの表示画面の表示を指定するための作成ボタン35を、外部データ選択画面に表示する。なお、このような外部データ選択画面は、図7を用いて説明した音訳作業画面の各音訳タグの周辺に表示してもよい。
 次に、作業者は、外部データ選択画面に表示されたテキストのうち、第三者が多く指示する音訳設定の付与を希望するテキストを、操作部7を介して選択操作し、作成ボタン35を操作する。図14の例では、テキスト毎にチェックボックスが表示されている。作業者は、操作部7を介して、チェックボックスにチェックを入れることで所望のテキストを選択し、作成ボタン35を操作する。
 作成ボタン35が操作されると、外部データ作成部32は、HDD5から読み出した音訳履歴データから、作業者により選択された音訳タグの音訳設定を抽出する。この際、重複する音訳設定は除いてもよい。音訳設定を抽出すると、外部データ作成部32は、作業者により選択された各テキスト及び抽出した音訳設定を合成音声作成部15に供給する。合成音声作成部15は、供給されたテキスト及び音訳設定を、音声合成エンジンが認識可能な形式(例えば、SSML形式言語)に変換する。また、合成音声作成部15は、変換した言語を音声合成エンジンに入力し、合成音声を作成する。
 次に、合成音声が作成されると、表示制御部33は、図15に示す外部データ作成画面を表示部6に表示する。図15の例において、表示制御部33は、外部データ作成画面に、作業者がメッセージ等を入力するためのメッセージ入力部41を表示する。また、表示制御部33は、外部データ作成画面に、第三者が希望する音訳設定を選択するための設問部42、43を表示する。また、表示制御部33は、所定のネットワーク上のサーバ装置に対する、外部データ作成画面で作成された外部データの送信を指示するための送信ボタン44を、外部データ作成画面に表示する。
 表示制御部33は、各設問部42、43に対して、対応するテキスト45を表示すると共に、テキスト45に対して設定されている複数の音訳設定47を表示する。また、表示制御部33は、各設問部42、43に対して、各テキストの音訳設定に対応する合成音声の再生を指定するための再生ボタン45を表示する。再生ボタン45で再生される合成音声は、合成音声作成部15により作成された合成音声である。
 作業者は、このような外部データ作成画面を確認し、必要であれば、メッセージ入力部41にメッセージを入力し、また、所望のテキストの音訳設定を修正する。そして、作業者は、操作部7を介して送信ボタン44を送信操作する。外部データ作成部32は、外部データ作成画面に入力されたメッセージ、各テキスト及び各テキストの音訳設定のXMLデータと、各テキストの音訳設定に対応する合成音声をまとめた圧縮ファイルを作成する。XMLは、「Extensible Markup Language」の略記である。
 図1に示す通信部4は、送信ボタン44が送信操作されると、外部データ作成部32により作成された圧縮ファイルを、外部サービスのWebAPIを利用して、所定のネットワーク上のサーバ装置に送信する。
 第三者は、所定のネットワーク上のサーバ装置にアクセスし、テキストに対して付された複数の音訳設定のうち、所望の音訳設定を選択する。サーバ装置は、第三者から最も多く選択された音訳設定を示す選択結果情報を、ネットワークを介して音訳支援装置に送信する(クラウドソーシング)。選択結果情報は、通信部4により受信される。受信された選択結果情報は、表示制御部33により、表示部6に表示される。
 これにより、作業者は、各テキストに対して、第三者が多く指示する音訳設定を認識できる。また、選択結果情報は、音訳タグ付与部12に供給される。音訳タグ付与部12は、対応するテキストに、選択結果情報で示される音訳設定を行う。これにより、作業者が希望するテキストの音訳設定を、多くの第三者により指示された音訳設定とすることができる。
 (第3の実施の形態の効果)
 以上の説明から明らかなように、第3の実施の形態の音訳支援装置は、クラウドソーシングを用いて、多くの第三者により指示された音訳設定を、テキストに付与できる。このため、音訳の質の向上を図ることができる他、上述の各実施の形態と同様の効果を得ることができる。
 以上、各実施の形態を説明したが、各実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な各実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。各実施の形態およびその変形は、発明の範囲や要旨に含まれると共に、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (10)

  1.  音訳するテキストを取得する取得部と、
     前記テキストの音訳設定を示す音訳タグを前記テキストに付与する付与部と、
     前記音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、前記頻出音訳設定を前記テキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する抽出部と、
     前記音訳パターンを用いて合成音声を作成する作成部と、
     作成された前記合成音声を再生する再生部と
     を備える音訳支援装置。
  2.  前記抽出部は、前記音訳タグの所定の要素又は所定のテキスト形式を前記適応条件として、前記頻出音訳設定に関連付けた音訳パターンを抽出すること
     を特徴とする請求項1に記載の音訳支援装置。
  3.  前記付与部は、構造化文書タグを拡張して記述した前記音訳タグを前記テキストに付与すること
     を特徴とする請求項1に記載の音訳支援装置。
  4.  前記付与部は、前記音訳タグとして、前記合成音声の非出力を指示するポーズ情報を付与し、
     前記抽出部は、所定の前記テキスト形式と、前記ポーズ情報の音訳設定を関連付けた前記音訳パターンを抽出すること
     を特徴とする請求項2に記載の音訳支援装置。
  5.  前記付与部は、前記音訳タグとして、話者、音量及びピッチを含む合成音声パラメタ情報を付与し、
     前記抽出部は、前記テキストの頻出する要素と、頻出する前記要素に付与されている前記合成音声パラメタ情報とを関連付けた音訳パターンを抽出すること
     を特徴とする請求項1に記載の音訳支援装置。
  6.  前記付与部は、前記音訳タグとして、テキストの読みを示す読み情報を付与し、
     前記抽出部は、前記テキストの頻出する要素と、頻出する前記要素に付与されている前記読み情報とを関連付けた音訳パターンを抽出すること
     を特徴とする請求項1に記載の音訳支援装置。
  7.  前記各音訳タグの更新時刻を含む音訳履歴データを記憶する記憶部と、
     前記音訳履歴データから前記各音訳タグの音訳信頼度を算出する算出部と、をさらに備え、
     前記抽出部は、算出された前記各音訳タグの音訳信頼度を用いて、前記各音訳パターンの信頼度を算出し、所定の信頼度以上の音訳パターンのみを抽出すること
     を特徴とする請求項1に記載の音訳支援装置。
  8.  前記各音訳タグの更新時刻を含む音訳履歴データを記憶する記憶部と、
     前記音訳履歴データから前記各音訳タグの音訳信頼度を算出する算出部と、
     前記音訳履歴データ及び前記音訳信頼度から、前記作業者が指定するテキストに対する複数の音訳設定のうち、第三者が所望の音訳設定を選択するための外部データを作成する外部データ作成部と、
     前記第三者がアクセスして所望の前記音訳設定の選択を行う、所定のネットワーク上のサーバ装置に対して、前記外部データを送信すると共に、前記サーバ装置から送信される、前記第三者による前記音訳設定の選択結果を受信する通信部と、をさらに備え、
     前記付与部は、前記第三者の選択結果に対応する音訳設定の音訳タグを、対応するテキストに付与すること
     を特徴とする請求項1に記載の音訳支援装置。
  9.  取得部が、音訳するテキストを取得する取得ステップと、
     付与部が、前記テキストの音訳設定を示す音訳タグを前記テキストに付与する付与ステップと、
     抽出部が、前記音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、前記頻出音訳設定を前記テキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する抽出ステップと、
     作成部が、前記音訳パターンを用いて合成音声を作成する作成ステップと、
     再生部が、作成された前記合成音声を再生する再生ステップと
     を備える音訳支援方法。
  10.  コンピュータを、
     音訳するテキストを取得する取得部と、
     前記テキストの音訳設定を示す音訳タグを前記テキストに付与する付与部と、
     前記音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、前記頻出音訳設定を前記テキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する抽出部と、
     前記音訳パターンを用いて合成音声を作成する作成部と、
     作成された前記合成音声を再生する再生部として機能させること
     を特徴とする音訳支援プログラム。
PCT/JP2015/058924 2015-03-24 2015-03-24 音訳支援装置、音訳支援方法及び音訳支援プログラム WO2016151761A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017507217A JP6392445B2 (ja) 2015-03-24 2015-03-24 音訳支援装置、音訳支援方法及び音訳支援プログラム
PCT/JP2015/058924 WO2016151761A1 (ja) 2015-03-24 2015-03-24 音訳支援装置、音訳支援方法及び音訳支援プログラム
US15/417,650 US10373606B2 (en) 2015-03-24 2017-01-27 Transliteration support device, transliteration support method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/058924 WO2016151761A1 (ja) 2015-03-24 2015-03-24 音訳支援装置、音訳支援方法及び音訳支援プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/417,650 Continuation US10373606B2 (en) 2015-03-24 2017-01-27 Transliteration support device, transliteration support method, and computer program product

Publications (1)

Publication Number Publication Date
WO2016151761A1 true WO2016151761A1 (ja) 2016-09-29

Family

ID=56978284

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/058924 WO2016151761A1 (ja) 2015-03-24 2015-03-24 音訳支援装置、音訳支援方法及び音訳支援プログラム

Country Status (3)

Country Link
US (1) US10373606B2 (ja)
JP (1) JP6392445B2 (ja)
WO (1) WO2016151761A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
US20230128406A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation Recursive Logic Engine for Efficient Transliteration of Machine Interpretable Languages

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JP2005266009A (ja) * 2004-03-16 2005-09-29 Matsushita Electric Ind Co Ltd データ変換プログラムおよびデータ変換装置
JP2007128506A (ja) * 2006-10-23 2007-05-24 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記録媒体
JP2014222542A (ja) * 2014-08-06 2014-11-27 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5423466A (en) 1977-07-25 1979-02-22 Matsushita Electric Ind Co Ltd Manufacture for semiconductor device
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
JPH11327870A (ja) 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
JP4326251B2 (ja) * 2003-04-04 2009-09-02 シャープ株式会社 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8612206B2 (en) * 2009-12-08 2013-12-17 Microsoft Corporation Transliterating semitic languages including diacritics
JP5423466B2 (ja) 2010-02-19 2014-02-19 富士通株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules
JP5559737B2 (ja) * 2011-04-28 2014-07-23 パナソニックヘルスケア株式会社 アイソレータ
RU2644071C2 (ru) * 2013-03-15 2018-02-07 Дзе Дан Энд Брэдстрит Корпорейшн Курирование многоязычных коммерческих признаков и синтез транслитерации
JPWO2015162737A1 (ja) 2014-04-23 2017-04-13 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
JP2005266009A (ja) * 2004-03-16 2005-09-29 Matsushita Electric Ind Co Ltd データ変換プログラムおよびデータ変換装置
JP2007128506A (ja) * 2006-10-23 2007-05-24 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記録媒体
JP2014222542A (ja) * 2014-08-06 2014-11-27 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム

Also Published As

Publication number Publication date
US10373606B2 (en) 2019-08-06
JPWO2016151761A1 (ja) 2017-06-15
US20170140749A1 (en) 2017-05-18
JP6392445B2 (ja) 2018-09-19

Similar Documents

Publication Publication Date Title
US8706495B2 (en) Synchronise an audio cursor and a text cursor during editing
CN106716466B (zh) 会议信息储存装置以及方法
JP6290230B2 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
JP7200533B2 (ja) 情報処理装置およびプログラム
JP2014240884A (ja) コンテンツ作成支援装置、方法およびプログラム
JP6392445B2 (ja) 音訳支援装置、音訳支援方法及び音訳支援プログラム
JP2008129692A (ja) 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
JPWO2015162737A1 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
US8027835B2 (en) Speech processing apparatus having a speech synthesis unit that performs speech synthesis while selectively changing recorded-speech-playback and text-to-speech and method
JP5423466B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
CN110782899B (zh) 信息处理装置、存储介质及信息处理方法
KR20230015489A (ko) 회의록 관리 방법 및 장치
JP5082971B2 (ja) 音声合成装置およびそれを用いた読み上げシステム。
JP6523998B2 (ja) 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
JP2004164134A (ja) 電子文書作成装置、電子文書作成方法およびその方法をコンピュータに実行させるプログラム
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP2001034611A (ja) 読み情報出力装置および記録媒体
JP2009146196A (ja) 翻訳支援システム、翻訳支援方法および翻訳支援用プログラム
CN116153289A (zh) 语音合成标记文本的处理方法及相关装置
US20240046035A1 (en) Program, file generation method, information processing device, and information processing system
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2008096489A (ja) 音声化システム、音声化方法、音声化サーバ及び音声化プログラム
JP2007249420A (ja) Webページ文章自動検出装置
JP2007026398A (ja) 画像情報または音声情報を含む文書データ翻訳システム
CN112541651A (zh) 电子设备、发音学习方法以及服务器装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15886314

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017507217

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15886314

Country of ref document: EP

Kind code of ref document: A1