WO2023047623A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2023047623A1
WO2023047623A1 PCT/JP2022/006808 JP2022006808W WO2023047623A1 WO 2023047623 A1 WO2023047623 A1 WO 2023047623A1 JP 2022006808 W JP2022006808 W JP 2022006808W WO 2023047623 A1 WO2023047623 A1 WO 2023047623A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
unit
sentence
reading
estimation
Prior art date
Application number
PCT/JP2022/006808
Other languages
English (en)
French (fr)
Inventor
礼夢 肥田
将樹 濱田
衣未留 角尾
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023047623A1 publication Critical patent/WO2023047623A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and an information processing program relating to language processing.
  • Patent Document 1 there is a known technique for removing the ambiguity of multiple readings in language conversion (for example, Patent Document 1). Also, there is known a technique of defining co-occurrence scores using co-occurrences of readings and words and outputting readings with higher scores in order to resolve reading ambiguity (for example, Patent Document 2). Also, there is known a technique for generating a phonetic symbol string that can be easily modified by the user in terms of accent and reading (for example, Patent Document 3). Also, there is known a technique for providing a model for estimating the pitch of an accent based on information such as word notation, reading, and part of speech (for example, Patent Document 4).
  • the pronunciation and accent of individual words can be output relatively accurately.
  • there are few opportunities to express something with only individual words and it is relatively often described in the form of sentences.
  • sentence form the pronunciation and accent of individual words may change according to their context.
  • the present disclosure proposes an information processing device, an information processing method, and an information processing program capable of providing a natural reading or accent in line with the context.
  • an information processing apparatus includes an acquisition unit that acquires text data described as sentences, divides the text data acquired by the acquisition unit into elements, , a preprocessing unit for extracting a feature amount for each element, which is output using a first model that outputs a feature amount in consideration of the context before and after; an estimating unit that estimates the reading of each element included in the text by inputting the feature quantity into a second model that handles series data.
  • FIG. 3 is a block diagram conceptually showing information processing according to the embodiment;
  • FIG. It is a figure for demonstrating the reading ambiguity resolution process which concerns on embodiment.
  • FIG. 7 is a diagram for explaining accent estimation processing according to the embodiment;
  • FIG. 4 is a diagram for explaining a model related to accent estimation processing;
  • FIG. 3 is a diagram (1) for explaining a user interface according to the embodiment;
  • FIG. 2B is a diagram (2) for explaining the user interface according to the embodiment;
  • FIG. 3 is a diagram (3) for explaining the user interface according to the embodiment;
  • FIG. 4 is a diagram (4) for explaining the user interface according to the embodiment;
  • FIG. 5 is a diagram (5) for explaining the user interface according to the embodiment; It is a figure which shows the structural example of the information processing apparatus which concerns on embodiment. It is a figure which shows an example of the additional information storage part which concerns on embodiment. It is a figure which shows the structural example of the user terminal which concerns on embodiment. 4 is a flowchart showing the flow of processing according to the embodiment; 1 is a hardware configuration diagram showing an example of a computer that implements functions of an information processing apparatus; FIG.
  • Embodiment 1-1 Outline of information processing according to embodiment 1-2.
  • Configuration of Information Processing Apparatus According to Embodiment 1-3.
  • Procedure of processing according to embodiment 1-5 Modified example according to the embodiment 2.
  • Other embodiments Effects of the information processing apparatus according to the present disclosure4.
  • Hardware configuration
  • FIG. 1 is a diagram illustrating an overview of information processing according to the embodiment. Information processing according to the embodiment is executed by an information processing system 1 shown in FIG.
  • the information processing system 1 includes an information processing device 100 and a user terminal 200.
  • the information processing device 100 is an example of an information processing device that executes information processing according to the present disclosure, and is, for example, a server.
  • the user terminal 200 is an information communication device used by the user 10, such as a smartphone or a tablet terminal.
  • the user 10 and the user terminal 200 may be read interchangeably.
  • "transmitting data to the user 10" may actually mean “transmitting data to the user terminal 200 used by the user 10".
  • Each device in FIG. 1 conceptually shows the functions of the information processing system 1, and can take various forms depending on the embodiment.
  • the user terminal 200 may be one or more terminal devices.
  • the information processing device 100 and the user terminal 200 may be the same device.
  • the information processing apparatus 100 acquires arbitrary text data from the user and executes processing for estimating the reading and accent of the acquired text. Further, the information processing apparatus 100 mechanically synthesizes speech according to the estimated reading and accent, and controls the user terminal 200 to output the speech.
  • the information processing apparatus 100 acquires text data described as a sentence, divides the text data into elements such as morphemes, and determines the feature amount of each element, considering the context before and after the element.
  • the output features are extracted using a pre-trained language model that outputs features.
  • the information processing apparatus 100 inputs the extracted feature amount to a trained reading estimation model that can handle sequences of arbitrary length, thereby estimating the reading for each element included in the sentence.
  • the information processing apparatus 100 also uses the trained accent estimation model to estimate the accent of each element included in the sentence.
  • sentence may mean a series of multiple sentences, but in the present disclosure, sentences including those composed of only one sentence are collectively referred to as sentences.
  • the information processing apparatus 100 derives the feature amount for each element in consideration of the context for the entire sentence, and inputs the derived feature amount into the reading or accent estimation model, thereby estimating the reading or accent. As a result, the information processing apparatus 100 can estimate an appropriate reading or accent according to the context. Such processing will be described below with reference to the drawings.
  • FIG. 1 shows an overview of the flow when information processing according to the embodiment is executed.
  • the user 10 transmits text data to be processed by the information processing apparatus 100 (step S1).
  • the user 10 inputs arbitrary text data on the user interface displayed on the screen of the user terminal 200 .
  • the user 10 inputs the sentence 20, "I used to go north.”
  • the user 10 may input other sentences connected with the sentence 20 before and after the sentence 20 . That is, the user 10 may input text data including multiple sentences.
  • the information processing device 100 When the information processing device 100 receives the sentence 20 from the user 10, it executes reading and accent estimation processing for the sentence 20 (step S2). Details will be described with reference to FIG. 2 and subsequent figures, but the information processing apparatus 100 executes reading ambiguity resolution processing for morphemes included in the sentence 20 that have ambiguous readings. Further, the information processing apparatus 100 estimates the accent of the sentence 20 as a whole after the ambiguity of the reading is resolved.
  • the information processing apparatus 100 when the information processing apparatus 100 receives the input of the sentence 20 “I used to go to the north”, the information processing apparatus 100 executes reading disambiguation, and among the sentences 20, The reading of "through” presumes the reading of a morpheme that is ambiguous. Then, the information processing apparatus 100 presumes that the sentence 20 is read as "mukashi wa kita no yori ga yori".
  • the information processing apparatus 100 performs accent estimation processing on the sentence 20. Such processing is performed after the reading disambiguation processing for languages such as Japanese in which the reading disambiguation processing is important. On the other hand, in the case of a language for which the reading disambiguation processing is not important, or in the case of speeding up the processing, the information processing apparatus 100 may perform the accent estimation processing without performing the reading disambiguation processing.
  • the information processing device 100 synthesizes speech for the sentence 20 based on the estimated accent.
  • the information processing apparatus 100 transmits the estimated reading and accent to the user 10 (step S3). Specifically, the information processing apparatus 100 controls to display the estimated reading result on the user interface of the user terminal 200 . Further, the information processing apparatus 100 controls the user interface of the user terminal 200 to output voice based on the estimated accent.
  • the user 10 After confirming the estimation result, the user 10 transmits feedback to the information processing device 100 .
  • the user 10 selects, for example, the most natural reading and accent voice from among the multiple presented estimation results, and transmits the selected result to the information processing apparatus 100 .
  • the information processing apparatus 100 can further improve the accuracy of estimation by re-learning the model using the received feedback as supervised data.
  • FIG. 2 is a block diagram conceptually showing information processing according to the embodiment.
  • FIG. 2 shows, as a block diagram, the flow of data transmitted and received between the user terminal 200 and the information processing apparatus 100, and each process performed on the data.
  • the user terminal 200 receives input of text data from the user 10 (step S11).
  • the user 10 may input text on the user terminal 200, or may perform voice input or the like.
  • the user 10 may input text data by uploading a file containing the text on the user interface or the like.
  • the preprocessing unit 132 morphologically analyzes each sentence for the text data that has been divided into sentences, and decomposes the sentence into morphemes (step S13). In other words, the preprocessing unit 132 decomposes the sentence to be processed into a plurality of words that are constituent elements. Furthermore, the preprocessing unit 132 adds linguistic information (part of speech, pronunciation (reading), lexeme, accent information, etc.) to each word based on arbitrary dictionary data for the words divided by the morphological analysis. . At this time, the preprocessing unit 132 may use a user's own dictionary in which linguistic information is described.
  • the preprocessing unit 132 extracts feature amounts of each word (step S14). For example, the preprocessing unit 132 directly treats the linguistic information of each word obtained by the morphological analysis as one of the feature amounts. Furthermore, the preprocessing unit 132 can extract feature quantities from a large-scale pre-trained language model such as BERT (Bidirectional Encoder Representations from Transformers) and assign the feature quantity to each word.
  • BERT Bidirectional Encoder Representations from Transformers
  • the preprocessing unit 132 can also perform additional information processing using the additional information acquired by accessing the additional information storage unit 121 (step S15).
  • Additional information refers to information that is additionally used in the process of estimating the reading and accent of a sentence.
  • the additional information about the word “Mita” is the combination of the reading "mita” and the "place name in Tokyo (Kanto)".
  • the additional information storage unit 121 stores, as other additional information about the word “Mita”, information consisting of a combination of the pronunciation of "Sanda” and the "place name of Hyogo (Kansai)".
  • the preprocessing unit 132 reads the word "Mita” as "Mita” when it appears. ” increases the probability of estimating that
  • the additional information is not limited to general knowledge information as described above, but may also be related to text-specific knowledge as described later.
  • the additional information storage unit 121 is not necessarily held by the information processing apparatus 100, and may be held by a plurality of web servers or cloud servers. In this case, the preprocessing unit 132 may appropriately acquire related additional information from each database when using it for processing.
  • the additional information has a structure in which four data (Mita, Mita, located, Tokyo) are combined.
  • the additional information processing it is possible to perform a rule-based process of estimating that the reading of "Mita” is "mita” in a sentence containing the word "Tokyo".
  • the additional information is stored in the form of a graph consisting of nodes and edges
  • the graph is converted into a vector using a graph embedding technique, and a machine that estimates the reading and accent is used. It can also be an additional input to the learning model.
  • the above is the operation of the preprocessing unit that executes processing when an input is made from the user terminal 200 .
  • the information processing shifts to the processing by the estimating unit 133 .
  • the estimation unit 133 is a processing system that estimates the reading and accent based on the context information. Specifically, for each sentence to be processed, the estimation unit 133 passes the word-by-word information generated by the preprocessing unit to the estimation model, and executes reading ambiguity resolution processing (step S12). The estimation unit 133 also estimates the accent of the entire sentence based on the reading estimated by the reading disambiguation processing (step S17). At this time, the estimating unit 133 uses both the feature amount obtained as a result of the morphological analysis and the feature amount obtained from the pre-trained language model such as BERT, so that the estimation process can be performed in consideration of the context. can.
  • the pre-trained language model such as BERT
  • the estimation unit 133 does not need to limit the input to the estimation model to one sentence.
  • the estimating unit 133 may use, as the additional information, additional information such as the topic of the sentence before and after the sentence, the information about which part of the sentence to pay attention to, external information about the gazed object, and the like.
  • the sentences before and after or the topic of the sentence as a whole are, for example, terms included in various topics such as sports, entertainment, politics, and economics in the case of news articles.
  • the information about which part of the entire sentence to pay attention to means, for example, the destination pointed to by a specific place name or referent.
  • the external information related to the gazed object is, for example, the profile of the character indicated by the gazed proper noun.
  • the estimation unit 133 when estimating the readings of two sentences such as “I lived in Hyogo. occur. However, the estimation unit 133 considers the preceding sentence (“I lived in Hyogo”) when processing the word “Mita”, so that the reading of the word “Mita” can be read as “Sanda”. It is possible to estimate that the probability is high.
  • the estimation unit 133 can also estimate "Sanda” by focusing on the word “Hyogo” instead of the entire sentence immediately before "Mita” appears.
  • Mita can be presumed to be Sanda.
  • the additional information may be held as information of a combination structure such as (A, hometown, Kansai) as in the above example, or may be held in the form of natural sentences.
  • the information processing device 100 After the estimation unit 133 estimates the pronunciation and accent, the information processing device 100 transmits the estimation result to the user terminal 200 .
  • the user terminal 200 outputs the received estimation result on the user interface (step S18). Also, the user terminal 200 synthesizes text data into speech based on the estimated reading and accent, and outputs the result (step S19). The user 10 transmits feedback regarding the estimation result to the information processing device 100 as necessary (step S20).
  • FIG. 3 is a diagram for explaining reading ambiguity resolution processing according to the embodiment.
  • the reading ambiguity resolution processing (step S16) described in FIG. 2 includes word identification processing (step S21) and reading ambiguity resolution processing (step S23). Further, the reading ambiguity resolution processing includes a reading ambiguity resolution learning processing (step S22) as prior learning on how to read. That is, as pre-learning, the estimation unit 133 pre-learns a model for resolving reading ambiguity using text data 35 with reading, which is supervised data in which readings and text are combined. Note that such learning may be completed in an external device instead of being executed by the information processing apparatus 100 . In this case, the information processing apparatus 100 appropriately acquires a trained model required for processing.
  • the feature amount extracted in the previous feature amount extraction process (step S14) is used to identify the words to be read and disambiguated according to rules in advance.
  • the estimating unit 133 identifies, among morphemes, words that resolve reading ambiguity according to a predetermined rule such as "the notation is 'kata' and the part of speech is a noun.”
  • a predetermined rule such as "the notation is 'kata' and the part of speech is a noun.”
  • the rule may include arbitrary information such as notation, part of speech, other linguistic information, or information on words before and after.
  • the estimation unit 133 specifies "kata” and "totsu” as words to be resolved by reading ambiguity processing according to the rule. As will be described later, the estimating unit 133 does not necessarily have to specify words that resolve reading ambiguity, and may process all words.
  • the reading ambiguity resolution process the reading ambiguity of the word identified in step S21 is resolved, and the correct reading is estimated using the information on the words before and after the text.
  • the estimating unit 133 estimates that the readings of ⁇ ho'' and ⁇ totsu'' are ⁇ ho'' and ⁇ kayo'', respectively, for the sentence ⁇ I used to go north''. Thereafter, the information processing shifts to accent estimation processing (step S17).
  • FIG. 4 is a diagram for explaining a model related to reading disambiguation processing.
  • FIG. 4 shows the configuration of the estimation model 40 that executes the reading disambiguation process.
  • the estimation model 40 includes, for each element of a sentence, a feature quantity 41 represented as a pronunciation disambiguation flag vector, a feature quantity 42 represented as a part-of-speech embedding vector, and a BERT embedding vector. It has a structure in which the feature quantity 43 to be obtained is input to an LSTM (Long Short-Term Memory) model 44 that can handle sequences.
  • LSTM Long Short-Term Memory
  • the reading disambiguation flag vector is a vector that takes two values for distinguishing words whose readings are to be disambiguated from other words. For example, a word whose reading disambiguation flag vector is "1" is a word identified by the preceding word identification processing. A word whose reading disambiguation flag vector is "0" is a word that has not been identified by the preceding word identification processing.
  • a part-of-speech embedding vector is a vector (feature value) converted from the part of speech of each word.
  • the part-of-speech embedding vector is not limited to the part-of-speech, and other linguistic information such as pronunciation may be used.
  • a BERT embedding vector is obtained by converting each word into a vector (feature quantity) that depends on the words before and after it in the sentence.
  • the model used for conversion is not limited to BERT, and any pretrained language model may be used.
  • the estimating unit 133 inputs the combination of the above three vectors for each word to the LSTM model 44, and estimates the correct reading of the word specified in the word specifying process.
  • the model used for estimation is not limited to the LSTM model 44, and may be any machine learning model that inputs and outputs sequences. According to the sequence model, since sequences of arbitrary length can be processed, it is possible to estimate readings by referring to words in the distant past. In particular, by using a bi-directional LSTM model, not only the past but also future words can be referenced.
  • the estimating unit 133 may output n readings (n is a natural number) with the highest probability, instead of outputting only one reading as the reading.
  • the estimating unit 133 may acquire additional information that can serve as a basis for estimating the reading as appropriate and use it for processing.
  • readings and text data estimated by the estimation unit 133 may be held as text data with readings 35, which is new learning data, and used for machine learning for the above-described reading disambiguation processing.
  • FIG. 5 is a diagram for explaining accent estimation processing according to the embodiment.
  • the estimation unit 133 acquires the text whose reading ambiguity has been resolved, acquires additional information from the additional information storage unit 121, and performs accent estimation processing on the acquired text (step S17). .
  • the estimating unit 133 outputs a prosodic information symbol string (information indicating at which position in the text the accent core is placed) and information that serves as the basis for estimating the accent as a result of the estimated accent.
  • FIG. 6 is a diagram for explaining a model related to accent estimation processing.
  • the estimation model 50 includes, for each element of one sentence, a feature quantity 521 expressed as an additional information embedding vector, a feature quantity 522 expressed as a language feature quantity embedding vector, and a BERT embedding vector. It has a structure for inputting the feature quantity 523 to be used to the BiLSTM model.
  • the estimation model 50 has a structure in which the result output from the BiLSTM model is further passed through a CRF (Conditional Random Field) 530 and CRF 531 to output the result of estimating accent phrases and accent kernels.
  • CRF Consumer Random Field
  • CRF 530 and CRF 531 are discriminative models called conditional random fields, and in the present disclosure, function to output estimation results (recognition results) of accent phrases and accent kernels.
  • estimation model 50 Linear and concat denote functions for adjusting the output numerical values.
  • the accent phrase delimiter position and the accent kernel position are estimated.
  • the feature values used in the processing are linguistic information for each word (part of speech, pronunciation, lexeme, accent information, etc.), and for accent core estimation, accent phrase delimiter information and changes in accent core positions based on rules. (high and low rules, etc.).
  • the accent core of each word may be changed by connecting each word.
  • the word "Chief Cabinet Secretary” is composed of three morphemes such as “Cabinet”, “Cabinet” and “Minister”.
  • "cabinet” and "chief cabinet secretary” such as "cabinet / chief cabinet secretary”
  • "cabinet” and "Kanbo”, “Kanbo” and “Keicho” are all consecutive parts of nouns and cannot be inferred by simple rules.
  • "/" indicates the delimiter position of the accent phrase.
  • the estimating unit 133 in the example sentence "In the past, used to go northward", generates a naturally delimited accent phrase, to output
  • the estimation unit 133 outputs accent kernels indicating a natural pitch, such as "once upon a time,” in the example sentence, "I used to go north.”
  • the estimating unit 133 may input a morpheme string separated by accent phrases as an input for estimating accent kernels.
  • the estimation unit 133 may estimate the accent phrase and the accent kernel using separate models, or may handle them collectively.
  • the estimation unit 133 may output only one with the highest probability, or may output the top n cases with the highest probability as the estimation result. At this time, the estimating unit 133 assumes that the accent phrase has the highest probability, and outputs n accent kernels in combination under the condition that the probability is high. You may output a result in various modes, such as outputting an item.
  • the estimation unit 133 outputs information on which the estimation is based along with the estimation result.
  • the estimating unit 133 may output the basis in a format that refers to the information used as the additional information, or in a format that indicates which word or range in the sentence contributed to the estimation.
  • FIG. 7 is a diagram (1) for explaining the user interface according to the embodiment.
  • the user interface 51 shown in FIG. 7 shows a screen display example of the user terminal 200 used when the user 10 executes input of text data.
  • the user interface 51 includes an additional information field 52 , a target sentence input field 53 , an output number designation field 54 and an estimation execution button 56 .
  • the additional information column 52 indicates a column for the user 10 to enter text as additional information.
  • the text to be input in the additional information column 52 is, for example, sentences before and after the target sentence. Note that additional information stored in the additional information storage unit 121 may be appropriately used instead of being designated by the user 10 .
  • the target sentence input field 53 is a field for inputting the text to be processed.
  • the number-of-outputs designation field 54 is a field for designating the number to be output as the estimation result.
  • the estimation execution button 56 is a button that the user 10 presses when desiring to execute estimation processing.
  • FIG. 8 is a diagram (2) for explaining the user interface according to the embodiment.
  • the user interface 60 further includes display of estimation results.
  • the user interface 60 includes an output result 61 , a rationale 62 , a number of rationales specification field 63 , and a speech synthesis start button 64 .
  • the user 10 can confirm the estimation result.
  • the output result 61 indicates the reading and accent estimation results for the target sentence. For example, when the user 10 specifies "3" in the number-of-outputs specification field 54, the output results 61 show the top three estimation results.
  • Grounds 62 shows the grounds for the estimation results.
  • the evidence 62 indicates the information that is the basis of the estimation result (which part contributed to the pronunciation and accent in the estimation result) for the word identified as having an ambiguous reading.
  • the first estimation result indicates that the information on which "Mita” is read as "Sanda” is "Hyogo.”
  • the user 10 can select which estimation result to display among the three presented estimation results by changing the numerical value in the number-of-foundations designation field 63 .
  • FIG. 9 is a diagram (3) for explaining the user interface according to the embodiment.
  • the user interface 70 includes, in addition to the information displayed on the user interface 60, a voice icon 71, a voice icon 72, a voice icon 73, and a box 74.
  • the user terminal 200 voice-synthesizes the estimation result corresponding to the voice icon 71, the voice icon 72, or the voice icon 73, speak.
  • the user terminal 200 displays the estimation result corresponding to the voice icon 71 “Hey, hey, hey! utter the result of synthesizing the text "no / ho' - ni / Kayotashita.”
  • the user terminal 200 may perform speech synthesis using any speech synthesizer as long as it can reflect the reading and accent.
  • the user terminal 200 may use a deep learning-based technique combining Tacotron 2 and Wavenet, or may perform speech synthesis using HMM (Hidden Markov Model).
  • FIG. 10 is a diagram (4) for explaining the user interface according to the embodiment.
  • the user interface 80 includes decision boxes 81 and 82 in addition to the information displayed on the user interface 70 .
  • the judgment box 81 and the judgment box 82 are boxes for inputting the result of the user 10 judging whether or not the basis of the reading is correct.
  • the user 10 inputs "o” in the determination box 81 if "Hyogo” is appropriate as the basis for the reading of "Mita” as “Sanda.”
  • the user 10 inputs “ ⁇ ” in the determination box 81 when “Hyogo” is not appropriate as the basis for the presumed reading of “Mita” as “Sanda”.
  • FIG. 11 is a diagram (5) for explaining the user interface according to the embodiment.
  • FIGS. 10 and 11 show examples in which the user 10 gives feedback on the grounds
  • the feedback may be given on the estimation results.
  • the user 10 may select the most appropriate estimation result from among the three presented estimation results, or may select the most inappropriate estimation result and transmit the result to the information processing apparatus 100. good.
  • the user 10 uses a speech synthesizer to vocalize the three candidate readings and accent sequences shown as the estimation results, listens to them, compares them, and selects the most preferable and natural one. As a result, a sound that is natural to the user 10 is reproduced, and the information processing apparatus 100 can construct a more accurate model by re-learning the feedback result as learning data.
  • the user 10 may edit not only the binary information such as whether the estimation result is good or bad, but also the pronunciation, accent phrases, and accent kernels, and send the results as feedback.
  • the user 10 can send various information as feedback, such as newly adding a basis for readings for which the basis is not indicated.
  • FIG. 12 is a diagram illustrating a configuration example of the information processing apparatus 100 according to the embodiment.
  • the information processing device 100 has a communication section 110, a storage section 120, and a control section .
  • the information processing apparatus 100 includes an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from an administrator or the like who manages the information processing apparatus 100, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. ).
  • an input unit for example, a keyboard, a mouse, etc.
  • a display unit for example, a liquid crystal display, etc.
  • the communication unit 110 is implemented by, for example, a NIC (Network Interface Card), a network interface controller, or the like.
  • the communication unit 110 is connected to the network N by wire or wirelessly, and transmits/receives information to/from the user terminal 200 or the like via the network N.
  • Network N is, for example, Bluetooth (registered trademark), the Internet, Wi-Fi (registered trademark), UWB (Ultra Wide Band), LPWA (Low Power Wide Area), ELTRES (registered trademark), or other wireless communication standards or methods. Realized.
  • the storage unit 120 is implemented by, for example, a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • the storage unit 120 has an additional information storage unit 121 and a model storage unit 122 . Each storage unit will be described below in order.
  • FIG. 13 is a diagram showing an example of the additional information storage unit 121 according to the embodiment.
  • the additional information storage unit 121 stores additional information used for information processing.
  • the additional information storage unit 121 has items such as "additional information ID” and "structure".
  • “Additional information ID” is identification information for identifying additional information.
  • "Structure” indicates the structure in which the additional information is held.
  • the additional information storage unit 121 stores information such as (Mita, Mita, located, Tokyo) and information such as (Mita, Sanda, located, Hyogo) under the structure of (text, pronunciation, attribute, name). It stores additional information such as
  • the model storage unit 122 stores models used for extracting features and estimating readings and accents. Note that the model storage unit 122 may store various learning data such as the text data 35 with reading shown in FIG.
  • the acquisition unit 131 acquires text data described as sentences based on the input by the user 10 . Moreover, the acquisition unit 131 may acquire additional information from the user terminal 200 or an external device as necessary.
  • the acquisition unit 131 acquires from the user terminal 200, as feedback from the user 10, the result of the user's judgment as to whether the estimation result and the grounds are correct. For example, the acquisition unit 131 acquires binary data indicating whether the estimation result and the grounds are correct from the user terminal 200 via the user interface.
  • the acquisition unit 131 may acquire, from the user terminal 200, the correction result of the user 10 correcting the estimation result and the basis. That is, the acquisition unit 131 acquires information such as the reading, the accent phrase, and the accent kernel corrected by the user 10 .
  • the acquisition unit 131 may also acquire information about a word that serves as a basis for correction by the user 10 and a range in a sentence containing two or more words.
  • the preprocessing unit 132 divides the text data acquired by the acquisition unit 131 into elements, and uses a first model that outputs a feature amount for each element in consideration of the context before and after the element. Extract the output features.
  • the first model is a pre-trained language model, such as BERT, which is capable of outputting a feature quantity considering the context.
  • the preprocessing unit 132 extracts feature amounts for each word obtained by morphological analysis in various vector formats. In the estimation processing in the latter stage, it is possible to perform estimation considering the context by inputting such a feature amount.
  • the preprocessing unit 132 uses the first model, which is the feature amount for each element whose reading is estimated, and outputs the feature amount in consideration of the context before and after the output. You may extract the feature-value which was carried out. That is, as shown in FIGS. 5 and 6, the preprocessing unit 132 extracts, in various vector formats, feature amounts for each word whose reading has been estimated.
  • the first model in this case is assumed to be a pre-trained language model such as BERT as described above, but different models may be used for feature quantity extraction for reading estimation and accent estimation.
  • the estimation unit 133 inputs the feature amount extracted by the preprocessing unit 132 to the second model that handles series data, thereby estimating the reading of each element included in the text.
  • the second model is a trained model that can handle series data, such as the LSTM model 44, for example.
  • the estimating unit 133 identifies elements whose readings are to be estimated based on predetermined rules, and estimates the readings of the identified elements.
  • the specified result is, for example, binary data in the pronunciation disambiguation flag vector, and is treated as one of the feature quantities.
  • the estimation unit 133 specifies, as a rule, the element whose reading is to be estimated based on the notation and part of speech of the element. In this way, the estimating unit 133 can accurately identify words whose reading ambiguity should be resolved by holding words whose readings are likely to be ambiguous on a rule basis.
  • the estimation unit 133 may estimate a plurality of readings for elements whose readings are to be estimated in descending order of correctness probability. This allows the estimation unit 133 to suggest to the user 10 that there are several reading possibilities.
  • estimation unit 133 may estimate the reading using additional information that is information related to elements included in the sentence or elements included in sentences before and after the sentence.
  • the estimating unit 133 uses, as additional information, a word that corresponds to an element included in the sentence or elements included in sentences before and after the sentence, and the reading or word meaning associated with the word, to estimate the reading. do.
  • the estimating unit 133 can hold information indicating that there is a relationship between the reading of a word and a place name as additional information, and use such information for estimation, thereby making it possible to perform more accurate estimation. .
  • the estimating unit 133 may estimate the reading by using, as additional information, the result of analyzing the intention of the sentence or the sentences before and after the sentence, and the reading or meaning of the phrase linked to the result. good.
  • the estimating unit 133 uses, as additional information, sentences preceding or succeeding sentences to be processed.
  • the estimating unit 133 inputs a sentence to the trained model, analyzes the intention contained in the sentence, and uses the contents, phrases, etc. contained in the intention as additional information.
  • the estimation unit 133 analyzes the contents of the sentence even if the sentence does not clearly indicate "Tokyo", if it can determine that the contents indicated by the sentence relate to Tokyo, Additional information related to is available for processing.
  • the information related to “Tokyo” is, for example, information in which “Tokyo” and the pronunciation are combined and stored in the additional information storage unit 121 .
  • the estimation unit 133 can perform estimation processing for natural reading of the entire sentence including a plurality of sentences.
  • the estimation unit 133 estimates the reading for each element included in the sentence, and then estimates the accent for each element included in the sentence. Specifically, the estimation unit 133 inputs the feature amount extracted by the preprocessing unit 132 to the third model that handles sequence data, thereby estimating the accent of each element included in the sentence.
  • the third model is, for example, a model having a structure like the estimated model 50 shown in FIG.
  • the estimating unit 133 identifies accent phrases and accent kernels in the sentence, thereby giving the sentence prosodic information that sounds more natural when viewed by the user 10 .
  • the transmission unit 134 transmits various types of information. For example, the transmitting unit 134 combines the estimation result estimated by the estimating unit 133 and the information on which the estimation result was output, and transmits the combination to the user terminal 200 .
  • the transmission unit 134 transmits the multiple results to the user terminal 200 and controls the user terminal 200 to display the list. That is, as shown in FIG. 8, the transmission unit 134 transmits the number of estimation results specified by the user 10 to the user terminal 200 and causes the user terminal 200 to display a list. This allows the user 10 to grasp the estimation result at a glance.
  • the transmission unit 134 transmits to the user terminal 200 data obtained by synthesizing the estimation results for which the user 10 has requested speech synthesis among the results displayed in a list on the user terminal 200 . For example, as shown in FIG. 9 , when the user 10 selects an estimation result, the transmission unit 134 transmits audio corresponding to the selected estimation result to the user terminal 200 . Note that the speech synthesis itself may be performed by the user terminal 200 . Further, when there are a plurality of estimation results, the transmission unit 134 may perform voice synthesis for them in order and cause the user terminal 200 to output all the voices in order.
  • FIG. 14 is a diagram showing a configuration example of the user terminal 200 according to the embodiment.
  • the user terminal 200 has a communication unit 210, a storage unit 220, and a control unit 230.
  • the user terminal 200 has an input unit (for example, a touch display, etc.) that receives various operations from the user 10 who operates the user terminal 200, and a display unit (for example, a liquid crystal display, etc.) for displaying various information.
  • an input unit for example, a touch display, etc.
  • a display unit for example, a liquid crystal display, etc.
  • the communication unit 210 is implemented by, for example, a NIC, a network interface controller, or the like.
  • the communication unit 210 is connected to the network N by wire or wirelessly, and transmits and receives information to and from the information processing apparatus 100 and the like via the network N.
  • the storage unit 220 is implemented, for example, by a semiconductor memory device such as a RAM or flash memory, or a storage device such as a hard disk or optical disk.
  • the storage unit 220 appropriately stores various types of information such as text input by the user 10 and estimation results received from the information processing apparatus 100 .
  • control unit 230 includes an input unit 231, a reception unit 232, an output unit 233, a display control unit 234, and a transmission unit 235.
  • the input unit 231 inputs text data to the information processing apparatus 100 via the user interface in accordance with an operation by the user 10 .
  • the receiving unit 232 receives the estimation results from the information processing device 100 .
  • the output unit 233 outputs the estimation result received by the receiving unit 232 on the user interface.
  • the display control unit 234 controls to display the estimation result on the user interface, for example, according to control by the information processing device 100 .
  • the transmission unit 235 transmits the feedback to the information processing device 100 when feedback is received from the user 10 .
  • FIG. 15 is a flowchart showing the flow of processing according to the embodiment.
  • the information processing device 100 receives text input from the user 10 (step S101).
  • the information processing apparatus 100 performs preprocessing on the received text (step S102).
  • the information processing apparatus 100 also performs processing related to additional information, such as acquiring additional information related to the accepted text (step S103).
  • the information processing apparatus 100 uses the estimation model 40 having the structure shown in FIG. 4 to resolve the reading ambiguity and estimate the reading of the received text (step S104). Further, the information processing apparatus 100 uses the estimation model 50 having the structure shown in FIG. 6 to estimate the accent of the received text (step S105).
  • the information processing device 100 transmits the estimation result to the user terminal 200 (step S106). After that, the information processing apparatus 100 determines whether or not feedback has been received from the user terminal 200 (step S107). If no feedback has been received (step S107; No), the information processing apparatus 100 waits until it is received.
  • step S107 if feedback has been received (step S107; Yes), the information processing apparatus 100 learns the content of the feedback to further improve the model (step S108).
  • the information processing apparatus 100 estimates the reading and then uses the result to estimate the accent.
  • the information processing apparatus 100 may estimate the accent without estimating the reading.
  • reading estimation may not be essential. Therefore, depending on the processing target, the information processing apparatus 100 may estimate the accent without estimating the reading, or may perform the estimation of the reading and the estimation of the accent in parallel.
  • the processing for estimating the reading and accent as the prosody information by the information processing apparatus 100 has been described, but the processing target is not limited to this.
  • the information processing apparatus 100 is able to estimate, within the same framework, the parts of a sentence where pauses occur during speech (vocal blanks and places to breathe), and the parts to be emphasized in the sentence.
  • the information processing apparatus 100 identifies an element to be emphasized among the elements included in the sentence based on the context of the sentence or the sentences before and after the sentence, as described in the embodiment.
  • the element to be emphasized is, for example, a part or the like that is the answer to the content of the question. That is, if the first part is a question and the sentence to be processed contains an answer, it is natural that the answer word is emphasized in the sentence.
  • the information processing apparatus 100 identifies the word as the answer to the question, and outputs the word in such a way that the part is emphasized and uttered, for example, during speech synthesis.
  • the information processing apparatus 100 emphasizes the specified element and transmits the voice-synthesized data to the user terminal 200 . Thereby, the information processing apparatus 100 can provide the user 10 with more natural voice.
  • the processing shown in the embodiment can be widely applied not only to Japanese but also to other languages. For example, even in English, the present tense "read” and the past tense "read (red)" are pronounced differently. In addition, in Chinese, the ambiguity of the reading is a problem, whether to pronounce ⁇ target'' as ⁇ di (meaning purpose)'' or ⁇ de (meaning of)''.
  • the information processing apparatus 100 can resolve reading ambiguity as described above by using the processing according to the embodiment.
  • the estimation target is referred to as the "reading”, but estimating the reading also means estimating the "word sense (meaning)" as in the above example. That is, the processing according to the embodiment can be applied not only to pronunciation disambiguation, but also to word sense disambiguation.
  • poses and emphasized points can be applied not only to Japanese but also to other languages.
  • Speech synthesis of pauses and emphasized parts is realized by a speech synthesis model that can reflect such information.
  • poses can be subdivided by pose length.
  • there are multiple ways to express the emphasis such as not only raising the volume and pronouncing it strongly, but also taking time to read it slowly, putting pauses before and after it, and reading it in a high voice. .
  • speech synthesis if conversational sentences are to be processed, it is possible to separate models for each speaker.
  • the "reading disambiguation flag vector" can be given from the outside as an input. That is, the information processing apparatus 100 can arbitrarily receive a designation from the user 10 or the like for a word whose reading ambiguity is to be resolved, regardless of the rule base, when specifying a word for which the reading ambiguity is to be resolved. For example, the information processing apparatus 100 may receive a designation from the user 10 by providing a field for designating a word whose reading ambiguity is to be resolved on the user interface.
  • the user terminal 200 provides a user interface, and the information processing device 100 executes information processing on text input through the user interface.
  • the user terminal 200 has the same configuration as the information processing apparatus 100 according to the embodiment, and executes information processing according to the embodiment. In other words, when the user terminal 200 accepts text input from the user 10, the user terminal 200 may perform reading and accent estimation processing and output the results.
  • the user terminal 200 is a smart phone or the like.
  • the user terminal 200 is not limited to a smart phone, and may be a device such as a smart speaker that has a function of recognizing an utterance of the user 10 and giving a predetermined response. In this case, input by the user 10 may be performed by voice input instead of the user interface.
  • the user terminal 200 may be a wearable device such as a watch-type terminal or an eyeglass-type terminal.
  • the user terminal 200 may be realized by various smart devices having information processing functions.
  • the user terminal 200 may be smart home appliances such as televisions, air conditioners, and refrigerators, smart vehicles such as automobiles, drones, home robots, and the like.
  • LSTM LSTM
  • BERT Transformer
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the information processing apparatus preliminarily extracts the feature amount considering the context, and inputs the feature amount into a model that handles series data, thereby estimating the reading.
  • the information processing device can estimate the reading considering not only elements such as words but also the connection between words before and after and the connection between sentences before and after, so that the user can be provided with a natural reading according to the context. can be done.
  • the estimation unit identifies elements whose readings are to be estimated based on predefined rules, and estimates the readings of the identified elements.
  • the estimation unit identifies the element whose reading is to be estimated based on the notation and part of speech of the element as a rule.
  • the information processing device can reliably identify words whose readings tend to be ambiguous by following rules constructed based on notation and parts of speech.
  • the estimation unit estimates a plurality of readings in descending order of correctness probability for the elements whose readings are to be estimated.
  • the information processing device can increase the possibility of presenting the correct reading to the user by estimating multiple readings.
  • the estimation unit estimates the reading using additional information that is information related to elements included in the sentence or elements included in sentences before and after the sentence.
  • the information processing device can improve the estimation accuracy by utilizing external resources such as knowledge bases as additional information in addition to normal language information.
  • the estimating unit estimates the reading by using, as additional information, a phrase corresponding to an element included in the sentence or an element included in sentences before and after the sentence, and the reading or meaning associated with the phrase. .
  • the information processing apparatus can increase the possibility of estimating a reading that is more in line with the context by using the preceding and succeeding sentences as additional information, so that the estimation accuracy can be improved.
  • the estimation unit estimates the reading by using, as additional information, the result of analyzing the intent of the sentence or the sentences before and after the sentence, and the reading or meaning of the words and phrases linked to the result.
  • the information processing apparatus obtains additional information by analyzing the intention of the sentence, and thus can estimate the reading according to the context even when the sentence does not contain words explicitly used as additional information. can be done.
  • the estimation unit estimates the reading for each element included in the sentence, and then estimates the accent for each element included in the sentence.
  • the information processing device estimates the accent of the sentence after estimating the reading.
  • the information processing device can provide the user with a natural accent in line with the context.
  • the preprocessing unit extracts the feature amount for each element whose reading has been estimated, which is output using the first model that outputs the feature amount in consideration of the context before and after the element.
  • the estimation unit inputs the feature amount extracted by the preprocessing unit to a third model that handles series data, thereby estimating the accent of each element included in the sentence.
  • the information processing device can estimate an appropriate accent according to the context by estimating the accent using the feature amount that takes into account the context.
  • the transmission unit transmits the multiple results to the user terminal and controls the user terminal to display the list.
  • the information processing device can present a plurality of reading or accent candidates by displaying a list of estimation results, and can increase the possibility that the user will enjoy an accurate reading or accent.
  • the transmission unit transmits, to the user terminal, data obtained by synthesizing the estimation result for which the user has requested speech synthesis, among the results displayed in a list on the user terminal.
  • the information processing device can provide the user with voice composed of natural utterances by synthesizing the estimated results.
  • the acquisition unit acquires from the user terminal the estimation result estimated by the estimation unit and the result of the user's judgment as to whether or not the basis is correct.
  • the information processing device can learn to perform more natural estimation processing for the user by obtaining feedback in the form of having the user select the result that is preferable to the user from among the estimation results.
  • the acquisition unit acquires from the user terminal the estimation result estimated by the estimation unit and the correction result of the user's modification of the basis.
  • the information processing apparatus can perform re-learning based on more accurate learning data by obtaining as feedback the result of correction by the user as a more favorable result for the user.
  • the information processing device may have the following configuration. That is, the information processing device includes an acquisition unit, a preprocessing unit, and an estimation unit.
  • the acquisition unit acquires text data described as sentences.
  • the preprocessing unit divides the text data acquired by the acquisition unit into elements, and outputs the feature amount for each element using a model that outputs the feature amount in consideration of the context before and after the element. to extract
  • the estimation unit inputs the feature amount extracted by the preprocessing unit to a model that handles series data, thereby estimating the accent of each element included in the sentence.
  • FIG. 16 is a hardware configuration diagram showing an example of a computer 1000 that implements the functions of the information processing apparatus 100.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • CPU 1100 receives data from another device via communication interface 1500, and transmits data generated by CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 also transmits data to an output device such as a display, speaker, or printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium.
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • the CPU 1100 of the computer 1000 implements the functions of the control unit 130 and the like by executing the information processing program loaded on the RAM 1200.
  • the HDD 1400 also stores an information processing program according to the present disclosure and data in the storage unit 120 .
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the present technology can also take the following configuration.
  • an acquisition unit that acquires text data described as sentences;
  • the text data acquired by the acquisition unit is divided into elements, and the feature amount for each element is output using a first model that outputs the feature amount in consideration of the context before and after the element.
  • a preprocessing unit for extraction an estimation unit that estimates the reading of each element included in the text by inputting the feature amount extracted by the preprocessing unit into a second model that handles series data;
  • Information processing device Information processing device.
  • the estimation unit Identifying the element whose reading is to be estimated based on a predefined rule, and estimating the reading of the identified element; The information processing device according to (1) above.
  • the estimation unit Identifying the element whose reading is to be estimated based on the notation and part of speech in the element as the rule; The information processing device according to (2) above.
  • the estimation unit estimating a plurality of readings in descending order of correctness probability for the element whose reading is to be estimated; The information processing apparatus according to (2) or (3).
  • the estimation unit Estimate the reading using additional information that is information related to elements included in the sentence or elements included in sentences before and after the sentence, The information processing apparatus according to any one of (1) to (4) above.
  • the estimation unit As the additional information, the element included in the sentence, or the word corresponding to the element included in the sentence before and after the sentence, and the reading or word meaning associated with the word, Estimate the reading, The information processing device according to (5) above. (7) The estimation unit As the additional information, the result of analyzing the intention in the sentence or the sentences before and after the sentence, and the reading or meaning of the phrase linked to the result, to estimate the reading. The information processing apparatus according to (5) or (6). (8) The estimation unit After estimating the reading of each element included in the sentence, estimating the accent of each element included in the sentence. The information processing apparatus according to any one of (1) to (7) above.
  • the pretreatment unit is Extracting the feature amount for each element whose reading is estimated, which is output using the first model that outputs the feature amount in consideration of the context before and after,
  • the estimation unit estimating the accent of each element included in the sentence by inputting the feature amount extracted by the preprocessing unit into a third model that handles series data;
  • the information processing device according to (8) above.
  • (10) a transmission unit that combines the estimation result estimated by the estimation unit and information that is the basis for outputting the estimation result and transmits the combination to the user terminal;
  • the information processing apparatus according to any one of (1) to (9), further comprising: (11) The transmission unit If there are multiple results estimated by the estimation unit, the multiple results are transmitted to the user terminal and controlled to be displayed in a list on the user terminal; The information processing device according to (10) above. (12) The transmission unit Transmitting, to the user terminal, data obtained by synthesizing the estimation results for which the user has requested speech synthesis, among the results displayed in a list on the user terminal; The information processing device according to (11) above.
  • the estimation unit Based on the context in the sentence or the sentences before and after the sentence, identify the element to be emphasized among the elements included in the sentence, The transmission unit transmitting synthesized speech data emphasizing the identified element to the user terminal; The information processing device according to (12) above.
  • the acquisition unit Obtaining from the user terminal an estimation result estimated by the estimation unit and a result of a user determining whether or not the basis is accurate; The information processing apparatus according to any one of (10) to (13) above.
  • the acquisition unit Acquiring from the user terminal an estimation result estimated by the estimation unit and a correction result of the user correcting the basis; The information processing apparatus according to any one of (10) to (14) above.
  • the computer Get text data written as sentences, Dividing the obtained text data into elements, and extracting the feature amount for each element, which is output using a first model that outputs the feature amount in consideration of the context before and after, estimating the reading of each element included in the sentence by inputting the extracted feature quantity into a second model that handles series data; information processing method, including (17) the computer, an acquisition unit that acquires text data described as sentences; The text data acquired by the acquisition unit is divided into elements, and the feature amount for each element is output using a first model that outputs the feature amount in consideration of the context before and after the element.
  • a preprocessing unit for extraction an estimation unit that estimates the reading of each element included in the text by inputting the feature amount extracted by the preprocessing unit into a second model that handles series data;
  • the computer Get text data written as sentences, Dividing the obtained text data into elements, and extracting the feature amount for each element, which is output using a model that outputs the feature amount in consideration of the context before and after, estimating the accent of each element included in the sentence by inputting the extracted feature quantity into a model that handles series data; information processing method, including (20) the computer, an acquisition unit that acquires text data described as sentences; Before dividing the text data acquired by the acquisition unit into elements and extracting the feature amount for each element, which is output using a model that outputs the feature amount in consideration of the context before and after a processing unit; an estimating unit that estimates the accent of each element included in the sentence by inputting the feature amount extracted by the preprocessing unit into a model that handles series data; Information processing program to function as
  • information processing system 10 user 100 information processing device 110 communication unit 120 storage unit 121 additional information storage unit 122 model storage unit 130 control unit 131 acquisition unit 132 preprocessing unit 133 estimation unit 134 transmission unit 200 user terminal

Abstract

情報処理装置(100)は、文章として記述されたテキストデータを取得する取得部(131)と、前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する前処理部(132)と、前記前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部(133)と、を備える。

Description

情報処理装置、情報処理方法及び情報処理プログラム
 本開示は、言語処理に係る情報処理装置、情報処理方法及び情報処理プログラムに関する。
 技術の発展に伴い、コンピュータ等で言語を適切に取り扱うための自然言語処理の重要性が増している。例えば日本語や中国語など、同音異義語や同形異音語が多く存在する言語では、その読み方やアクセントが正確かつ自然でないと、聞き取りやすさや正確性の観点で問題となる。
 この点に関して、言語変換において複数の読み方の曖昧性を除去する技術が知られている(例えば、特許文献1)。また、読み曖昧性の解消のために、読みと単語の共起を用いた共起スコアを定義して、より高いスコアの読みを出力する技術が知られている(例えば、特許文献2)。また、アクセントや読み方に関して、ユーザが容易に修正可能な発音記号列を生成する技術が知られている(例えば、特許文献3)。また、単語の表記と読みや品詞等の情報に基づいてアクセントの高低を推定するモデルを提供する技術が知られている(例えば、特許文献4)。
特開2015-038731号公報 特開2012-003317号公報 特開2016-122033号公報 特開2021-096327号公報
 従来技術によれば、個々の単語の読み方やアクセントを比較的正確に出力することができる。しかしながら、現実的には、個々の単語のみで何かを表現する機会は少なく、文章の形式で記述されることが比較的多い。文章形式では、個々の単語の読み方やアクセントは、その文脈に合わせて変化する場合がある。
 このため、個々の単語の読み方やアクセントが正確であっても、まとまった量の文章の読み方を機械に推定させたり、音声合成によって機械に発音させたりすると、ユーザに不自然な印象を与えることがある。また、個々の単語の読み方やアクセントは一応正確であることから、ユーザは、これら不自然な読み方や発音について、なぜこのような結果が出力されるのかといった情報処理の根拠を理解しにくく、改善につなげることが難しい。
 そこで、本開示では、文脈に沿った自然な読み方もしくはアクセントを提供することのできる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、文章として記述されたテキストデータを取得する取得部と、前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する前処理部と、前記前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、を備える。
実施形態に係る情報処理の概要を示す図である。 実施形態に係る情報処理を概念的に示すブロック図である。 実施形態に係る読み曖昧性解消処理を説明するための図である。 読み曖昧性解消処理に係るモデルを説明するための図である。 実施形態に係るアクセント推定処理を説明するための図である。 アクセント推定処理に係るモデルを説明するための図である。 実施形態に係るユーザーインターフェイスを説明するための図(1)である。 実施形態に係るユーザーインターフェイスを説明するための図(2)である。 実施形態に係るユーザーインターフェイスを説明するための図(3)である。 実施形態に係るユーザーインターフェイスを説明するための図(4)である。 実施形態に係るユーザーインターフェイスを説明するための図(5)である。 実施形態に係る情報処理装置の構成例を示す図である。 実施形態に係る追加情報記憶部の一例を示す図である。 実施形態に係るユーザ端末の構成例を示す図である。 実施形態に係る処理の流れを示すフローチャートである。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.実施形態
   1-1.実施形態に係る情報処理の概要
   1-2.実施形態に係る情報処理装置の構成
   1-3.実施形態に係るユーザ端末の構成
   1-4.実施形態に係る処理の手順
   1-5.実施形態に係る変形例
  2.その他の実施形態
  3.本開示に係る情報処理装置の効果
  4.ハードウェア構成
(1.実施形態)
(1-1.実施形態に係る情報処理の概要)
 図1を用いて、本開示の実施形態に係る情報処理の一例を説明する。図1は、実施形態に係る情報処理の概要を示す図である。実施形態に係る情報処理は、図1に示す情報処理システム1によって実行される。
 図1に示すように、情報処理システム1は、情報処理装置100と、ユーザ端末200とを含む。情報処理装置100は、本開示に係る情報処理を実行する情報処理装置の一例であり、例えばサーバである。
 ユーザ端末200は、ユーザ10によって利用される情報通信機器であり、例えばスマートフォンやタブレット端末である。なお、以下では、ユーザ10とユーザ端末200とを相互に読み替える場合がある。例えば、「ユーザ10にデータを送信する」とは、実際には、「ユーザ10が利用するユーザ端末200にデータを送信する」ということを意味する場合がある。
 図1における各々の装置は、情報処理システム1における機能を概念的に示すものであり、実施形態によって様々な態様をとりうる。例えば、ユーザ端末200は、1台または2台以上の端末装置であってもよい。また、情報処理装置100とユーザ端末200とは、同一の装置であってもよい。
 図1に示す例において、情報処理装置100は、ユーザから任意のテキストデータを取得し、取得したテキストの読み方やアクセントを推定する処理を実行する。また、情報処理装置100は、推定した読み方やアクセントに沿って機械的に音声を合成し、ユーザ端末200において、その音声を出力するよう制御する。
 ところで、このようなテキストの読み上げを行う音声合成処理では、個々の単語等の読み方やアクセントが正確であったとしても、文章全体としては不自然な読み方やアクセントとなることが多い。これは、文脈によって個々の単語の意味(読み方)が変化したり、その意味の変化に伴ってアクセントが変化したりするからである。そして、従来のルールベースの言語モデルやN-gram言語モデル等では、文脈を考慮しないか、あるいは前後の数単語を考慮するのみであり、文章全体を自然に読み上げることは困難であった。
 また、仮にユーザが出力された発音等を修正できる機会が与えられたとしても、読みやアクセントの位置を指定することは言語や音声の知識を必要とする。また、ユーザによってなされた修正が、異なる文に対して反映されるとは限らない。すなわち、機械的に出力された結果に対して、ユーザが介入することが難しく、ユーザにとって自然な読み方やアクセントの実現に近づけることが困難であった。このように、現状の自然言語処理には、個々の単語等について正確な読み方やアクセントを提供するのみならず、文章全体において、文脈に沿った自然な読み方もしくはアクセントを提供するという課題が存在する。
 そこで、本開示に係る情報処理装置100は、以下に説明する処理によって上記課題を解決する。具体的には、情報処理装置100は、文章として記述されたテキストデータを取得し、テキストデータを形態素等の要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する事前学習済み言語モデルを用いて出力された特徴量を抽出する。さらに、情報処理装置100は、抽出された特徴量を、任意の長さの系列を取り扱うことのできる学習済み読み方推定モデルに入力することで、文章に含まれる要素ごとの読み方を推定する。また、情報処理装置100は、学習済みアクセント推定モデルを用いて、文章に含まれる要素ごとのアクセントを推定する。なお、「文章」とは、文が連なった一連の複数の文を意味することもあるが、本開示では、一文のみで構成されるものも含めて文章と総称する。
 このように、情報処理装置100は、文脈を考慮した要素ごとの特徴量を文章全体について導出し、導出した特徴量を読み方もしくはアクセントの推定モデルに入力することで、読み方もしくはアクセントを推定する。これにより、情報処理装置100は、文脈に沿った適切な読み方もしくはアクセントを推定することができる。かかる処理について、図以下を用いて説明する。
 図1には、実施形態に係る情報処理が実行される際の流れの概要を示す。まず、ユーザ10は、情報処理装置100に処理を実行させたいテキストデータを送信する(ステップS1)。例えば、ユーザ10は、ユーザ端末200の画面上に表示されているユーザインターフェイスにおいて、任意のテキストデータを入力する。図1の例では、ユーザ10は、「昔は北の方に通っていた。」という文章20を入力する。なお、ユーザ10は、文章20の前後に、文章20と接続される他の文章を入力してもよい。すなわち、ユーザ10は、複数の文章を含むテキストデータを入力してもよい。
 情報処理装置100は、ユーザ10から文章20を受信すると、文章20について読み方およびアクセントの推定処理を実行する(ステップS2)。詳細は図2以下を用いて説明するが、情報処理装置100は、文章20に含まれる形態素のうち、読み方が曖昧なものについて、読み曖昧性解消処理を実行する。また、情報処理装置100は、読み方の曖昧性が解消されたのち、文章20全体のアクセントを推定する。
 図1の例では、情報処理装置100は、「昔は北の方に通っていた」という文章20の入力を受け付けると、読み曖昧性解消を実行し、文章20のうち、「方に」や、「通って」という読みが曖昧な形態素の読みを推定する。そして、情報処理装置100は、文章20が、「むかしはきたのほうにかよっていた」という読み方であると推定する。
 さらに、情報処理装置100は、文章20についてアクセント推定処理を行う。かかる処理は、日本語等の読み曖昧性解消処理が重要である言語については、読み曖昧性解消処理のあとに実行される。一方、読み曖昧性解消処理が重要でない言語や、処理を高速化する場合、情報処理装置100は、読み曖昧性解消処理を行わずに、アクセント推定処理を行ってもよい。
 情報処理装置100は、推定したアクセントに基づいて、文章20に対して音声を合成する。そして、情報処理装置100は、推定した読み方およびアクセントをユーザ10に送信する(ステップS3)。具体的には、情報処理装置100は、ユーザ端末200のユーザインターフェイス上に推定した読み方の結果を表示するよう制御する。また、情報処理装置100は、ユーザ端末200のユーザインターフェイスにおいて、推定したアクセントに基づく音声を出力するよう制御する。
 ユーザ10は、推定結果を確認したのち、フィードバックを情報処理装置100に送信する。詳細は後述するが、ユーザ10は、例えば、複数提示された推定結果のうち最も自然である読み方やアクセントの音声を選択し、選択した結果を情報処理装置100に送信する。情報処理装置100は、受信したフィードバックを教師ありデータとしてモデルを再学習することで、さらに推定の精度を高めることができる。
 続いて、図2以下を用いて、図1で示した情報処理の詳細について説明する。図2は、実施形態に係る情報処理を概念的に示すブロック図である。図2は、ユーザ端末200と情報処理装置100との間で送受信されるデータの流れと、データに対して実行されるお各々の処理をブロック図として示している。
 まず、ユーザ端末200は、ユーザ10からテキストデータの入力を受け付ける(ステップS11)。ユーザ10は、ユーザ端末200上でテキストを入力してもよいし、音声による入力等を行ってもよい。また、ユーザ10は、テキストが含まれるファイルをユーザインターフェイス上にアップロードすること等により、テキストデータの入力を行ってもよい。
 テキストデータが入力されると、情報処理装置100は、まず取得したテキストデータを前処理部132で処理する。前処理部132は、ユーザ端末200から取得したテキストデータが複数の文章を含む場合、一文ごとのデータとなるよう、テキストデータを文章単位に分割する(ステップS12)。前処理部132は、句読点などの記号を区切り文字として文章に分割しても良いし、機械学習モデル等を用いて分割してもよい。また、前処理部132は、句読点等が明確でない会話文等を取得した場合、話者単位で文章を分割してもよい。このように、前処理部132は、任意の手法を用いて、取得したテキストデータを文章単位に分割する。
 続いて、前処理部132は、一文単位に分割を行ったテキストデータに対して、それぞれの文章を形態素解析し、文章を形態素に分解する(ステップS13)。言い換えれば、前処理部132は、処理対象となる文章を、構成する要素である複数の単語に分解する。さらに、前処理部132は、形態素解析によって分割された単語について、任意の辞書データに基づいて、各単語に言語的な情報(品詞、発音(読み方)、語彙素、アクセント情報など)を付与する。なお、前処理部132は、この際に、言語的情報が記述されたユーザ独自の辞書を用いてもよい。
 続けて、前処理部132は、各単語の特徴量を抽出する(ステップS14)。例えば、前処理部132は、形態素解析によって得られた、各単語の言語的情報をそのまま特徴量の一つとして取り扱う。さらに、前処理部132は、BERT(Bidirectional Encoder Representations from Transformers)等、大規模な事前学習済み言語モデルから特徴量を抽出し、単語ごとにその特徴量を割り当てることも可能である。
 また、前処理部132は、追加情報記憶部121にアクセスして取得した追加情報を用いて、追加情報処理を行うこともできる(ステップS15)。追加情報とは、文章の読み方およびアクセントを推定する処理において、追加的に利用される情報をいう。
 一例として、「三田」という単語に関する追加情報とは、「みた」という読み方と、それが「東京(関東)の地名」であるという組み合わせからなる情報である。この場合、追加情報記憶部121は、「三田」という単語に関する他の追加情報として、「さんだ」という読み方と、それが「兵庫(関西)の地名」であるという組み合わせからなる情報を記憶していてもよい。このような情報を推定処理に用いることで、例えば、処理対象とする文章が東京に関連するものである場合に、前処理部132は、「三田」という単語が出現すると、その読み方は「みた」であると推定する蓋然性が高まる。
 なお、追加情報とは、上記のような一般的知識情報のみならず、後述するような、文章固有の知識に関するものであってもよい。また、追加情報記憶部121は、必ずしも情報処理装置100が保持するものでなく、複数のウェブサーバやクラウドサーバが保持していてもよい。この場合、前処理部132は、処理に用いる際に、関連する追加情報を各々のデータベースから適宜取得してもよい。
 上記の例では、追加情報は、(三田、みた、located、東京)という4つのデータが組み合わされた構造となる。この場合、追加情報処理では、「東京」という単語を含む文中では、「三田」の読みを「みた」と推定するという、ルールベースでの処理をすることができる。
 また、他の例として、追加情報がノードとエッジからなるグラフ形式で格納されていれば、追加情報処理では、グラフ埋め込みの手法を用いてグラフをベクトルに変換し、読みやアクセントを推定する機械学習モデルへの追加入力とすることもできる。
 以上が、ユーザ端末200から入力が行われた際に処理を実行する前処理部の動作である。前処理部で文章が処理されると、情報処理は、推定部133での処理に移行する。
 すなわち、推定部133は、文脈情報に基づいて、読み方およびアクセントを推定する処理系である。具体的には、推定部133は、処理対象とする1文章ごとに、前処理部で生成された単語単位の情報を推定モデルに渡し、読み曖昧性解消処理を実行する(ステップS12)。また、推定部133は、読み曖昧性解消処理によって推定された読み方に基づいて、文章全体のアクセントを推定する(ステップS17)。この際、推定部133は、形態素解析の結果として得られた特徴量と、BERTなどの事前学習済み言語モデルから得られた特徴量を併用することで、文脈を考慮した推定処理を行うことができる。
 なお、推定部133は、推定モデルへの入力を一文に限る必要はない。例えば、推定部133は、追加情報として、前後の文や文全体のトピック、文章のうちどの部分を注視するかの情報、注視したものに関する外部の情報などを処理に利用してもよい。前後の文や文全体のトピックとは、例えば、ニュース記事であればスポーツや芸能、政治や経済等の各種トピックに含まれる用語等である。また、文全体のどの部分を注視するかの情報とは、例えば、ある特定の地名や指示語が指す先などを意味する。また、注視したものに関する外部の情報とは、例えば、注視された固有名詞で示される登場人物のプロフィール等である。
 一例として、「私は兵庫に住んでいた。高校は三田の方に通っていた。」といった2文章について読み方を推定する場合、文章ごとに処理を行うと、「三田」の読み方に曖昧性が生ずる。しかしながら、推定部133は、「三田」という単語を処理する際に直前の文章(「私は兵庫に住んでいた」)を考慮することで、「三田」という単語の読み方は「さんだ」の可能性が高い、と推定することが可能となる。
 上記の例では、推定部133は、「三田」が登場する直前の文章全体ではなく、「兵庫」という単語を注視することで、「さんだ」を推定することも可能である。また、他の例として、「Aさんは三田出身だ。」といった文章を処理する際に、推定部133は、「Aさん:関西出身」であるというプロフィールを追加情報として利用することで、「三田」を「さんだ」と推定してもよい。追加情報は、上記の例のように(A、出身地、関西)といった組み合わせ構造の情報として保持されていてもよいし、自然文の形式で保持されていてもよい。
 推定部133によって読み方およびアクセントが推定されると、情報処理装置100は、推定結果をユーザ端末200に送信する。
 ユーザ端末200は、受信した推定結果をユーザインターフェイス上に出力する(ステップS18)。また、ユーザ端末200は、推定された読み方およびアクセントに基づき、テキストデータを音声合成し、出力する(ステップS19)。ユーザ10は、必要に応じて、推定結果に関するフィードバックを情報処理装置100に送信する(ステップS20)。
 推定部133の処理について、図3以下を用いて詳細に説明する。図3は、実施形態に係る読み曖昧性解消処理を説明するための図である。
 図2で説明した読み曖昧性解消処理(ステップS16)は、単語特定処理(ステップS21)および読み曖昧性解消処理(ステップS23)を含む。また、読み曖昧性解消処理は、読み方に関する事前学習として、読み曖昧性解消学習処理(ステップS22)を含む。すなわち、推定部133は、事前学習として、読み方とテキストが組み合わされた教師ありデータである読み付きテキストデータ35を用いて、読み曖昧性を解消するためのモデルを事前学習しておく。なお、かかる学習は情報処理装置100が実行するのではなく、外部装置において学習を済ませてもよい。この場合、情報処理装置100は、処理に要する学習済みモデルを適宜取得する。
 単語特定処理では、前段の特徴量抽出処理(ステップS14)において抽出された特徴量を用いて、予めルールによって、読み曖昧性解消を行うべき単語を特定する。
 図3に示す例文は、「昔は北の方に通っていた」という文章を、「昔」「は」「北」「の」「方」「に」「通っ」「て」「い」「た」という形態素に解析した結果を示す。例えば、推定部133は、「表記が『方』かつ品詞が名詞」といった、予め定められたルールに従い、形態素のうち、読み曖昧性を解消する単語を特定する。なお、ルールには、表記、品詞、その他の言語情報、または前後の単語の情報など任意の情報が含まれてもよい。
 図3の例では、推定部133は、ルールに従い、「方」と、「通っ」と、を読み曖昧性処理で解消する単語として特定したものとする。なお、後述するように、推定部133は、必ずしも読み曖昧性を解消する単語を特定することを要さず、全ての単語を処理対象としてもよい。
 読み曖昧性解消処理では、ステップS21において特定された単語の読みの曖昧性を解消し、テキスト中の前後の単語の情報を用いて正しい読みを推定する。図3の例では、推定部133は、「昔は北の方に通っていた」という文章に対し、「方」と「通っ」の読みがそれぞれ「ほう」「かよっ」であると推定する。その後、情報処理は、アクセント推定処理(ステップS17)に移行する。
 読み曖昧性解消処理について、図4を用いて詳細に説明する。図4は、読み曖昧性解消処理に係るモデルを説明するための図である。
 図4は、読み方曖昧性解消処理を実行する推定モデル40の構成を示すものである。図4に示すように、推定モデル40は、一文の各要素について、読み曖昧性解消フラグベクトルとして表される特徴量41と、品詞埋め込みベクトルとして表される特徴量42と、BERT埋め込みベクトルとして表される特徴量43とを、系列を扱うことのできるLSTM(Long Short-Term Memory)モデル44に入力するという構造を有する。
 読み曖昧性解消フラグベクトルとは、読み曖昧性を解消する単語とそれ以外の単語を区別するための、2通りの値を取るベクトルである。例えば、読み曖昧性解消フラグベクトルが「1」である単語は、前段の単語特定処理によって特定された単語である。また、読み曖昧性解消フラグベクトルが「0」である単語は、前段の単語特定処理によって特定されなかった単語である。
 品詞埋め込みベクトルとは、各単語の品詞をベクトル(特徴量)に変換したものである。品詞埋め込みベクトルでは、品詞に限らず、発音などの他の言語情報が用いられてもよい。
 BERT埋め込みベクトルは、各単語を文章における前後の単語に依存したベクトル(特徴量)に変換したものである。なお、変換に用いるモデルはBERTに限らず、任意の事前学習済み言語モデルであってもよい。
 推定部133は、上記3つのベクトルを単語ごとに結合したものをLSTMモデル44への入力とし、単語特定処理において特定された単語の正しい読みを推定する。なお、推定に用いられるモデルは、LSTMモデル44に限らず、系列を入出力とする任意の機械学習モデルであってもよい。系列を扱うモデルによれば、任意の長さの系列を処理対象として扱えるため、遠い過去の単語も参照して読み推定が可能である。特に双方向LSTMモデルを用いることで、過去だけでなく未来の単語も参照することができる。
 なお、推定部133は、読み方として、一つの読み方のみを出力するのではなく、可能性の高い上位n件(nは自然数)の読み方を出力してもよい。
 また、図3での図示は省略しているが、推定部133は、適宜、読み方推定の根拠となりうる追加情報を取得し、処理に利用してもよい。
 また、推定部133によって推定された読み方およびテキストデータは、新たな学習データである読み付きテキストデータ35として保持され、上述の読み曖昧性解消処理のための機械学習に利用されてもよい。
 続いて、図5を用いて、アクセント推定処理について説明する。図5は、実施形態に係るアクセント推定処理を説明するための図である。
 図5に示すように、推定部133は、読み方曖昧性が解消されたテキストを取得するとともに、追加情報記憶部121から追加情報を取得し、取得したテキストのアクセント推定処理を行う(ステップS17)。推定部133は、推定したアクセントの結果として、韻律情報記号列(テキストのいずれの位置にアクセント核等が置かれるかを示す情報)と、そのアクセントに推定した根拠となる情報とを出力する。
 アクセント推定に係るモデルの構成について、図6を用いて詳細に説明する。図6は、アクセント推定処理に係るモデルを説明するための図である。図5に示すように、推定モデル50は、一文の各要素について、追加情報埋め込みベクトルとして表される特徴量521と、言語特徴量埋め込みベクトルとして表される特徴量522と、BERT埋め込みベクトルとして表される特徴量523とをBiLSTMモデルに入力する構造を有する。また、推定モデル50は、BiLSTMモデルから出力された結果を、さらにCRF(Conditional Random Field)530およびCRF531を通すことで、アクセント句およびアクセント核の推定結果を出力する構造を有する。なお、CRF530およびCRF531は、条件付き確率場という識別モデルであり、本開示では、アクセント句およびアクセント核の推定結果(認識結果)を出力するよう機能する。なお、推定モデル50のうち、Linearやconcatは、出力された数値を整えるための関数を示す。
 アクセント推定処理では、読み曖昧性が解消された形態素列および発音列に対して、アクセント句の区切り位置とアクセント核位置を推定する。処理に用いる特徴量は、単語毎の言語的な情報(品詞、発音、語彙素、アクセント情報等)や、アクセント核の推定に対してはアクセント句の区切りの情報やルールによるアクセント核位置の変更(高低のルール等)である。
 一般に、アクセント句やアクセント核は、単語単体のアクセントや簡単なルールだけでは網羅しきれないという問題がある。具体的には、各単語が連なることにより、それぞれの単語のアクセント核が変更されることがある。一例として、「内閣官房長官」という単語は、「内閣」「官房」「長官」といった3つの形態素から構成される。この場合、アクセント句としては、「内閣/官房長官」のように、「内閣」と「官房長官」との間で切れることを推定しなくてはならないが、実際には、「内閣」と「官房」、「官房」と「長官」の、いずれも名詞の連続部分になっており、単純なルールで推定することはできない。なお、「/」は、アクセント句の区切り位置を示す。
 さらに、「内閣/官房長官」と区切れた際に、元の単語のアクセント核を考慮すると、「な’いかく/かんぼーちょーかん」となるが、正しくは「な’いかく/かんぼーちょ’ーかん」が正しい。なお、「’」はアクセント核位置を示す。
 このように、各単語のみのアクセントと、文章全体のアクセントは異なることが多い。このため、推定部133は、図6に示すような、文章全体の連なりを系として推定処理を行うことで、文章全体について自然な表現となるアクセントを推定する。
 具体的には、推定部133は、図6に示すように、「昔は北の方に通っていた」という例文において、「昔は/北の方に/通っていた」という、自然に区切られたアクセント句を出力する。また、推定部133は、「昔は北の方に通っていた」という例文において、「むかしは/きたのほ’ーに/かよっていた」という、自然な高低を示すアクセント核を出力する。
 なお、図6に示した処理において、推定部133は、アクセント核の推定の入力として、アクセント句で区切った形態素列を入力しても良い。また、推定部133は、アクセント句およびアクセント核の推定について、別々のモデルで行ってもよいし、まとめて扱ってもよい。
 また、推定部133は、推定した結果として、確率が最も高いものを1つだけ出力してもよいし、確率が高い上位n件を出力してもよい。この際に、推定部133は、アクセント句の推定は最も確率の高いものとし、アクセント核は確率が高い条件でn件を組み合わせて出力したり、アクセント句およびアクセント核の組み合わせを考慮した上位n件を出力したりするなど、様々な態様で結果を出力してもよい。
 また、推定部133は、推定結果とともに、その推定の根拠となった情報を出力する。例えば、推定部133は、根拠として、追加情報として利用した情報を参照するような形式で出力してもよいし、文内のどの単語や範囲が推定に寄与したか、を示す形式で出力してもよい。
 続いて、図7乃至図11を用いて、テキストデータが入力される際や、推定結果が出力される際に利用されるユーザインターフェイスについて説明する。図7は、実施形態に係るユーザーインターフェイスを説明するための図(1)である。
 図7に示すユーザインターフェイス51は、ユーザ10がテキストデータの入力を実行する際に利用されるユーザ端末200の画面表示例を示す。ユーザインターフェイス51は、追加情報欄52と、対象文入力欄53と、出力数指定欄54と、推定実行ボタン56を含む。
 追加情報欄52は、ユーザ10が追加情報としてテキストを入力する欄を示す。追加情報欄52に入力されるテキストは、例えば、対象文の前後の文章等である。なお、追加情報は、ユーザ10が指定するのではなく、追加情報記憶部121に記憶された追加情報が適宜利用されてもよい。
 対象文入力欄53は、処理対象とするテキストを入力する欄である。出力数指定欄54は、推定結果として出力する数を指定する欄である。推定実行ボタン56は、推定処理を実行させたい場合にユーザ10が押下するボタンである。
 ユーザ10が推定実行ボタン56を押下すると、ユーザインターフェイス51は、表示を図8に遷移する。図8は、実施形態に係るユーザーインターフェイスを説明するための図(2)である。
 ユーザインターフェイス60は、ユーザインターフェイス51に表示されていた情報に加え、推定結果の表示をさらに含む。具体的には、ユーザインターフェイス60は、出力結果61と、根拠62と、根拠数指定欄63と、音声合成開始ボタン64を含む。ユーザインターフェイス60を参照することで、ユーザ10は、推定結果を確認することができる。
 出力結果61は、対象文における読み方およびアクセントの推定結果を示す。例えば、ユーザ10が出力数指定欄54において「3」を指定した場合、出力結果61には、上位3つの推定結果が示される。
 根拠62には、推定結果の根拠が示される。例えば、根拠62には、読みが曖昧であると特定された単語について、その推定結果の根拠となった情報(推定結果における読み方およびアクセントに対して、どの部分が寄与したか)が示される。図8に示す例では、1番目の推定結果において、「三田」を「さんだ」と読む根拠となった情報が「兵庫」であることが示されている。ユーザ10は、根拠数指定欄63の数値を変更することで、3つ提示された推定結果のうち、どの推定結果を表示させるかを選択できる。
 ユーザ10は、音声合成開始ボタン64を押下することで、推定結果を音声としてユーザ端末200に発話させることができる。ユーザ10が音声合成開始ボタン64を押下すると、ユーザインターフェイス60は、表示を図9に遷移する。図9は、実施形態に係るユーザーインターフェイスを説明するための図(3)である。
 ユーザインターフェイス70は、ユーザインターフェイス60に表示されていた情報に加え、音声アイコン71と、音声アイコン72と、音声アイコン73と、ボックス74とを含む。
 ユーザ10が音声アイコン71、音声アイコン72、もしくは音声アイコン73に対応するボックスを選択すると、ユーザ端末200は、音声アイコン71、音声アイコン72、もしくは音声アイコン73に対応する推定結果を音声合成し、発話する。図9の例では、ユーザ10が音声アイコン71に対応するボックス74にチェックしているので、ユーザ端末200は、音声アイコン71に対応する推定結果である「こーこーは/さ’んだの/ほ’ーに/かよっていた。」というテキストを音声合成した結果を発話する。なお、ユーザ端末200は、読み方やアクセントが反映できるものであれば、いずれの音声合成器を利用して音声合成を行ってもよい。例えば、ユーザ端末200は、Tacotron2とWavenetを組み合わせた深層学習ベースの手法でもよいし、HMM(Hidden Markov Model)を利用して音声合成を行ってもよい。
 また、ユーザ端末200は、図8までの情報に加え、ユーザ10からフィードバックを受け付けるための表示を行ってもよい。フィードバックに関して、図10を用いて説明する。図10は、実施形態に係るユーザーインターフェイスを説明するための図(4)である。
 ユーザインターフェイス80は、ユーザインターフェイス70に表示されていた情報に加え、判定ボックス81と判定ボックス82を含む。
 判定ボックス81と判定ボックス82は、読み方の根拠が正確であるか否かをユーザ10が判定した結果を入力するためのボックスである。ユーザ10は、図10の例では、「三田」を「さんだ」と推定した読み方の根拠として、「兵庫」が適切であれば、判定ボックス81に「〇」を入力する。一方、ユーザ10は、「三田」を「さんだ」と推定した読み方の根拠として「兵庫」が適切でない場合、判定ボックス81に「×」を入力する。
 また、ユーザ10は、「通って」を「かよって」と推定した読み方の根拠として、「高校は」が適切であれば、判定ボックス82に「〇」を入力する。一方、ユーザ10は、「通って」を「かよって」と推定した読み方の根拠として、「高校は」が適切でない場合、判定ボックス82に「×」を入力する。かかる結果は、ユーザ端末200から情報処理装置100に送信され、読み方の学習に利用される。
 また、他の例として、ユーザ10が修正例を情報処理装置100に送信することもできる。この点について、図11を用いて説明する。図11は、実施形態に係るユーザーインターフェイスを説明するための図(5)である。
 ユーザインターフェイス85は、ユーザインターフェイス80に表示されていた情報に代えて、修正欄86を含む。
 例えば、図10において判定ボックス82に「×」が入力された場合、ユーザ端末200は、ユーザインターフェイス85において修正欄86を表示し、ユーザ10からの入力を待つ。ユーザ10は、「通って」を「かよって」と推定した読み方の根拠として「高校は」ではなく、「方に」を根拠とするのが適切であると考える場合、「方に」を指定した内容を修正欄86に入力する。かかる結果は、ユーザ端末200から情報処理装置100に送信され、読み方の学習に利用される。
 なお、図10および図11では、ユーザ10が根拠に関してフィードバックを実行する例を示したが、フィードバックは、推定結果に対して実行されてもよい。例えば、ユーザ10は、3つ提示された推定結果のうち、最も適切と考える推定結果を選択したり、最も不適切と考える推定結果を選択し、その結果を情報処理装置100に送信してもよい。例えば、ユーザ10は、推定結果として示された3つの候補の読み方およびアクセント系列を音声合成器で音声化し、それらを聴き比べ、最も好ましいと思える自然なものを選択する。これにより、ユーザ10にとって自然な音声が再生されるとともに、情報処理装置100は、フィードバック結果を学習データとして再学習することで、より精度の高いモデルを構築することができる。
 なお、ユーザ10は、推定結果の良し悪しといった2値情報のみならず、自ら読み方やアクセント句およびアクセント核を編集し、その結果をフィードバックとして送信してもよい。また、ユーザ10は、根拠が示されていない読み方に対して根拠を新たに追加するなど、多様な情報をフィードバックとして送信することができる。
(1-2.実施形態に係る情報処理装置の構成)
 次に、情報処理装置100の構成について説明する。図12は、実施形態に係る情報処理装置100の構成例を示す図である。
 図12に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100を管理する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
 通信部110は、例えば、NIC(Network Interface Card)やネットワークインタフェイスコントローラ(Network Interface Controller)等によって実現される。通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末200等と情報の送受信を行う。ネットワークNは、例えば、Bluetooth(登録商標)、インターネット、Wi-Fi(登録商標)、UWB(Ultra Wide Band)、LPWA(Low Power Wide Area)、ELTRES(登録商標)等の無線通信規格もしくは方式で実現される。
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、追加情報記憶部121と、モデル記憶部122とを有する。以下、各記憶部について順に説明する。
 図13は、実施形態に係る追加情報記憶部121の一例を示す図である。図13に示すように、追加情報記憶部121は、情報処理に用いられる追加情報を記憶する。図13に示す例では、追加情報記憶部121は、「追加情報ID」、「構造」といった項目を有する。「追加情報ID」は、追加情報を識別するための識別情報である。「構造」は、追加情報が保持されている構造を示す。図13の例では、追加情報記憶部121は、(テキスト、読み方、属性、名称)という構造のもと、(三田、みた、located、東京)といった情報や、(三田、さんだ、located、兵庫)といった追加情報を記憶している。
 モデル記憶部122は、特徴量を抽出したり、読み方およびアクセントを推定したりするために利用されるモデルを記憶する。なお、モデル記憶部122には、図3に示した読み付きテキストデータ35など、各種学習データが記憶されてもよい。
 図12に戻って説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 図12に示すように、制御部130は、取得部131と、前処理部132と、推定部133と、送信部134とを含む。
 取得部131は、ユーザ10による入力に基づき、文章として記述されたテキストデータを取得する。また、取得部131は、必要に応じて、ユーザ端末200や外部装置から追加情報を取得してもよい。
 また、取得部131は、ユーザ10からのフィードバックとして、推定結果および根拠が正確か否かをユーザが判定した結果をユーザ端末200から取得する。例えば、取得部131は、ユーザインターフェイスを介して、推定結果および根拠が正確か否かを示した2値データをユーザ端末200から取得する。
 なお、取得部131は、推定結果および根拠に対してユーザ10が修正した修正結果をユーザ端末200から取得してもよい。すなわち、取得部131は、ユーザ10が修正した読み方やアクセント句、アクセント核等の情報を取得する。また、取得部131は、ユーザ10が修正した根拠となる単語や、2以上の単語を含む文中の範囲に関する情報を取得してもよい。
 前処理部132は、取得部131によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する。第1のモデルとは、例えばBERTのような、文脈を考慮した特徴量を出力可能な事前学習済み言語モデルである。また、前処理部132は、図3および図4で示したように、形態素解析して得られた各単語ごとの特徴量を、各種のベクトル形式で抽出する。後段の推定処理では、かかる特徴量を入力とすることで、文脈を考慮した推定を実行することが可能となる。
 また、前処理部132は、アクセントを推定する際には、読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出してもよい。すなわち、前処理部132は、図5および図6で示したように、読み方が推定された各単語ごとの特徴量を、各種のベクトル形式で抽出する。この場合の第1のモデルとは、上記と同様BERTのような事前学習済み言語モデルが想定されるが、読み方推定とアクセント推定との特徴量抽出においてはそれぞれ異なるモデルが用いられてもよい。
 推定部133は、前処理部132によって抽出された特徴量を系列データを取り扱う第2のモデルに入力することで、文章に含まれる要素ごとの読み方を推定する。第2のモデルとは、例えばLSTMモデル44のような、系列データを取り扱うことのできる学習済みモデルである。
 このとき、推定部133は、予め規定されたルールに基づき、読み方を推定する対象となる要素を特定し、特定した要素について読み方を推定する。特定した結果は、例えば、読み曖昧性解消フラグベクトルにおける2値データとなり、特徴量の一つとして扱われる。
 具体的には、推定部133は、ルールとして、要素における表記および品詞に基づいて、読み方を推定する対象となる要素を特定する。このように、推定部133は、一般に読み方が曖昧となりそうな単語をルールベースで保持することで、読みの曖昧性を解消すべき単語を正確に特定することができる。
 また、推定部133は、読み方を推定する対象となる要素について、正解可能性の高い順に複数の読み方を推定してもよい。これにより、推定部133は、ユーザ10にいくつかの読みの可能性があることを示唆できる。
 また、推定部133は、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、読み方を推定してもよい。
 すなわち、推定部133は、追加情報として、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に該当する語句と、語句に紐づけられた読みもしくは語義を用いて、読み方を推定する。例えば、推定部133は、ある単語の読み方と地名とに関連性があることを示す情報等を追加情報として保持し、かかる情報を推定に利用することで、より正確な推定を行うことができる。
 また、推定部133は、追加情報として、文章、もしくは、当該文章の前後の文章における意図を解析した結果と、結果に紐づけられた語句の読みもしくは語義を用いて、読み方を推定してもよい。例えば、推定部133は、図7に示したように、処理対象とする文章の前段もしくは後段となる文章等を追加情報として利用する。具体的には、推定部133は、一文を学習済みモデルに入力して当該文に含まれる意図を解析し、その意図に含まれる内容や語句等を追加情報として利用する。例えば、推定部133は、文中に「東京」と明示されていない文章であっても、文の内容を解析することにより、その文が示す内容が東京に関することであると判定できれば、「東京」に関連する追加情報を処理に利用することができる。「東京」に関連する情報とは、例えば、追加情報記憶部121に記憶されている、東京と読み方とが組み合わされた情報である。これにより、推定部133は、複数の文を含む文章全体において、自然な読み方となる推定処理を行うことができる。
 また、推定部133は、文章に含まれる要素ごとの読み方を推定したのちに、文章に含まれる要素ごとのアクセントを推定する。具体的には、推定部133は、前処理部132によって抽出された特徴量を系列データを取り扱う第3のモデルに入力することで、文章に含まれる要素ごとのアクセントを推定する。第3のモデルとは、例えば、図6に示した推定モデル50のような構造を有するモデルである。
 例えば、推定部133は、文章におけるアクセント句やアクセント核を特定することで、ユーザ10が視聴した際に、より自然に聞こえるような韻律情報を文章に付与する。
 送信部134は、各種情報を送信する。例えば、送信部134は、推定部133によって推定された推定結果と、推定結果を出力した根拠となった情報とを組み合わせてユーザ端末200に送信する。
 また、送信部134は、推定部133によって推定された結果が複数ある場合、複数の結果をユーザ端末200に送信し、ユーザ端末200において一覧表示させるよう制御する。すなわち、送信部134は、図8に示したように、ユーザ10の指定した数の推定結果をユーザ端末200に送信し、ユーザ端末200において一覧表示させる。これにより、ユーザ10は、推定結果を一目で把握することができる。
 また、送信部134は、ユーザ端末200において一覧表示させた結果のうち、ユーザ10が音声合成を要求した推定結果について、推定結果を音声合成したデータをユーザ端末200に送信する。例えば、送信部134は、図9で示したように、推定結果をユーザ10が選択した場合に、選択された推定結果に対応する音声をユーザ端末200に送信する。なお、音声合成自体は、ユーザ端末200によって行われてもよい。また、送信部134は、推定結果が複数ある場合、それらを順番に音声合成し、すべての音声を順にユーザ端末200で出力させてもよい。
(1-3.実施形態に係るユーザ端末の構成)
 次に、ユーザ端末200の構成について説明する。図14は、実施形態に係るユーザ端末200の構成例を示す図である。
 図14に示すように、ユーザ端末200は、通信部210と、記憶部220と、制御部230とを有する。なお、ユーザ端末200は、ユーザ端末200を操作するユーザ10等から各種操作を受け付ける入力部(例えば、タッチディスプレイ等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
 通信部210は、例えば、NICやネットワークインタフェイスコントローラ等によって実現される。通信部210は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置100等と情報の送受信を行う。
 記憶部220は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部220は、ユーザ10から入力されたテキストや、情報処理装置100から受信した推定結果など、適宜、各種情報を記憶する。
 制御部230は、例えば、CPUやMPU、GPU等によって、ユーザ端末200内部に記憶されたプログラムがRAM等を作業領域として実行されることにより実現される。また、制御部230は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
 図14に示すように、制御部230は、入力部231と、受信部232と、出力部233と、表示制御部234と、送信部235とを含む。
 入力部231は、ユーザ10からの操作に従い、テキストデータをユーザインターフェイスを介して、情報処理装置100に入力する。
 受信部232は、情報処理装置100による推定結果を受信する。出力部233は、受信部232によって受信された推定結果をユーザインターフェイス上に出力する。
 表示制御部234は、例えば情報処理装置100による制御に従い、推定結果をユーザインターフェイス上に表示するよう制御する。
 送信部235は、ユーザ10からフィードバックを受け付けた場合に、フィードバックを情報処理装置100に送信する。
(1-4.実施形態に係る処理の手順)
 次に、図15を用いて、実施形態に係る処理の手順について説明する。図15は、実施形態に係る処理の流れを示すフローチャートある。
 図15に示すように、情報処理装置100は、ユーザ10からテキスト入力を受け付ける(ステップS101)。情報処理装置100は、受け付けたテキストに前処理を実行する(ステップS102)。また、情報処理装置100は、受け付けたテキストに関する追加情報を取得するなど、追加情報に関する処理を行う(ステップS103)。
 その後、情報処理装置100は、図4で示した構造からなる推定モデル40を利用し、読み曖昧性を解消し、受け付けたテキストの読みを推定する(ステップS104)。さらに、情報処理装置100は、図6で示した構造からなる推定モデル50を利用し、受け付けたテキストのアクセントを推定する(ステップS105)。
 そして、情報処理装置100は、推定結果をユーザ端末200に送信する(ステップS106)。その後、情報処理装置100は、ユーザ端末200からフィードバックを受信したか否かを判定する(ステップS107)。フィードバックを受信していない場合(ステップS107;No)、情報処理装置100は、受信するまで待機する。
 一方、フィードバックを受信した場合(ステップS107;Yes)、情報処理装置100は、フィードバックされた内容を学習し、さらなるモデルの向上を図る(ステップS108)。
(1-5.実施形態に係る変形例)
 上記で説明した実施形態に係る情報処理は、様々な変形を伴ってもよい。以下に、実施形態の変形例について説明する。
 上記実施形態では、情報処理装置100が、読み方を推定したのちに、その結果を用いてアクセントを推定する処理を例示した。しかし、情報処理装置100は、読み方を推定せずに、アクセントを推定してもよい。例えば、言語によっては、読み方の推定が必須でない場合もある。このため、情報処理装置100は、処理対象によっては、読み方の推定を行わずにアクセントを推定したり、あるいは、読み方の推定とアクセントの推定とを並行して行ったりしてもよい。
 また、実施形態では、情報処理装置100が韻律情報として読み方およびアクセントを推定する処理を説明したが、処理対象はこの限りではない。例えば、情報処理装置100は、文章における発話時のポーズ(音声的な空白や息継ぎ場所)の箇所の推定や、文中における強調箇所などの推定も同じ枠組みで行うことが可能である。
 すなわち、情報処理装置100は、実施形態で説明したように、文章における文脈、もしくは、文章の前後の文章に基づいて、文章に含まれる各要素のうち強調される要素を特定する。強調される要素とは、例えば、質問された内容に対して答えとなる箇所等である。すなわち、前段が質問であり、処理対象とする文章に答えが含まれている場合、その文章では答えの単語が強調されて発話されることが自然である。情報処理装置100は、かかる場合、当該単語を質問の答えとして特定するとともに、例えば音声合成の際に、当該箇所が強調されて発話されるような出力を行う。具体的には、情報処理装置100は、特定された要素を強調して音声合成されたデータをユーザ端末200に送信する。これにより、情報処理装置100は、より自然な音声をユーザ10に提供することができる。
 なお、実施形態で示した処理は、日本語のみならず、他言語に広く適用できる。例えば、英語であっても、現在形の「read」と、過去形の「read(red)」では発音が異なる。また、中国語にも、「的」を「di(purposeの意))と発音するか、「de(ofの意)」で発音するか、読み曖昧性が問題となる。情報処理装置100は、上記のような読み曖昧性についても、実施形態に係る処理を用いることで、解消が可能である。なお、実施形態に係る処理では、推定対象を「読み方」と称したが、読み方を推定するとは、上記の例のように「語義(意味)」を推定することでもある。すなわち、実施形態に係る処理は、読み方曖昧性解消のみならず、語義曖昧性解消にも適用可能である。
 また、上記のポーズや強調箇所については、日本語のみならず、他の言語にも応用可能である。ポーズや強調箇所の音声合成は、それらの情報を反映可能な音声合成モデルによって実現される。例えば、ポーズは、ポーズの長さによって細分化することも可能である。また、強調箇所については、音量を上げて強く発音するのみならず、時間をかけてゆっくり読んだり、前後にポーズを置いたり、声を高くして読んだりするなど、複数通りの表現が考えられる。また、音声合成について、会話文が処理対象であれば、話者毎にモデルを分けることも可能である。
 また、上記の読み曖昧性解消処理において、「読み曖昧性解消フラグベクトル」は、入力として外部から与えることも可能である。すなわち、情報処理装置100は、読み曖昧性を解消させる単語を特定する際、ルールベースによらず、読み曖昧性を解消したい単語についてユーザ10等から任意に指定を受けることができる。例えば、情報処理装置100は、ユーザインターフェイス上に、読み曖昧性を解消したい単語を指定する欄を設けるなどして、ユーザ10から指定を受け付けてもよい。
(2.その他の実施形態)
 上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
 上記実施形態では、ユーザ端末200がユーザインターフェイスを提供し、情報処理装置100がユーザインターフェイスで入力されたテキストに対して情報処理を実行する例を示した。しかし、両者は一体であってもよい。この場合、ユーザ端末200は、実施形態に係る情報処理装置100と同様の構成を有し、実施形態に係る情報処理を実行する。すなわち、ユーザ端末200は、ユーザ10からテキストの入力を受け付けると、自装置において、読み方およびアクセントの推定処理を行い、結果を出力してもよい。
 また、上記各実施形態では、ユーザ端末200がスマートフォン等である例を示した。しかし、ユーザ端末200は、スマートフォンに限らず、スマートスピーカー(smart speaker)など、ユーザ10の発話を認識したり、所定の応答をおこなったりする機能を有するデバイスであってもよい。この場合、ユーザ10による入力は、ユーザインターフェイスではなく、音声入力により行われてもよい。また、ユーザ端末200は、時計型端末や眼鏡型端末などのウェアラブルデバイス(wearable device)であってもよい。また、ユーザ端末200は、情報処理機能を有する種々のスマート機器により実現されてもよい。例えば、ユーザ端末200は、テレビやエアコン、冷蔵庫等のスマート家電や、自動車などのスマートビークル(Smart vehicle)や、ドローン(drone)、家庭用ロボット等であってもよい。
 また、上記各実施形態では、自然言語モデルをLSTM(RNN)やBERT(Transformer)等の手法で学習して作成する例を示したが、学習手法はこれに限られず、種々の既知の手法が用いられてもよい。
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(3.本開示に係る情報処理装置の効果)
 上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100)は、取得部(実施形態では取得部131)と、前処理部(実施形態では前処理部132)と、推定部(実施形態では推定部133)と、を備える。取得部は、文章として記述されたテキストデータを取得する。前処理部は、取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデル(実施形態ではBERT等の大規模な事前学習済み言語モデル)を用いて出力された特徴量を抽出する。推定部は、前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデル(実施形態ではLSTMモデル44等の系列データを取り扱うモデル)に入力することで、文章に含まれる要素ごとの読み方を推定する。
 このように、本開示に係る情報処理装置は、文脈を考慮した特徴量を予め抽出し、その特徴量を系列データを扱うモデルに入力することによって、読み方の推定を行う。これにより、情報処理装置は、単語等の要素だけでなく、前後の単語のつながりや前後の文章のつながりも考慮された読み方を推定できるので、文脈に沿った自然な読み方をユーザに提供することができる。
 また、推定部は、予め規定されたルールに基づき、読み方を推定する対象となる要素を特定し、特定した要素について読み方を推定する。
 このように、情報処理装置は、ルールベースで処理対象を特定することで、正確に処理対象を特定することができる。
 また、推定部は、ルールとして要素における表記および品詞に基づいて、読み方を推定する対象となる要素を特定する。
 このように、情報処理装置は、表記や品詞をもとに構築されたルールに従うことで、読み方に曖昧性が生じやすい単語を確実に特定することができる。
 また、推定部は、読み方を推定する対象となる要素について、正解可能性の高い順に複数の読み方を推定する。
 このように、情報処理装置は、複数の読み方を推定することで、正解となる読み方をユーザに提示することのできる可能性を高めることができる。
 また、推定部は、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、読み方を推定する。
 このように、情報処理装置は、通常の言語情報に加えて、知識ベース等の外部資源を追加情報として活用することで、推定精度を向上させることができる。
 また、推定部は、追加情報として、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に該当する語句と、語句に紐づけられた読みもしくは語義を用いて、読み方を推定する。
 このように、情報処理装置は、前後の文章を追加情報として利用することで、より文脈に沿った読み方を推定することのできる可能性を高めることができるので、推定精度を向上させることができる。
 また、推定部は、追加情報として、文章もしくは文章の前後の文章における意図を解析した結果と、結果に紐づけられた語句の読みもしくは語義を用いて、読み方を推定する。
 このように、情報処理装置は、文章の意図を解析して追加情報を得ることで、明示的に追加情報として用いる語句が文中にない場合であっても、文脈に沿った読み方を推定することができる。
 また、推定部は、文章に含まれる要素ごとの読み方を推定したのちに、文章に含まれる要素ごとのアクセントを推定する。
 このように、情報処理装置は、読み方を推定したのちに、文章のアクセントを推定する。これにより、情報処理装置は、文脈に沿った自然なアクセントをユーザに提供することができる。
 また、前処理部は、読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する。推定部は、前処理部によって抽出された特徴量を系列データを取り扱う第3のモデルに入力することで、文章に含まれる要素ごとのアクセントを推定する。
 このように、情報処理装置は、文脈を考慮した特徴量を用いてアクセントを推定することで、文脈に沿った適切なアクセントを推定することができる。
 また、情報処理装置は、推定部によって推定された推定結果と、推定結果を出力した根拠となった情報とを組み合わせてユーザ端末に送信する送信部をさらに備える。
 このように、情報処理装置は、モデルの出力の際に、文脈を考慮した読み方やアクセントに関してその根拠を示すことで、なぜその結果になったのかという情報をユーザに提供することができる。
 また、送信部は、推定部によって推定された結果が複数ある場合、複数の結果をユーザ端末に送信し、ユーザ端末において一覧表示させるよう制御する。
 このように、情報処理装置は、推定結果を一覧表示させることで、読み方もしくはアクセントの候補を複数提示でき、ユーザが正確な読み方もしくはアクセントを享受できる可能性を高めることができる。
 また、送信部は、ユーザ端末において一覧表示させた結果のうち、ユーザが音声合成を要求した推定結果について、推定結果を音声合成したデータをユーザ端末に送信する。
 このように、情報処理装置は、推定した結果を音声合成することで、ユーザに自然な発話からなる音声を提供することができる。
 また、推定部は、文章における文脈、もしくは、文章の前後の文章に基づいて、文章に含まれる各要素のうち強調される要素を特定する。送信部は、特定された要素を強調して音声合成されたデータをユーザ端末に送信する。
 このように、情報処理装置は、質問の回答に該当する箇所など、文中において強調される箇所を特定してもよい。これにより、情報処理装置は、より人間に近い、自然な発話を実現することができる。
 また、取得部は、推定部によって推定された推定結果および根拠が正確か否かをユーザが判定した結果をユーザ端末から取得する。
 このように、情報処理装置は、推定結果のうちユーザにとって好ましい結果を選択してもらう形でのフィードバックを得ることで、よりユーザにとって自然な推定処理を行うよう学習することができる。
 また、取得部は、推定部によって推定された推定結果および根拠に対してユーザが修正した修正結果をユーザ端末から取得する。
 このように、情報処理装置は、ユーザにとってより好ましい結果としてユーザが修正した結果をフィードバックとして得ることで、より正確な学習データに基づく再学習を行うことができる。
 また、情報処理装置は、以下の構成であってもよい。すなわち、情報処理装置は、取得部と、前処理部と、推定部を備える。取得部は、文章として記述されたテキストデータを取得する。前処理部は、取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する。推定部は、前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、文章に含まれる要素ごとのアクセントを推定する。
 このように、本開示に係る情報処理装置は、読み方のみならず、アクセントを推定する処理を行ってもよい。これにより、情報処理装置は、例えばアクセントが意味や理解において重視される言語において、文脈に沿った、より自然なアクセントを推定することができる。
(4.ハードウェア構成)
 上述してきた各実施形態に係る情報処理装置100ユーザ端末200等の情報機器は、例えば図16に示すような構成のコンピュータ1000によって実現される。以下、本開示に係る情報処理装置100を例に挙げて説明する。図16は、情報処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 文章として記述されたテキストデータを取得する取得部と、
 前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する前処理部と、
 前記前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
 を備える情報処理装置。
(2)
 前記推定部は、
 予め規定されたルールに基づき、読み方を推定する対象となる前記要素を特定し、特定した要素について読み方を推定する、
 前記(1)に記載の情報処理装置。
(3)
 前記推定部は、
 前記ルールとして前記要素における表記および品詞に基づいて、読み方を推定する対象となる前記要素を特定する、
 前記(2)に記載の情報処理装置。
(4)
 前記推定部は、
 前記読み方を推定する対象となる前記要素について、正解可能性の高い順に複数の読み方を推定する、
 前記(2)または(3)に記載の情報処理装置。
(5)
 前記推定部は、
 前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、前記読み方を推定する、
 前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記推定部は、
 前記追加情報として、前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に該当する語句と、当該語句に紐づけられた読みもしくは語義を用いて、前記読み方を推定する、
 前記(5)に記載の情報処理装置。
(7)
 前記推定部は、
 前記追加情報として、前記文章もしくは当該文章の前後の文章における意図を解析した結果と、当該結果に紐づけられた語句の読みもしくは語義を用いて、前記読み方を推定する、
 前記(5)または(6)に記載の情報処理装置。
(8)
 前記推定部は、
 前記文章に含まれる要素ごとの読み方を推定したのちに、当該文章に含まれる要素ごとのアクセントを推定する、
 前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
 前記前処理部は、
 前記読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する前記第1のモデルを用いて出力された特徴量を抽出し、
 前記推定部は、
 前記前処理部によって抽出された特徴量を系列データを取り扱う第3のモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
 前記(8)に記載の情報処理装置。
(10)
 前記推定部によって推定された推定結果と、当該推定結果を出力した根拠となった情報とを組み合わせてユーザ端末に送信する送信部、
 をさらに備える前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
 前記送信部は、
 前記推定部によって推定された結果が複数ある場合、当該複数の結果を前記ユーザ端末に送信し、当該ユーザ端末において一覧表示させるよう制御する、
 前記(10)に記載の情報処理装置。
(12)
 前記送信部は、
 前記ユーザ端末において一覧表示させた結果のうち、ユーザが音声合成を要求した推定結果について、当該推定結果を音声合成したデータを前記ユーザ端末に送信する、
 前記(11)に記載の情報処理装置。
(13)
 前記推定部は、
 前記文章における文脈、もしくは、前記文章の前後の文章に基づいて、当該文章に含まれる各要素のうち強調される要素を特定し、
 前記送信部は、
 前記特定された要素を強調して音声合成されたデータを前記ユーザ端末に送信する、
 前記(12)に記載の情報処理装置。
(14)
 前記取得部は、
 前記推定部によって推定された推定結果および前記根拠が正確か否かをユーザが判定した結果を前記ユーザ端末から取得する、
 前記(10)~(13)のいずれかに記載の情報処理装置。
(15)
 前記取得部は、
 前記推定部によって推定された推定結果および前記根拠に対して前記ユーザが修正した修正結果を前記ユーザ端末から取得する、
 前記(10)~(14)のいずれかに記載の情報処理装置。
(16)
 コンピュータが、
 文章として記述されたテキストデータを取得し、
 前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出し、
 前記抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する、
 ことを含む情報処理方法。
(17)
 コンピュータを、
 文章として記述されたテキストデータを取得する取得部と、
 前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する前処理部と、
 前記前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
 として機能させるための情報処理プログラム。
(18)
 文章として記述されたテキストデータを取得する取得部と、
 前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
 前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
 を備える情報処理装置。
(19)
 コンピュータが、
 文章として記述されたテキストデータを取得し、
 前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出し、
 前記抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
 ことを含む情報処理方法。
(20)
 コンピュータを、
 文章として記述されたテキストデータを取得する取得部と、
 前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
 前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
 として機能させるための情報処理プログラム。
 1   情報処理システム
 10  ユーザ
 100 情報処理装置
 110 通信部
 120 記憶部
 121 追加情報記憶部
 122 モデル記憶部
 130 制御部
 131 取得部
 132 前処理部
 133 推定部
 134 送信部
 200 ユーザ端末

Claims (20)

  1.  文章として記述されたテキストデータを取得する取得部と、
     前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する前処理部と、
     前記前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
     を備える情報処理装置。
  2.  前記推定部は、
     予め規定されたルールに基づき、読み方を推定する対象となる前記要素を特定し、特定した要素について読み方を推定する、
     請求項1に記載の情報処理装置。
  3.  前記推定部は、
     前記ルールとして前記要素における表記および品詞に基づいて、読み方を推定する対象となる前記要素を特定する、
     請求項2に記載の情報処理装置。
  4.  前記推定部は、
     前記読み方を推定する対象となる前記要素について、正解可能性の高い順に複数の読み方を推定する、
     請求項2に記載の情報処理装置。
  5.  前記推定部は、
     前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、前記読み方を推定する、
     請求項1に記載の情報処理装置。
  6.  前記推定部は、
     前記追加情報として、前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に該当する語句と、当該語句に紐づけられた読みもしくは語義を用いて、前記読み方を推定する、
     請求項5に記載の情報処理装置。
  7.  前記推定部は、
     前記追加情報として、前記文章もしくは当該文章の前後の文章における意図を解析した結果と、当該結果に紐づけられた語句の読みもしくは語義を用いて、前記読み方を推定する、
     請求項5に記載の情報処理装置。
  8.  前記推定部は、
     前記文章に含まれる要素ごとの読み方を推定したのちに、当該文章に含まれる要素ごとのアクセントを推定する、
     請求項1に記載の情報処理装置。
  9.  前記前処理部は、
     前記読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する前記第1のモデルを用いて出力された特徴量を抽出し、
     前記推定部は、
     前記前処理部によって抽出された特徴量を系列データを取り扱う第3のモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
     請求項8に記載の情報処理装置。
  10.  前記推定部によって推定された推定結果と、当該推定結果を出力した根拠となった情報とを組み合わせてユーザ端末に送信する送信部、
     をさらに備える請求項8に記載の情報処理装置。
  11.  前記送信部は、
     前記推定部によって推定された結果が複数ある場合、当該複数の結果を前記ユーザ端末に送信し、当該ユーザ端末において一覧表示させるよう制御する、
     請求項10に記載の情報処理装置。
  12.  前記送信部は、
     前記ユーザ端末において一覧表示させた結果のうち、ユーザが音声合成を要求した推定結果について、当該推定結果を音声合成したデータを前記ユーザ端末に送信する、
     請求項11に記載の情報処理装置。
  13.  前記推定部は、
     前記文章における文脈、もしくは、前記文章の前後の文章に基づいて、当該文章に含まれる各要素のうち強調される要素を特定し、
     前記送信部は、
     前記特定された要素を強調して音声合成されたデータを前記ユーザ端末に送信する、
     請求項12に記載の情報処理装置。
  14.  前記取得部は、
     前記推定部によって推定された推定結果および前記根拠が正確か否かをユーザが判定した結果を前記ユーザ端末から取得する、
     請求項11に記載の情報処理装置。
  15.  前記取得部は、
     前記推定部によって推定された推定結果および前記根拠に対して前記ユーザが修正した修正結果を前記ユーザ端末から取得する、
     請求項14に記載の情報処理装置。
  16.  コンピュータが、
     文章として記述されたテキストデータを取得し、
     前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出し、
     前記抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する、
     ことを含む情報処理方法。
  17.  コンピュータを、
     文章として記述されたテキストデータを取得する取得部と、
     前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第1のモデルを用いて出力された特徴量を抽出する前処理部と、
     前記前処理部によって抽出された特徴量を、系列データを取り扱う第2のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
     として機能させるための情報処理プログラム。
  18.  文章として記述されたテキストデータを取得する取得部と、
     前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
     前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
     を備える情報処理装置。
  19.  コンピュータが、
     文章として記述されたテキストデータを取得し、
     前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出し、
     前記抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
     ことを含む情報処理方法。
  20.  コンピュータを、
     文章として記述されたテキストデータを取得する取得部と、
     前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
     前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
     として機能させるための情報処理プログラム。
PCT/JP2022/006808 2021-09-27 2022-02-21 情報処理装置、情報処理方法及び情報処理プログラム WO2023047623A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-156882 2021-09-27
JP2021156882 2021-09-27

Publications (1)

Publication Number Publication Date
WO2023047623A1 true WO2023047623A1 (ja) 2023-03-30

Family

ID=85720361

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/006808 WO2023047623A1 (ja) 2021-09-27 2022-02-21 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2023047623A1 (ja)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAI DONGYANG, WU ZHIYONG, KANG SHIYIN, WU XIXIN, JIA JIA, SU DAN, YU DONG, MENG HELEN: "Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-Trained BERT", INTERSPEECH 2019, ISCA, ISCA, 1 January 2019 (2019-01-01), ISCA, pages 2090 - 2094, XP093051839, DOI: 10.21437/Interspeech.2019-2292 *

Similar Documents

Publication Publication Date Title
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
US11289083B2 (en) Electronic apparatus and method for controlling thereof
CN103714048B (zh) 用于校正文本的方法和系统
EP3504709B1 (en) Determining phonetic relationships
US20140350934A1 (en) Systems and Methods for Voice Identification
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
US20100125459A1 (en) Stochastic phoneme and accent generation using accent class
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
Gibbon Prosody: The rhythms and melodies of speech
Fan et al. Just speak it: Minimize cognitive load for eyes-free text editing with a smart voice assistant
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
Hamad et al. Arabic text-to-speech synthesizer
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Sefara et al. Web-based automatic pronunciation assistant
JP2003162524A (ja) 言語処理装置
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
JP2020134719A (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP7012935B1 (ja) プログラム、情報処理装置、方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22872382

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023549330

Country of ref document: JP