WO2018203388A1 - 読み推定装置 - Google Patents

読み推定装置 Download PDF

Info

Publication number
WO2018203388A1
WO2018203388A1 PCT/JP2017/017259 JP2017017259W WO2018203388A1 WO 2018203388 A1 WO2018203388 A1 WO 2018203388A1 JP 2017017259 W JP2017017259 W JP 2017017259W WO 2018203388 A1 WO2018203388 A1 WO 2018203388A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
morpheme
information
symbol
reading
Prior art date
Application number
PCT/JP2017/017259
Other languages
English (en)
French (fr)
Inventor
咲子 二本柳
貴弘 大塚
啓吾 川島
知宏 成田
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2017/017259 priority Critical patent/WO2018203388A1/ja
Priority to JP2019514330A priority patent/JP6556411B2/ja
Priority to TW106123614A priority patent/TW201843603A/zh
Publication of WO2018203388A1 publication Critical patent/WO2018203388A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention relates to a reading estimation apparatus that estimates reading of input text and gives a reading corresponding to the text.
  • a conventional reading estimation device for example, there is a device that gives a reading to a symbol such as a slash or hyphen in an input text by using part-of-speech information and semantic information of preceding and following words (for example, see Patent Document 1). ).
  • a word dictionary that stores speech information for a symbol and a speech information rule for a symbol that stores a rule for determining the speech information for the symbol are used.
  • “/” Is converted to “mai”, and the reading “Gosenchimetorimaibi” is given.
  • the speech information rule for symbols stores part-of-speech information, semantic information, and speech information corresponding to the symbol and the notation of the word before and after the symbol.
  • the present invention has been made to solve such a problem, and an object of the present invention is to provide a reading estimation apparatus that can appropriately read a plurality of reading symbols.
  • the reading estimation apparatus includes a morpheme analyzer that generates first morpheme sequence information obtained by dividing a given text into morphemes, a symbol, a rule that represents a rule for using the symbol, and a unit that is indicated by the usage rule.
  • the unit representation table that represents the relationship between the unit representation that represents the type and the setting value that represents the symbol reading setting, and the unit representation table.
  • the first morpheme string information matches the symbol, the rule, and the unit representation.
  • a unit expression table search unit that outputs second morpheme string information obtained by reading the morpheme symbol according to the set value of the matched unit expression, and the second morpheme string information is output.
  • the reading information corresponding to the text is analyzed as the reading of the second morpheme string information, and the reading analysis unit that outputs the reading information as the analysis result is provided.
  • the reading estimation device is provided with a unit expression table that represents a relationship between a symbol, a rule that represents the use rule of the symbol, a unit expression that represents the type of unit, and a setting value that represents the reading setting of the symbol,
  • a unit expression table that represents a relationship between a symbol, a rule that represents the use rule of the symbol, a unit expression that represents the type of unit, and a setting value that represents the reading setting of the symbol.
  • FIG. 1 is a configuration diagram illustrating a reading estimation apparatus according to the present embodiment.
  • the reading estimation apparatus includes a text input unit 1, a morphological analysis unit 2, a language dictionary 3, a unit expression table search unit 4, a unit expression table 5, and a reading analysis unit 6 as shown in the figure.
  • the text input unit 1 is a processing unit that acquires text information to be estimated for reading. That is, the text input unit 1 acquires arbitrary text information that is a target of reading estimation, and outputs it as input text information 1a.
  • the input text information 1a may be any text information that can be read and estimated including kanji, hiragana, alphabets, numbers, symbols, and the like.
  • the morpheme analysis unit 2 is a processing unit that generates morpheme sequence information obtained by dividing the input text information 1a into morphemes (minimum units representing the meaning of words) with reference to the language dictionary 3. That is, the morpheme analysis unit 2 acquires the input text information 1a output from the text input unit 1, performs morpheme analysis processing with reference to the language dictionary 3, and at least one piece of information obtained by dividing the input text information 1a into morphemes. One generates the morpheme sequence information including it, and outputs it as the first morpheme sequence information 2a. Each morpheme in the first morpheme string information 2a is represented by a notation, a reading corresponding to the notation, and a part of speech information.
  • the language dictionary 3 is a database including information corresponding to text and information such as parts of speech.
  • the unit representation table search unit 4 refers to the unit representation table 5 in response to the output and reads the symbols stored in the unit representation table 5
  • the second morpheme string information that is read according to the set value of the matched symbol 4a is a processing unit that outputs 4a.
  • the unit expression table 5 corresponds to the notation of an arbitrary symbol, a rule representing a rule of use of the symbol, a unit expression representing a type of unit associated with the symbol and the rule, and each unit expression. It is a table which shows the relationship with the setting value showing the reading setting of a symbol.
  • FIG. 2 shows an example of the unit expression table 5.
  • the unit representation table 5 shown is a table composed of columns of a symbol 501, a rule 502, a unit representation 503, and a set value 504.
  • the symbol 501 column stores information on the notation of the corresponding symbol. For example, in the illustrated example, a symbol notation “-” having a plurality of readings is stored.
  • the column of the rule 502 stores symbol information 502a, number information 502b associated with the symbol information 502a, and unit expression information 502c associated with the symbol information 502a and the number information 502b.
  • the symbol information 502 a is symbol identification information stored in the column of symbols 501.
  • Numeral information 502b is information indicating a part of speech representing a quantity among morpheme part of speech information.
  • the unit representation information 502c is information indicating one of the values stored in the column of the unit representation 503.
  • the column of the unit representation 503 stores a value indicating the type of unit. In the illustrated example, values such as “year”, “month”, “day”,... Are stored for each row.
  • the setting value 504 is a value indicating a reading setting corresponding to the value of each line of the unit representation 503.
  • “1” is a setting for skipping the symbol
  • “0” is a setting for not skipping the symbol.
  • the input text information when the input text information is “ ⁇ 3 months”, it includes a notation that matches the notation “ ⁇ ” of the column of the symbol 501, and a notation that matches the unit expression “month” of the column of the unit expression 503. Also, since the part of speech information of the morpheme “3” divided by the morpheme analysis process is “numerical”, the input text information “ ⁇ 3 months” is the rule notation “[symbol] [numerical] [ Unit expression] ”. Therefore, in this unit expression table, the value “1” stored in the set value column in the row of the unit expression “month” of the matching rule is read as the symbol “-” in the input text information “-March”. Set value.
  • the target symbol in the unit expression table 5 is a notation having a plurality of readings such as “ ⁇ (minus)” and “ ⁇ (waveform)”.
  • a rule representing a symbol usage rule is, for example, “[symbol] [numerical] [unit expression]” information indicating a combination and arrangement of a symbol morpheme, a morpheme indicating a part of speech, and a unit expression morpheme. It is.
  • the rule only needs to include at least information indicating symbols in the unit expression table 5, information indicating the type of part-of-speech information, and information indicating unit expressions in the unit expression table 5. You may specify arbitrarily.
  • the unit expression is, for example, a unit notation such as “people”, “year”, “year”, etc., and is stored as a value in each row of the column representing the unit expression.
  • the value representing the symbol reading setting is represented by a binary value such as “1” when skipping is read and “0” when not skipping. Stored as a value in each row.
  • the value representing the symbol reading setting for example, information representing the symbol reading may be described as it is. For example, the reading information “kara” or “kara” may be set as the reading setting value for the symbol “ ⁇ ”. .
  • a value range 505 corresponding to the setting value 504 for symbol reading may be stored as table information.
  • a notation representing a value range “[1-12]” or “[1-31]” is stored in the corresponding row of the range 505.
  • the unit expression table search unit 4 searches the unit expression table 5
  • the value "1” stored in the column of the set value in the row of the unit expression "month” of the matching rule is the reading set value of the symbol "-" in the input text information "-13 months”
  • the value stored in the corresponding row of the range 505 is referred to, and “[1-12]” is acquired.
  • the notation of the morpheme indicating the number in the input text information it is determined whether the value represented by the number is within the range of the acquired value range.
  • the reading setting value “1” of the acquired symbol is set to “0”. That is, it is designated not to skip the symbol “-”. In this way, by providing the range 505, it is possible to set a range of values to which the reading setting value is applied in the number included in the rule.
  • the reading analysis unit 6 refers to the first morpheme sequence information 2a or the second morpheme sequence information 4a, and is a processing unit that generates reading information 6a corresponding to the input text information 1a, which is output from the reading estimation device. is there.
  • the reading information 6a may be a phonetic character that indicates how to read the input text information 1a. For example, the reading information corresponding to the input text “Today's news” is “Kyono News”.
  • FIG. 4 is a hardware configuration diagram of the reading estimation apparatus.
  • the illustrated configuration includes a processor 101, a memory 102, a storage 103, an input interface 104, an output interface 105, and a bus 106.
  • the processor 101 is an arithmetic unit comprising a CPU for executing programs corresponding to the text input unit 1, the morpheme analysis unit 2, the unit expression table search unit 4, and the reading analysis unit 6, and realizing these functional units.
  • the memory 102 is a memory for the processor 101 to read various programs from the storage 103 to configure a work area of the processor 101 and to store various data for the processor 101 to process.
  • the storage 103 constitutes a storage unit for the language dictionary 3 and the unit expression table 5, and stores programs corresponding to the text input unit 1, the morpheme analysis unit 2, the unit expression table search unit 4, and the reading analysis unit 6. It is a storage unit.
  • the input interface 104 is an interface for inputting text to be estimated for reading, and the text input unit 1 is realized by the processor 101 reading text information through the input interface 104.
  • the output interface 105 is an interface for outputting the reading information 6a.
  • the bus 106 is a communication path for connecting the processor 101, the storage 103, the input interface 104, and the output interface 105 to each other.
  • the text input unit 1, the morpheme analysis unit 2, the unit expression table search unit 4, and the reading analysis unit 6 are realized by the processor 101. However, these configurations may be realized as an electric circuit. Good.
  • the text input unit 1 obtains text to be read and is output as input text information 1a (step ST1).
  • the morpheme analyzer 2 refers to the language dictionary 3 and divides the text of the input text information 1a into morpheme units, and outputs the morpheme string information as the first morpheme string information 2a (step ST2).
  • FIG. 6 shows a morpheme string information example 201 as an example of the first morpheme string information 2a.
  • This morpheme string information example 201 is a result of morpheme division of the input text “policy decision meeting-from the 28th”.
  • the morpheme sequence information example 201 includes morphemes “policy”, “decision”, “meeting”, “ ⁇ ”, “28”, “day”, “from”, and each morpheme has a notation corresponding to the input text and a part of speech corresponding to the notation.
  • Information for example, part-of-speech information “noun” for the notation “policy”) and reading information indicating how to read the notation (for example, reading information “SEISAKU” for the notation “policy”) are included.
  • the unit expression table search unit 4 refers to the unit expression table 5 with respect to the first morpheme string information 2a, and determines whether there is a notation that matches the symbol stored in the unit expression table 5. Search from each morpheme of the morpheme string information 2a (steps ST3 and ST4). For example, with reference to the notation “-” stored in the column of the symbol 501 in the unit expression table example shown in FIG. 2, those that match this notation are the morpheme string information examples 201 shown in FIG. Search from. In step ST4, the unit expression table search unit 4 performs the process of step ST7 when any of the morpheme notations in the first morpheme string information 2a matches the symbol stored in the unit expression table 5. On the other hand, when the symbols stored in the unit representation table 5 do not match any of the morpheme notations in the first morpheme string information 2a, the unit representation table search unit 4 performs the process of step ST5.
  • the reading analysis unit 6 refers to the first morpheme string information 2a and generates reading information 6a corresponding to the input text information 1a.
  • the reading information 6a can be created from reading information representing the reading corresponding to the notation held by each morpheme of the first morpheme string information 2a. For example, from the reading information “Kyo” “No” “News” possessed by each morpheme “Today” “No” “News” of the first morpheme sequence information 2a, the reading information “Today news” “ "Kyo no News” is generated. Thereafter, the reading analysis unit 6 outputs the generated reading information 6a as a reading estimation result of the reading estimation apparatus (step ST6).
  • the unit representation table search unit 4 is a rule that represents the use rule of the symbol when one of the morpheme notations in the first morpheme string information 2a matches the symbol stored in the unit representation table 5.
  • a list of morphemes that match 502 is searched from the first morpheme string information 2a (step ST7). For example, in the unit expression table example shown in FIG. 2, when the notation “ ⁇ ” stored in the column of the symbol 501 matches the morpheme “ ⁇ ” of the morpheme string information example 201 shown in FIG.
  • the table search unit 4 refers to the unit expression table example and the morpheme information before and after the morpheme “-” in the morpheme string information example 201, and matches the rules stored in the rule 502 column in the unit expression table example. Search column order. First, since the morpheme “ ⁇ ” in the morpheme sequence information example 201 matches the notation “ ⁇ ” of the column of the symbol 501 in the unit expression table example, the “[symbol]” stored in the column of the rule 502 is the morpheme “ ⁇ ”. ".
  • the part of speech information for the morpheme “28” following the morpheme “-” in the morpheme sequence information example 201 is “numerical”, it matches “[numerical]” stored in the column of the rule 502 in the unit expression table example. To do. Further, the notation of the morpheme “day” subsequent to the morpheme “28” in the morpheme sequence information example 201 matches the notation “day” stored in the column of the unit representation 503 in the unit representation table example. Accordingly, the morpheme “ ⁇ ”, “28”, and “day” sequence in the morpheme string information example 201 matches “[symbol] [numerical] [unit expression]” of the rule 502 in the unit expression table example.
  • step ST8 the unit expression table search unit 4 determines in step ST9 that the first morpheme string information 2a includes a sequence of morphemes that matches the rule representing the symbol usage rule stored in the unit expression table 5. Transition. On the other hand, if the first morpheme string information 2a does not include a morpheme sequence that matches the rules stored in the unit representation table 5, the process proceeds to step ST5.
  • the unit expression table search unit 4 refers to the unit expression table 5 and sets the symbol reading information in the first morpheme string information 2a.
  • the morpheme sequence that matches the rule “[symbol] [numerical] [unit expression]” in the column of the rule 502 is the morpheme string in FIG.
  • the row of the unit representation “day” in the column of the unit representation 503 is obtained from the notation of the morpheme “day” corresponding to [unit representation] of the rule 502.
  • the value “1” set in the row corresponding to “day” in the column of the setting value 504 is acquired.
  • the setting value “1” represents a setting for skipping symbols in the unit expression table example.
  • the reading information of the morpheme “ ⁇ ” corresponding to the symbol in the morpheme sequence information example 201 is “ Reading information indicating skipping such as “_ (space)” is set.
  • the notation of the morpheme “-” corresponding to the symbol may be set together. For example, the notation “-” may be replaced with punctuation marks or spaces.
  • the unit expression table search unit 4 outputs the set morpheme string information as the second morpheme string information 4a (step ST10).
  • the reading analysis unit 6 refers to the second morpheme string information 4a and generates reading information 6a corresponding to the input text information 1a (step ST11).
  • the reading information 6a can be created from the reading information held by each morpheme of the second morpheme string information 4a. For example, when the second morpheme sequence information 4a in which the reading information of the morpheme “ ⁇ ” in the morpheme sequence information example 201 of FIG.
  • the unit expression table 5 includes a notation representing a symbol having a plurality of readings, a rule representing a usage rule of the symbol, and a unit expression representing a unit type. And a value that represents the symbol reading setting are recorded in association with each other, so when adding a new unit expression to be used for symbol identification, just add a unit notation to the column that records the unit expression. In addition, when changing the reading setting process, it is only necessary to change the value representing the reading setting for the symbol of the column corresponding to the unit expression. In addition, a plurality of unit expression tables 5 may be created for each symbol.
  • the unit expression and the reading setting value can be recorded, and the unit expression table can be easily created, expanded, exchanged, and diverted.
  • a plurality of unit expressions representing unit types and values representing symbol reading settings are recorded in association with each other.
  • the input text information “policy decision meeting-from 28th day” ”And“ Tomorrow's maximum temperature is 2 ° C, minimum temperature –3 ° C ”, and the rules for the usage rules of the symbols to be applied are the same.
  • the symbol can be appropriately read by setting a value representing the symbol reading setting for each unit type.
  • the morpheme analysis unit that generates the first morpheme sequence information obtained by dividing the given text into morphemes, the symbols, and the rules that represent the use rules of the symbols
  • a unit expression indicating the type of unit indicated by the usage rule, a unit expression table indicating the relationship between the setting value indicating the symbol reading setting, the unit expression table, and in the first morpheme sequence information
  • a unit expression table search unit that outputs the second morpheme string information in which the symbol of the morpheme is read according to the set value of the matched unit expression;
  • the symbol in the unit expression table is information indicating the notation of the symbol
  • the rule is a combination of the morpheme of the symbol, the morpheme indicating the part of speech, and the morpheme of the unit expression Since it is information indicating the arrangement, it is possible to appropriately set a rule regarding symbols.
  • FIG. 7 is a configuration diagram illustrating the reading estimation apparatus according to the second embodiment.
  • the reading estimation apparatus according to the second embodiment includes a text input unit 1, a morpheme analysis unit 2, a language dictionary 3, a unit expression table search unit 40, a unit expression table 50, a reading analysis unit 6, and a genre and style detection unit 7.
  • the unit expression table search unit 40, and the unit expression table 50 is the same as that of the first embodiment, the corresponding parts are denoted by the same reference numerals and the description thereof is omitted. .
  • the unit expression table 50 includes a notation of an arbitrary symbol, a rule representing a rule for using the symbol, and a unit expression that is a notation representing a type of unit associated with the symbol and the rule.
  • a relationship with a setting value that is described for each genre or style and represents a symbol reading setting corresponding to each unit expression is shown.
  • FIG. 8 shows an example of the unit expression table 50.
  • the illustrated unit expression table example is a configuration example when set for each genre, and shows the relationship among a symbol 511, a rule 512, a unit expression 513, and a set value 514.
  • the columns of the symbol 511, the rule 512, and the unit representation 513 are the same as the columns of the symbol 501, the rule 502, and the unit representation 503 in the unit representation table 5 of FIGS. 2 and 3 in the first embodiment. .
  • the setting value 514 indicates a setting value for each genre corresponding to each row of the unit expression 513, and the genre of “society”, “sports”, and “economy” is set in FIG.
  • the genre is information representing the classification of text content such as “economy” and “sports”.
  • binary values “1” and “0” that are values representing reading settings are set.
  • symbol skip setting is performed, and when “0” is set, symbol skip setting is not performed.
  • the setting value 514 is “1” when the genre is “Society”, “0” when “Sports”, and “Economy”.
  • a set value for each genre is set, such as “1”.
  • the setting value 514 representing these reading settings for example, information representing the reading of the symbol 511 may be described as it is.
  • the setting value 514 for the symbol “ ⁇ ” the reading information “From” or “kara” is set. It can also be set.
  • the input text information 1a is “stock price, ⁇ 34.08 yen compared to the previous year”, it includes a notation that matches the notation “ ⁇ ” in the column of the symbol 511. Since the part-of-speech information included in the unit representation 513 includes a notation that matches the unit representation “yen” in the column and the morpheme “34” divided by the morpheme analysis processing is “numerical”, the “stock price” of the input text information 1a , “YoY-34.08 yen” matches the rule notation “[symbol] [numerical] [unit expression]” in the rule 512 column.
  • the genre of the input text information 1a is “economy”, it matches the “economic” column in the setting value 514, so it is stored in the setting value column in the row of the unit expression “yen” of the matching rule.
  • the value “0” is the reading setting value for the symbol “ ⁇ ” in “stock price, minus 34.08 yen compared to the previous year”.
  • FIG. 9 is an explanatory diagram showing a configuration example of the unit expression table 50 when set for each style.
  • the illustrated unit expression table example shows the relationship among the symbol 521, the rule 522, the unit expression 523, and the set value 524.
  • the columns of the symbol 521, the rule 522, and the unit representation 523 are the same as the symbol 511, the rule 512, and the unit representation 513 in FIG.
  • a setting value 524 indicates a setting value for each style corresponding to each line of the unit expression 523.
  • “heading” and “body” styles are set.
  • the style is information representing the format of the input text information such as “heading” and “body”.
  • “1” and “0” representing the reading setting are values indicating whether the symbol skip setting is performed or the symbol skip setting is not performed.
  • the input text information 1a is “currently the temperature in Sapporo is ⁇ 3 ° C.”, the notation that matches the notation “ ⁇ ” of the symbol 521 in the unit expression table example.
  • the part of speech information included in the unit expression 523 includes a notation that matches the unit expression “° C.” of the column, and the morpheme “3” divided by the morpheme analysis processing is “numerical”
  • the input text information 1a “Currently, the temperature in Sapporo is ⁇ 3 ° C.” matches the rule expression “[symbol] [numerical] [unit expression]” in the rule 522 column.
  • the style of the input text information 1 a is “body”, it matches the “body” column in the setting value 524. Therefore, in this unit expression table example, the value “0” stored in the column of the setting value in the row of the unit expression “° C.” of the matching rule is “currently the temperature in Sapporo is ⁇ 3 ° C.”. This is the reading set value for the symbol “-”.
  • the difference between the first embodiment and the second embodiment in the unit expression table 50 is that the setting values of the unit expression table of the first embodiment are described for each genre and style.
  • the genre and style detection unit 7 is a processing unit that refers to the input text information 1a and detects information representing the genre and style represented by the input text.
  • the genre is represented by a notation such as “economic” or a notation or numerical value indicating information such as an ID associated with a specific genre.
  • the style is represented by, for example, a notation such as “headline” or “title”, or a notation or numerical value indicating information such as an ID associated with a specific style.
  • the genre may be acquired by determining whether or not a pre-registered genre-specific notation is included in the input text information 1a, or estimated based on the frequency with which the genre-specific notation is included. Also good. Further, when the input text information 1a is described in HTML and information indicating a genre is added as text header information, the information may be acquired using the information.
  • the genre and style detection unit 7 may use a known technique that can detect, estimate, determine, and extract information representing a genre and style from text information.
  • the unit expression table search unit 40 receives the genre / style information 7a output from the genre / style detector 7 and the unit expression table. 50, the reading setting value of the symbol stored in the unit expression table 50 is searched, and if there is a morpheme that matches the symbol, rule, and unit expression in the first morpheme string information 2a, The processing unit outputs the second morpheme string information 40a read according to the set value of the matched symbol.
  • the hardware configuration of the reading estimation apparatus according to the second embodiment is the same as that shown in FIG.
  • the genre and style detection unit 7 and the unit expression table search unit 40 in the second embodiment are realized by the processor 101 reading and executing programs corresponding to the respective function units.
  • the unit representation table 50 is stored in the storage 103.
  • the text input unit 1 outputs input text information 1a (step ST1), and the morpheme analysis unit 2 divides the text of the input text information 1a into morpheme units and outputs first morpheme string information 2a (step ST2). )
  • the genre and style detection unit 7 refers to the input text information 1a, detects information representing at least one of genre information and style information, and uses this as genre and style information 7a.
  • Output step ST21.
  • the unit representation table search unit 40 refers to the unit representation table 50 for the first morpheme sequence information 2a, and determines whether there is a notation that matches the symbol stored in the unit representation table 50. Search from each morpheme 2a (step ST3).
  • step ST4 if there is a matching symbol in the unit expression table 50, a list of morphemes that match the rule is searched to determine whether there is a matching rule (step ST4, step ST7, step ST8).
  • Step ST3, step ST4, step ST7 and step ST8 are the same as the processing in the first embodiment.
  • step ST8 the unit expression table search unit 40, when there is a morpheme sequence that matches the rule representing the use rule of the symbol stored in the unit expression table 50 in the first morpheme string information 2a, the genre and style With reference to the information 7a, the symbol reading information for each genre or style that matches is set from the unit expression table 50 (step ST22).
  • the arrangement of morphemes that match the rule “[symbol] [numerical] [unit expression]” in the column of rule 512 is the morpheme “
  • the row of the unit expression “hits” in the column of the unit expression 513 is referred to from the notation of the morpheme “hits” corresponding to the [unit expression] of the rule.
  • the received genre and style information 7a is genre information representing sports, for example, the value “0” set in the row corresponding to “hits” in the sports column of the setting value 514 is acquired.
  • the setting value “0” indicates that no symbol skipping setting is performed in the unit expression table example, and the reading information of the morpheme “ ⁇ ” corresponding to the symbol in the morpheme string information example 202 is “Minais”. Leave.
  • step ST10 The subsequent operation of the unit expression table search unit 40 (step ST10) and the operation of the reading analysis unit 6 (step ST11, step ST5, step ST6) are the same as in the first embodiment.
  • the unit expression table 50 the unit expression table corresponding to the genre and the unit expression table corresponding to the style are shown separately in FIGS. 8 and 9, but both the genre and style are provided.
  • the unit expression table 50 may be used.
  • the genre and style detection unit 7 detects both the genre and the style. However, either one of the genre detection unit that detects the genre and the style detection unit that detects the style is detected. You may make it provide a part. In this case, a unit expression table corresponding to the genre detection unit and a unit expression table corresponding to the style detection unit are used.
  • the genre detection unit that detects the genre indicating the information indicating the classification of the given text content is provided, and the set value of the unit expression table is set for each genre.
  • the unit expression table search unit detects the morpheme symbol in the matching unit expression when there is a morpheme that matches the symbol, the rule, and the unit expression in the first morpheme string information.
  • the second morpheme sequence information that is read according to the set value of the genre is output, so even if the reading of the symbol differs depending on the genre, the reading setting of the symbol corresponding to the unit expression is specified for each genre This makes it possible to more accurately distinguish symbols that are read differently depending on the genre.
  • the reading estimation apparatus of the second embodiment includes a style detection unit that detects a style indicating information indicating the format of given text information, and the setting value of the unit expression table is set for each style.
  • the unit expression table search unit sets the detected morpheme symbol in the matched unit expression and the detected style.
  • the second morpheme string information that is read according to the output is output, so even if the reading of the symbol differs depending on the style, it is possible to specify the symbol reading setting corresponding to the unit representation for each style Thus, symbols with different reading styles can be read with higher accuracy.
  • the genre and style detection unit for detecting the genre indicating the information indicating the classification of the given text content and the style indicating the style of the text information are provided, and the unit The setting value of the expression table is set for each genre and style, and the unit expression table search unit, if there is a morpheme that matches the symbol, rule, and unit expression in the first morpheme string information, Is output as the second morpheme sequence information that is read in accordance with the set value of the detected genre and style in the matched unit expression. It is also possible to specify the symbol reading setting corresponding to the unit expression for each genre or style. It can be Yomiwakeru more accurately how to read the different symbols by the style.
  • Embodiment 1 and Embodiment 2 demonstrated the example of the Japanese text, you may use it in foreign languages like English, for example not only in Japanese.
  • the reading estimation apparatus relates to a configuration for estimating reading of input text and assigning reading corresponding to the text, and voice processing for outputting text composed of characters and symbols as voice Suitable for use in devices.
  • 1 text input unit 1a input text information
  • 2 morpheme analysis unit 2a first morpheme sequence information
  • 3 language dictionary 4,40 unit expression table search unit, 4a, 40a second morpheme sequence information
  • 550 units Expression table 6 reading analysis unit, 6a reading information, 7 genre and style detection unit, 7a genre and style information, 201, 202 morpheme sequence information example, 501, 511, 521 symbol, 502, 512, 522 rule, 503, 513 , 523 unit expression, 504, 514, 524 set value, 505 value range.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

記号と、記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係付けを表す単位表現テーブル(5)を設ける。単位表現テーブル検索部(4)は、第1の形態素列情報(2a)に対して、単位表現テーブル(5)を参照して、記号とルールと単位表現とで一致する形態素があった場合は、一致した形態素の記号の設定値に応じた読みとした第2の形態素列情報(4a)を出力する。読み解析部(6)は、第2の形態素列情報(4a)が出力された場合、テキストに対応する読み情報を第2の形態素列情報(4a)の読みとして解析し、読み情報(6a)を出力する。

Description

読み推定装置
 本発明は、入力されたテキストの読みを推定し、テキストに対応する読みを付与する読み推定装置に関するものである。
 従来の読み推定装置として、例えば、入力テキスト内のスラッシュやハイフン等の記号に対して、前後の単語の品詞情報や意味情報を利用して読みを付与するものがあった(例えば特許文献1参照)。この装置では、例えば入力テキスト「5cm/秒」が与えられた場合、記号に対する音声情報を格納する単語辞書と、記号に対する音声情報を決定するための規則を格納する記号用音声情報規則を用いて、「/」を「ma i」に変換し、「ごせんちめーとるまいびょう」と読みを付与している。記号用音声情報規則には、記号と記号の前後の単語の表記に対応する品詞情報、意味情報、音声情報とが格納されており、入力テキストの形態素分割結果に対応する表記と、品詞情報と、意味情報と、音声情報とを参照することで、記号用音声情報規則の中から、入力テキストに含まれる記号に対して適用可能な規則を検索し適用する。上記例では、記号用音声情報規則における、意味情報が「数」である数詞(「5」)と、表記が「/」である形態素と、意味情報が「単位」である数詞(「cm」、「秒」)があった場合、「/」の読みを「ma i」にする、という規則が適用可能であるため、「/」の読みを単語辞書で予め「*(何も発音しないことを表す無発音記号)」から「ma i」にする変換処理を行っている。これにより、記号を一意に読み飛ばすのではなく、文脈に応じて適切に読み分けを行うことができる。
特開平06-186993号公報
 しかしながら、上記特許文献1に記載された技術では、読み分ける記号の前後の単語の意味情報を表す「単位」が一意に定められており、「単位」の種類により記号の読み方が異なる場合に、適切に読み分けることができないという問題があった。
 この発明は、かかる問題を解決するためになされたもので、複数の読み方がある記号を適切に読み分けることのできる読み推定装置を提供することを目的とする。
 この発明に係る読み推定装置は、与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、記号と、記号の使用規則を表すルールと、使用規則で示す単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係を表す単位表現テーブルと、単位表現テーブルを参照し、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、第2の形態素列情報が出力された場合、テキストに対応する読み情報を第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたものである。
 この発明に係る読み推定装置は、記号と、記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係付けを表す単位表現テーブルを設け、この単位表現テーブルを参照して、記号とルールと単位表現とで一致する形態素があった場合は、一致した形態素の記号の設定値に応じた読みとした第2の形態素列情報を出力するようにしたものである。これにより、複数の読み方がある記号を適切に読み分けることができる。
この発明の実施の形態1の読み推定装置の構成図である。 この発明の実施の形態1の読み推定装置における単位表現テーブル例を示す説明図である。 この発明の実施の形態1の読み推定装置における単位表現テーブル例で値域を備えた場合の説明図である。 この発明の実施の形態1の読み推定装置のハードウェア構成図である。 この発明の実施の形態1の読み推定装置の動作を示すフローチャートである。 この発明の実施の形態1の読み推定装置における形態素列情報例を示す説明図である。 この発明の実施の形態2の読み推定装置を示す構成図である。 この発明の実施の形態2の読み推定装置におけるジャンル毎の設定値を有する単位表現テーブル例を示す説明図である。 この発明の実施の形態2の読み推定装置におけるスタイル毎の設定値を有する単位表現テーブル例を示す説明図である。 この発明の実施の形態2の読み推定装置の動作を示すフローチャートである。 この発明の実施の形態2の読み推定装置における形態素列情報例を示す説明図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、本実施の形態による読み推定装置を示す構成図である。
 本実施の形態による読み推定装置は、図示のように、テキスト入力部1、形態素解析部2、言語辞書3、単位表現テーブル検索部4、単位表現テーブル5、読み解析部6を備える。
 テキスト入力部1は、読みの推定対象となるテキスト情報を取得する処理部である。すなわち、テキスト入力部1は、読み推定の対象となる任意のテキスト情報を取得し、入力テキスト情報1aとして出力する。入力テキスト情報1aは、漢字やひらがな、アルファベット、数字、記号などを含む読み推定可能な任意のテキストの情報であれば良い。
 形態素解析部2は、言語辞書3を参照して入力テキスト情報1aを形態素(言葉の意味を表す最小単位)に分割した形態素列情報を生成する処理部である。すなわち、形態素解析部2は、テキスト入力部1から出力された入力テキスト情報1aを取得し、言語辞書3を参照して形態素解析処理を行い、入力テキスト情報1aを形態素に分割した情報を少なくとも一つは含む形態素列情報を生成し、これを第1の形態素列情報2aとして出力する。第1の形態素列情報2aにおける各形態素は、表記と、その表記に対応する読みと、品詞情報とで表される。言語辞書3は、テキストに対応する読みと品詞などの情報とを含むデータベースである。
 単位表現テーブル検索部4は、形態素解析部2から第1の形態素列情報2aが出力された場合、これを受けて単位表現テーブル5を参照し、単位表現テーブル5に格納された記号の読み設定値を検索して、第1の形態素列情報2aで、記号とルールと単位表現とで一致する形態素があった場合は、一致した記号の設定値に応じた読みとした第2の形態素列情報4aを出力する処理部である。
 単位表現テーブル5は、任意の記号の表記と、その記号の使用規則を表すルールと、その記号とルールとに関連付けられた単位の種類を表す表記である単位表現と、各単位表現に対応した記号の読み設定を表す設定値との関係を示すテーブルである。
 図2に単位表現テーブル5の一例を示す。図示の単位表現テーブル5は、記号501とルール502と単位表現503と設定値504の列からなるテーブルである。
 記号501の列には、該当する記号の表記の情報が格納される。例えば、図示例では複数の読み方がある記号の表記「-」が格納されている。
 ルール502の列には、記号情報502aと、記号情報502aに対応付けられた数詞情報502bと、記号情報502aと数詞情報502bに対応付けられた単位表現情報502cが格納されている。記号情報502aは、記号501の列に格納されている記号の識別情報である。数詞情報502bは、形態素の品詞情報のうち数量を表す品詞を示す情報である。また、単位表現情報502cは単位表現503の列に格納されている値のいずれかを示す情報である。
 単位表現503の列は、単位の種類を示す値が格納され、図示例では「年」「月」「日」…といった値が行毎に格納されている。設定値504は、単位表現503の各行の値に対応した読み設定を示す値である。ここでは「1」はその記号の読み飛ばし設定であり、「0」はその記号の読み飛ばしを行わない設定としている。
 例えば、入力テキスト情報を「-3月」とした場合、記号501の列の表記「-」と一致する表記を含み、また、単位表現503の列の単位表現「月」と一致する表記を含み、また、形態素解析処理により分割された形態素「3」が持つ品詞情報は「数詞」であるので、入力テキスト情報「-3月」はルール502の列のルール表記「[記号][数詞][単位表現]」に一致する。従って、この単位表現テーブルにおいて、一致するルールの単位表現「月」の行における、設定値の列に格納された値「1」が、入力テキスト情報「-3月」における記号「-」の読み設定値となる。
 このように、単位表現テーブル5で対象となる記号は、例えば「-(マイナス)」や「~(波形)」等の複数の読み方がある表記とする。また、記号の使用規則を表すルールは、例えば「[記号][数詞][単位表現]」のような、記号の形態素と、品詞を示す形態素と、単位表現の形態素の組合せと並びを示す情報である。なお、ルールは、単位表現テーブル5における記号を示す情報と、品詞情報の種類を表す情報と、単位表現テーブル5における単位表現を示す情報とが少なくとも含まれていればよく、その組み合わせと並びは任意に指定してよい。
 単位表現は、例えば「人(にん)」、「年(ねん)」、「歳(さい)」等の単位の表記であり、単位表現を表す列の各行に値として格納される。また、記号の読み設定を表す値は、例えば、読み飛ばしを行う場合を「1」、読み飛ばしを行わない場合を「0」といったように2値で表現し、記号の読み設定を表す列の各行に値として格納される。記号の読み設定を表す値は、例えば該記号の読みを表す情報をそのまま記述してもよく、例えば記号「~」に対する読み設定値として読み情報「から」や「kara」を設定することもできる。
 また、例えば、図3に示す単位表現テーブル例のように、記号の読みの設定値504に対応する値域505をテーブル情報として記憶するようにしてもよい。例えば、図3の単位表現テーブル例においては、値域505の対応する行に値の範囲「[1-12]」や「[1-31]」を表す表記が格納されている。例えば、入力テキスト情報を「-13月」として、単位表現テーブル検索部4が単位表現テーブル5を検索する場合、この単位表現テーブル例において、ルール列の「[記号][数詞][単位表現]」に一致するので、一致するルールの単位表現「月」の行における、設定値の列に格納された値「1」が、入力テキスト情報「-13月」における記号「-」の読み設定値として取得できる。次に、値域505の対応する行に格納された値を参照し、「[1-12]」を取得する。ここで、入力テキスト情報における数詞を示す形態素が持つ表記を参照し、数詞の表す値が取得した値域の範囲内か判定する。数詞を表す形態素「13」が表す値は、値域「[1-12]」の範囲外であるため、取得した記号の読み設定値「1」を「0」とする。つまり、記号「-」の読み飛ばし設定を行わないように指定する。このように、値域505を設けることで、ルールに含まれる数詞における、読み設定値を適用する値の範囲を設定することができる。
 読み解析部6は、第1の形態素列情報2aまたは第2の形態素列情報4aを参照し、読み推定装置からの出力となる、入力テキスト情報1aに対応する読み情報6aを生成する処理部である。読み情報6aは、入力テキスト情報1aの読み方を表す表音文字であればよく、例えば、入力テキスト「今日のニュース」に対応する読み情報は「きょーのにゅーす」となる。
 次に、図1に示した読み推定装置のハードウェア構成について説明する。図4は読み推定装置のハードウェア構成図である。
 図示の構成は、プロセッサ101、メモリ102、ストレージ103、入力インタフェース104、出力インタフェース105、バス106を備える。プロセッサ101は、テキスト入力部1、形態素解析部2、単位表現テーブル検索部4及び読み解析部6に対応したプログラムを実行し、これらの機能部を実現するためのCPUからなる演算装置である。メモリ102は、種々のプログラムをプロセッサ101がストレージ103から読み込んでプロセッサ101の作業領域を構成すると共に、プロセッサ101が処理するための各種のデータを記憶するためのメモリである。ストレージ103は、言語辞書3と単位表現テーブル5の格納部を構成すると共に、テキスト入力部1、形態素解析部2、単位表現テーブル検索部4及び読み解析部6に対応したプログラムを格納するための記憶部である。入力インタフェース104は、読みの推定対象となるテキストを入力するためのインタフェースであり、この入力インタフェース104を介してプロセッサ101がテキスト情報を読み込むことによりテキスト入力部1が実現されている。出力インタフェース105は読み情報6aを出力するためのインタフェースである。また、バス106は、プロセッサ101と、ストレージ103、入力インタフェース104、出力インタフェース105とを相互に通信接続するための通信路である。
 なお、図4の例では、プロセッサ101によって、テキスト入力部1と形態素解析部2と単位表現テーブル検索部4と読み解析部6とを実現したが、これらの構成を電気回路として実現してもよい。
 次に、実施の形態1の読み推定装置の動作について図5のフローチャートを用いて説明する。
 テキスト入力部1で、読みの推定対象となるテキストを取得し、これを入力テキスト情報1aとして出力する(ステップST1)。これにより、形態素解析部2は、言語辞書3を参照して、入力テキスト情報1aのテキストを形態素単位に分割し、形態素列情報を第1の形態素列情報2aとして出力する(ステップST2)。例えば、図6に、第1の形態素列情報2aの一例として形態素列情報例201を示す。この形態素列情報例201は、入力テキスト「政策決定会合-28日から」を形態素分割した結果である。形態素列情報例201は、形態素「政策」「決定」「会合」「-」「28」「日」「から」によって構成され、各形態素は、入力テキストに対応する表記と、表記に対応する品詞情報(例えば、表記「政策」に対する品詞情報「名詞」)と、表記の読み方を表す読み情報(例えば、表記「政策」に対する読み情報「せーさく」)とを持つ。
 次に単位表現テーブル検索部4は、第1の形態素列情報2aに対して、単位表現テーブル5を参照し、単位表現テーブル5に格納されている記号と一致する表記があるかを第1の形態素列情報2aの各形態素から検索する(ステップST3、ST4)。例えば、図2に示す単位表現テーブル例における記号501の列に格納された表記「-」を参照し、この表記と一致するものを、先に示した図6における形態素列情報例201の各形態素から検索する。
 ステップST4において、単位表現テーブル検索部4は、第1の形態素列情報2aにおける各形態素の表記のいずれかが、単位表現テーブル5に格納された記号と一致した場合はステップST7の処理を行う。一方、第1の形態素列情報2aにおける各形態素の表記のいずれとも、単位表現テーブル5に格納された記号が一致しなかった場合、単位表現テーブル検索部4はステップST5の処理を行う。
 ステップST5において、読み解析部6は、第1の形態素列情報2aを参照し、入力テキスト情報1aに対応する読み情報6aを生成する。読み情報6aは、第1の形態素列情報2aの各形態素が保持する表記に対応する読み方を表す読み情報から作成することができる。例えば、第1の形態素列情報2aの各形態素「今日」「の」「ニュース」が持つ読み情報「きょー」「の」「にゅーす」から、テキスト「今日のニュース」に対応する読み情報「きょーのにゅーす」を生成する。その後、読み解析部6は、生成した読み情報6aを読み推定装置の読み推定結果として出力する(ステップST6)。
 単位表現テーブル検索部4は、ステップST4において、第1の形態素列情報2aにおける各形態素の表記のいずれかと、単位表現テーブル5に格納された記号が一致した場合、その記号の使用規則を表すルール502と一致する形態素の並びを第1の形態素列情報2aから検索する(ステップST7)。例えば、図2に示す単位表現テーブル例において、記号501の列に格納された表記「-」が、先に示した図6における形態素列情報例201の形態素「-」と一致した場合、単位表現テーブル検索部4は、単位表現テーブル例と、形態素列情報例201の形態素「-」の前後の形態素情報とを参照し、単位表現テーブル例におけるルール502の列に格納されたルールと一致する形態素列の並びを検索する。まず、形態素列情報例201の形態素「-」は、単位表現テーブル例における記号501の列の表記「-」と一致するため、ルール502の列に格納された「[記号]」は形態素「-」と一致する。また、形態素列情報例201の形態素「-」の後続の形態素「28」に対する品詞情報は「数詞」であるため、単位表現テーブル例におけるルール502の列に格納された「[数詞]」と一致する。また、形態素列情報例201の形態素「28」の後続の形態素「日」の表記は、単位表現テーブル例における単位表現503の列に格納された表記「日」と一致する。従って、形態素列情報例201における形態素「-」「28」「日」の並びが、単位表現テーブル例におけるルール502の「[記号][数詞][単位表現]」と一致する。
 単位表現テーブル検索部4は、ステップST8において、第1の形態素列情報2aに、単位表現テーブル5に格納された記号の使用規則を表すルールと一致する形態素の並びが存在した場合、ステップST9に移行する。一方、第1の形態素列情報2aに、単位表現テーブル5に格納されたルールと一致する形態素の並びが存在しなかった場合はステップST5に移行する。
 単位表現テーブル検索部4は、ステップST9において、単位表現テーブル5を参照し、第1の形態素列情報2aにおける記号の読み情報を設定する。例えば、先に示した図2における単位表現テーブル例において、ルール502の列のルール「[記号][数詞][単位表現]」と一致する形態素の並びが、先に示した図6における形態素列情報例201の形態素「-」「28」「日」であった場合、ルール502の[単位表現]に対応する形態素「日」の表記から、単位表現503の列の単位表現「日」の行を参照し、設定値504の列の「日」に対応する行に設定された値「1」を取得する。設定値「1」は、単位表現テーブル例において、記号を読み飛ばす設定を表しており、この設定値を用いて、形態素列情報例201における記号に対応する形態素「-」の読み情報を、「まいなす」から例えば「_(スペース)」のような読み飛ばしを表す読み情報を設定する。この際、記号に対応する形態素「-」の表記を合わせて設定してもよく、例えば表記「-」を句読点やスペースに置き換える処理を行ってもよい。
 単位表現テーブル検索部4は、ステップST9において記号の読み情報を設定すると、設定後の形態素列情報を第2の形態素列情報4aとして出力する(ステップST10)。これにより、読み解析部6は、第2の形態素列情報4aを参照し、入力テキスト情報1aに対応する読み情報6aを生成する(ステップST11)。読み情報6aは、第2の形態素列情報4aの各形態素が保持する読み情報から作成することができる。例えば、先に示した図6の形態素列情報例201における形態素「-」の読み情報が設定された第2の形態素列情報4aを受け付けると、各形態素「政策」「決定」「会合」「-」「28」「日」「から」に対する読み情報「せーさく」「けってー」「かいごー」「_(スペース)」「にじゅーはち」「にち」「から」から、入力テキスト「政策決定会合-28日から」に対応する読み情報「せーさくけってーかいごー にじゅーはちにちから」を生成する。その後、読み解析部6は生成した読み情報6aを出力し(ステップST6)、読み推定装置における読み推定処理を終了する。
 このように、実施の形態1の読み推定装置では、単位表現テーブル5の構成として、複数の読み方がある記号を表す表記と、この記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す値を対応付けて記録するようにしたので、新たに記号の読み分けに使用する単位表現を追加する場合、単位表現を記録する列に単位を表す表記を追加するだけでよく、また、読み設定の処理を変更する場合は、単位表現に対応する列の記号に対する読み設定を表す値を変更するだけでよい。また、単位表現テーブル5は、記号毎に複数作成してもよく、例えば、記号「-(マイナス)」と記号「~(波形)」の各単位表現テーブルで記号の使用規則を表すルールと、単位表現と、読み設定値を記録することができ、単位表現テーブルは容易に作成、拡張、交換及び流用が可能であるという効果がある。
 また、単位表現テーブル5では、単位の種類を表す複数の単位表現と、記号の読み設定を表す値を対応付けて記録するようにしたので、例えば、入力テキスト情報「政策決定会合-28日から」と「明日の最高気温は2℃、最低気温-3℃」のように、適用される該記号の使用規則を表すルールは同一であり、一方で単位の種類により該記号の読み方が異なる場合においても、単位の種類毎に記号の読み設定を表す値を設定することで、記号を適切に読み分けることができるという効果がある。
 以上のように、実施の形態1の読み推定装置によれば、与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、記号と、記号の使用規則を表すルールと、使用規則で示す単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係を表す単位表現テーブルと、単位表現テーブルを参照し、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、第2の形態素列情報が出力された場合、テキストに対応する読み情報を第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたので、複数の読み方がある記号を適切に読み分けることができる。
 また、実施の形態2の読み推定装置によれば、単位表現テーブルにおける記号は、記号の表記を示す情報であり、ルールは、記号の形態素と、品詞を示す形態素と、単位表現の形態素の組合せと並びを示す情報であるようにしたので、記号に関するルールを適切に設定することができる。
実施の形態2.
 実施の形態2は、実施の形態1の構成に加えて、推定対象となるテキストのジャンルとスタイルを考慮して読み情報を求めるようにしたものである。
 図7は、実施の形態2の読み推定装置を示す構成図である。
 実施の形態2の読み推定装置は、テキスト入力部1、形態素解析部2、言語辞書3、単位表現テーブル検索部40、単位表現テーブル50、読み解析部6、ジャンル及びスタイル検出部7を備える。ここで、ジャンル及びスタイル検出部7と単位表現テーブル検索部40と単位表現テーブル50以外の構成は実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
 実施の形態2の単位表現テーブル50は、任意の記号の表記と、その記号の使用規則を表すルールと、その記号とルールとに関係付けられた単位の種類を表す表記である単位表現と、ジャンルまたはスタイル毎に記述されて各単位表現に対応した記号の読み設定を表す設定値との関係を示している。
 図8に単位表現テーブル50の一例を示す。図示の単位表現テーブル例は、ジャンル毎に設定された場合の構成例であり、記号511、ルール512、単位表現513、設定値514の関係を示している。ここで、記号511、ルール512、単位表現513のそれぞれの列については、実施の形態1における図2及び図3の単位表現テーブル5の記号501、ルール502、単位表現503の列と同様である。
 設定値514は、単位表現513の各行に対応したジャンル毎の設定値を示しており、図8では「社会」「スポーツ」「経済」のジャンルが設定されている。ここで、ジャンルとは、例えば「経済」や「スポーツ」といったような、テキスト内容の分類を表す情報である。設定値514における各ジャンルの列には、読み設定を表す値である2値の「1」「0」が設定されている。ここで「1」を設定した場合は記号の読み飛ばし設定を行い、「0」を設定した場合は記号の読み飛ばし設定を行わないよう設定される。例えば、図示例の単位表現テーブル50では、単位表現513が「安打」であった場合、設定値514として、ジャンルが「社会」では「1」、「スポーツ」では「0」、「経済」では「1」といったように、ジャンル毎の設定値が設定されている。
 なお、これらの読み設定を表す設定値514は、例えば記号511の読みを表す情報をそのまま記述してもよく、例えば記号「~」に対する設定値514として、読み情報「から」や「kara」を設定することもできる。
 図8に示す単位表現テーブル例の場合、入力テキスト情報1aが「株価、前年比-34円08銭」であった場合、記号511の列の表記「-」と一致する表記を含み、また、単位表現513の列の単位表現「円」と一致する表記を含み、また、形態素解析処理により分割された形態素「34」が持つ品詞情報は「数詞」であるので、入力テキスト情報1aの「株価、前年比-34円08銭」はルール512の列のルール表記「[記号][数詞][単位表現]」に一致する。また、入力テキスト情報1aのジャンルが「経済」だった場合、設定値514における「経済」の列に一致するので、一致するルールの単位表現「円」の行における設定値の列に格納された値「0」が、「株価、前年比-34円08銭」における記号「-」の読み設定値となる。
 図9はスタイル毎に設定された場合の単位表現テーブル50の構成例を示す説明図である。図示の単位表現テーブル例は、記号521、ルール522、単位表現523、設定値524の関係を示している。ここで、記号521、ルール522、単位表現523のそれぞれの列については図8の記号511、ルール512、単位表現513と同様である。
 設定値524は、単位表現523の各行に対応したスタイル毎の設定値を示しており、図9では「見出し」「本文」のスタイルが設定されている。ここで、スタイルとは、例えば「見出し」や「本文」のような、入力テキスト情報の様式を表す情報である。読み設定を表す「1」「0」は、記号の読み飛ばし設定を行うか、記号の読み飛ばし設定を行わないかを示す値である。
 図9に示す単位表現テーブル例の場合、入力テキスト情報1aを「現在、札幌の気温は-3℃です。」とした場合、単位表現テーブル例における記号521の表記「-」と一致する表記を含み、また、単位表現523の列の単位表現「℃」と一致する表記を含み、また、形態素解析処理により分割された形態素「3」が持つ品詞情報は「数詞」であるので、入力テキスト情報1aの「現在、札幌の気温は-3℃です。」はルール522の列のルール表記「[記号][数詞][単位表現]」に一致する。また、入力テキスト情報1aのスタイルが「本文」だった場合、設定値524における「本文」の列に一致する。従って、この単位表現テーブル例において、一致するルールの単位表現「℃」の行における、設定値の列に格納された値「0」が、「現在、札幌の気温は-3℃です。」における記号「-」の読み設定値となる。
 このように、単位表現テーブル50における実施の形態1と実施の形態2との違いは、実施の形態1の単位表現テーブルの設定値をジャンルやスタイル毎に記述するようにしたことである。
 次に、図7のジャンル及びスタイル検出部7について説明する。
 ジャンル及びスタイル検出部7は、入力テキスト情報1aを参照し、入力テキストが表すジャンルやスタイルを表す情報を検出する処理部である。ここで、ジャンルとしては、例えば「経済」のような表記や、特定のジャンルと紐付けられたID等の情報を示す表記や数値で表される。スタイルとしては、例えば「見出し」や「title」のような表記や、特定のスタイルと紐付けられたID等の情報を示す表記や数値で表される。ジャンルは、予め登録したそのジャンル特有の表記が入力テキスト情報1aに含まれているか否かを判定することで取得してもよいし、そのジャンル特有の表記が含まれている頻度により推定してもよい。また、入力テキスト情報1aがHTMLで記述されており、テキストのヘッダ情報としてジャンルを表す情報が付加されている場合は、その情報を用いて取得してもよい。
 スタイルは、体言止めの頻度を算出し、その頻度により判定してもよいし、また、入力テキスト情報1aがHTMLで記述されており、テキストのヘッダ情報やボディ情報として見出しや本文等の判定が可能な情報が付加されている場合、それらの情報からスタイルを判定し、スタイル情報を取得してもよい。また、引用記号等のスタイルを判定可能な情報が含まれていた場合、その情報からスタイルを検出してもよい。例えば、テキスト「東京、猛暑警報-36℃=今年度最高」のような複数の記号で区切られた文を記号を用いて分割し、記号で区切られた文が全て体言止めである場合、入力テキストのスタイルは見出しであると判定してもよい。
 また、ジャンル及びスタイル検出部7は、テキスト情報からジャンルやスタイルを表す情報を検出、推定、判定、抽出できるような公知の技術を用いてもよい。
 単位表現テーブル検索部40は、形態素解析部2から第1の形態素列情報2aが出力された場合、これを受けて、ジャンル及びスタイル検出部7から出力されたジャンル及びスタイル情報7aと単位表現テーブル50とを参照し、単位表現テーブル50に格納された記号の読み設定値を検索して、第1の形態素列情報2aで、記号とルールと単位表現とで一致する形態素があった場合は、一致した記号の設定値に応じた読みとした第2の形態素列情報40aを出力する処理部である。
 なお、実施の形態2の読み推定装置におけるハードウェア構成は、図4に示した構成と同様である。ただし、実施の形態2におけるジャンル及びスタイル検出部7と単位表現テーブル検索部40は、それぞれの機能部に対応するプログラムをプロセッサ101が読み出して実行することにより実現される。また、単位表現テーブル50はストレージ103に格納される。
 次に、実施の形態2の読み推定装置の動作について図10のフローチャートを用いて説明する。ここで、ステップST21及びST22の処理以外は、実施の形態1の図5に示した処理と同様であるため、対応する処理に同一のステップ番号を付してその説明を省略する。
 先ず、テキスト入力部1が入力テキスト情報1aを出力し(ステップST1)、形態素解析部2が入力テキスト情報1aのテキストを形態素単位に分割して第1の形態素列情報2aを出力する(ステップST2)のは実施の形態1と同様である。
 また、実施の形態2では、ジャンル及びスタイル検出部7が、入力テキスト情報1aを参照し、ジャンル情報とスタイル情報のうち少なくともいずれか一方を表す情報を検出し、これをジャンル及びスタイル情報7aとして出力する(ステップST21)。単位表現テーブル検索部40は、第1の形態素列情報2aに対して単位表現テーブル50を参照し、単位表現テーブル50に格納されている記号と一致する表記があるかを第1の形態素列情報2aの各形態素から検索する(ステップST3)。その結果、単位表現テーブル50に一致する記号があった場合は、ルールに一致する形態素の並びを検索し、一致するルールがあるかを判定する(ステップST4、ステップST7、ステップST8)。これらステップST3、ステップST4、ステップST7及びステップST8は、実施の形態1の処理と同様である。
 単位表現テーブル検索部40は、ステップST8において、第1の形態素列情報2aに、単位表現テーブル50に格納された記号の使用規則を表すルールと一致する形態素の並びが存在した場合、ジャンル及びスタイル情報7aを参照し、単位表現テーブル50から一致するジャンルまたはスタイル毎の記号の読み情報を設定する(ステップST22)。
 例えば、図8で示した単位表現テーブル例において、ルール512の列のルール「[記号][数詞][単位表現]」と一致する形態素の並びが、図11における形態素列情報例202の形態素「-」「8」「安打」であった場合、ルールの[単位表現]に対応する形態素「安打」の表記から、単位表現513の列の単位表現「安打」の行を参照する。また、受け付けたジャンル及びスタイル情報7aが、例えばスポーツを表すジャンル情報であった場合、設定値514のスポーツ列の「安打」に対応する行に設定された値「0」を取得する。設定値「0」は、単位表現テーブル例において、記号の読み飛ばし設定を行わないことを示しており、形態素列情報例202における記号に対応する形態素「-」の読み情報を「まいなす」のままとする。
 その後の単位表現テーブル検索部40の動作(ステップST10)及び読み解析部6の動作(ステップST11、ステップST5、ステップST6)については実施の形態1と同様である。
 なお、上記実施の形態2では、単位表現テーブル50として、ジャンルに対応した単位表現テーブルとスタイルに対応した単位表現テーブルを図8と図9に別々に示したが、ジャンルとスタイルの両方を備えた単位表現テーブル50であってもよい。
 また、上記実施の形態2では、ジャンルとスタイルの両方を検出するジャンル及びスタイル検出部7としたが、ジャンルを検出するジャンル検出部とスタイルを検出するスタイル検出部のうち、いずれか一方の検出部を備えるようにしてもよい。この場合は、ジャンル検出部に対応した単位表現テーブルと、スタイル検出部に対応した単位表現テーブルとする。
 以上説明したように、実施の形態2の読み推定装置によれば、与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、単位表現テーブルの設定値はジャンル毎に設定され、単位表現テーブル検索部は、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現でかつ検出されたジャンルの設定値に応じた読みとした第2の形態素列情報を出力するようにしたので、ジャンルによって記号の読み方が異なる場合においても、ジャンル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、ジャンルによって読み方が異なる記号をより精度よく読み分けることができる。
 また、実施の形態2の読み推定装置によれば、与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、単位表現テーブルの設定値はスタイル毎に設定され、単位表現テーブル検索部は、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現でかつ検出されたスタイルの設定値に応じた読みとした第2の形態素列情報を出力するようにしたので、スタイルによって記号の読み方が異なる場合においても、スタイル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、スタイルによって読み方が異なる記号をより精度よく読み分けることができる。
 また、実施の形態2の読み推定装置によれば、与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、単位表現テーブルの設定値はジャンル及びスタイル毎に設定され、単位表現テーブル検索部は、第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第2の形態素列情報を出力するようにしたので、ジャンルまたはスタイルによって記号の読み方が異なる場合においても、ジャンルまたはスタイル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、ジャンルまたはスタイルによって読み方が異なる記号をより精度よく読み分けることができる。
 なお、上記実施の形態1及び実施の形態2は、日本語のテキストの例を説明したが、日本語に限らず、例えば英語のような外国語で使用してもよい。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 以上のように、この発明に係る読み推定装置は、入力されたテキストの読みを推定し、テキストに対応する読みを付与する構成に関するものであり、文字と記号からなるテキストを音声出力する音声処理装置などに用いるのに適している。
 1 テキスト入力部、1a 入力テキスト情報、2 形態素解析部、2a 第1の形態素列情報、3 言語辞書、4,40 単位表現テーブル検索部、4a,40a 第2の形態素列情報、5,50 単位表現テーブル、6 読み解析部、6a 読み情報、7 ジャンル及びスタイル検出部、7a ジャンル及びスタイル情報、201,202 形態素列情報例、501,511,521 記号、502,512,522 ルール、503,513,523 単位表現、504,514,524 設定値、505値域。

Claims (5)

  1.  与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、
     記号と、当該記号の使用規則を表すルールと、当該使用規則で示す単位の種類を表す単位表現と、前記記号の読み設定を表す設定値との関係を表す単位表現テーブルと、
     前記単位表現テーブルを参照し、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、
     前記第2の形態素列情報が出力された場合、前記テキストに対応する読み情報を当該第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたことを特徴とする読み推定装置。
  2.  前記単位表現テーブルにおける記号は、記号の表記を示す情報であり、前記ルールは、前記記号の形態素と、品詞を示す形態素と、前記単位表現の形態素の組合せと並びを示す情報であることを特徴とする請求項1記載の読み推定装置。
  3.  与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル毎に設定され、
     前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
  4.  与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はスタイル毎に設定され、
     前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたスタイルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
  5.  与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表す情報を示すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル及びスタイル毎に設定され、
     前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
PCT/JP2017/017259 2017-05-02 2017-05-02 読み推定装置 WO2018203388A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2017/017259 WO2018203388A1 (ja) 2017-05-02 2017-05-02 読み推定装置
JP2019514330A JP6556411B2 (ja) 2017-05-02 2017-05-02 読み推定装置
TW106123614A TW201843603A (zh) 2017-05-02 2017-07-14 判讀推測裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/017259 WO2018203388A1 (ja) 2017-05-02 2017-05-02 読み推定装置

Publications (1)

Publication Number Publication Date
WO2018203388A1 true WO2018203388A1 (ja) 2018-11-08

Family

ID=64016020

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/017259 WO2018203388A1 (ja) 2017-05-02 2017-05-02 読み推定装置

Country Status (3)

Country Link
JP (1) JP6556411B2 (ja)
TW (1) TW201843603A (ja)
WO (1) WO2018203388A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186993A (ja) * 1992-12-17 1994-07-08 Matsushita Electric Ind Co Ltd 音声合成装置
JPH10133853A (ja) * 1996-10-29 1998-05-22 Nippon Telegr & Teleph Corp <Ntt> 電子メール書換え方法及び装置
JP2002099294A (ja) * 2000-06-29 2002-04-05 Fujitsu Ltd 情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186993A (ja) * 1992-12-17 1994-07-08 Matsushita Electric Ind Co Ltd 音声合成装置
JPH10133853A (ja) * 1996-10-29 1998-05-22 Nippon Telegr & Teleph Corp <Ntt> 電子メール書換え方法及び装置
JP2002099294A (ja) * 2000-06-29 2002-04-05 Fujitsu Ltd 情報処理装置

Also Published As

Publication number Publication date
JP6556411B2 (ja) 2019-08-07
JPWO2018203388A1 (ja) 2019-08-08
TW201843603A (zh) 2018-12-16

Similar Documents

Publication Publication Date Title
JP5847871B2 (ja) 誤打校正システム及び誤打校正方法
US20100070261A1 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP2009223463A (ja) 同義性判定装置、その方法、プログラム及び記録媒体
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Sifat et al. Synthetic error dataset generation mimicking bengali writing pattern
US9996508B2 (en) Input assistance device, input assistance method and storage medium
Kuncham et al. Statistical sandhi splitter for agglutinative languages
JP6556411B2 (ja) 読み推定装置
Fenogenova et al. A general method applicable to the search for anglicisms in russian social network texts
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
Marimuthu et al. Automatic conversion of dialectal Tamil text to standard written Tamil text using FSTs
JP5448744B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2014126925A (ja) 情報検索装置および情報検索方法
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム
JP4941495B2 (ja) ユーザ辞書作成システム、方法、及び、プログラム
Goslin et al. English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics
JP3939264B2 (ja) 形態素解析装置
JP2006294069A (ja) 文書校正装置およびプログラム記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17908274

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019514330

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17908274

Country of ref document: EP

Kind code of ref document: A1