WO2018203388A1

WO2018203388A1 - 読み推定装置

Info

Publication number: WO2018203388A1
Application number: PCT/JP2017/017259
Authority: WO
Inventors: 咲子二本柳; 貴弘大塚; 啓吾川島; 知宏成田
Original assignee: 三菱電機株式会社
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2018-11-08
Also published as: JPWO2018203388A1; TW201843603A; JP6556411B2

Abstract

記号と、記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係付けを表す単位表現テーブル（５）を設ける。単位表現テーブル検索部（４）は、第１の形態素列情報（２ａ）に対して、単位表現テーブル（５）を参照して、記号とルールと単位表現とで一致する形態素があった場合は、一致した形態素の記号の設定値に応じた読みとした第２の形態素列情報（４ａ）を出力する。読み解析部（６）は、第２の形態素列情報（４ａ）が出力された場合、テキストに対応する読み情報を第２の形態素列情報（４ａ）の読みとして解析し、読み情報（６ａ）を出力する。

Description

読み推定装置

　本発明は、入力されたテキストの読みを推定し、テキストに対応する読みを付与する読み推定装置に関するものである。

　従来の読み推定装置として、例えば、入力テキスト内のスラッシュやハイフン等の記号に対して、前後の単語の品詞情報や意味情報を利用して読みを付与するものがあった（例えば特許文献１参照）。この装置では、例えば入力テキスト「５ｃｍ／秒」が与えられた場合、記号に対する音声情報を格納する単語辞書と、記号に対する音声情報を決定するための規則を格納する記号用音声情報規則を用いて、「／」を「ｍａ　ｉ」に変換し、「ごせんちめーとるまいびょう」と読みを付与している。記号用音声情報規則には、記号と記号の前後の単語の表記に対応する品詞情報、意味情報、音声情報とが格納されており、入力テキストの形態素分割結果に対応する表記と、品詞情報と、意味情報と、音声情報とを参照することで、記号用音声情報規則の中から、入力テキストに含まれる記号に対して適用可能な規則を検索し適用する。上記例では、記号用音声情報規則における、意味情報が「数」である数詞（「５」）と、表記が「／」である形態素と、意味情報が「単位」である数詞（「ｃｍ」、「秒」）があった場合、「／」の読みを「ｍａ　ｉ」にする、という規則が適用可能であるため、「／」の読みを単語辞書で予め「＊（何も発音しないことを表す無発音記号）」から「ｍａ　ｉ」にする変換処理を行っている。これにより、記号を一意に読み飛ばすのではなく、文脈に応じて適切に読み分けを行うことができる。

特開平０６－１８６９９３号公報

　しかしながら、上記特許文献１に記載された技術では、読み分ける記号の前後の単語の意味情報を表す「単位」が一意に定められており、「単位」の種類により記号の読み方が異なる場合に、適切に読み分けることができないという問題があった。

　この発明は、かかる問題を解決するためになされたもので、複数の読み方がある記号を適切に読み分けることのできる読み推定装置を提供することを目的とする。

　この発明に係る読み推定装置は、与えられたテキストを形態素に分割した第１の形態素列情報を生成する形態素解析部と、記号と、記号の使用規則を表すルールと、使用規則で示す単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係を表す単位表現テーブルと、単位表現テーブルを参照し、第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現の設定値に応じた読みとした第２の形態素列情報を出力する単位表現テーブル検索部と、第２の形態素列情報が出力された場合、テキストに対応する読み情報を第２の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたものである。

　この発明に係る読み推定装置は、記号と、記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係付けを表す単位表現テーブルを設け、この単位表現テーブルを参照して、記号とルールと単位表現とで一致する形態素があった場合は、一致した形態素の記号の設定値に応じた読みとした第２の形態素列情報を出力するようにしたものである。これにより、複数の読み方がある記号を適切に読み分けることができる。

この発明の実施の形態１の読み推定装置の構成図である。この発明の実施の形態１の読み推定装置における単位表現テーブル例を示す説明図である。この発明の実施の形態１の読み推定装置における単位表現テーブル例で値域を備えた場合の説明図である。この発明の実施の形態１の読み推定装置のハードウェア構成図である。この発明の実施の形態１の読み推定装置の動作を示すフローチャートである。この発明の実施の形態１の読み推定装置における形態素列情報例を示す説明図である。この発明の実施の形態２の読み推定装置を示す構成図である。この発明の実施の形態２の読み推定装置におけるジャンル毎の設定値を有する単位表現テーブル例を示す説明図である。この発明の実施の形態２の読み推定装置におけるスタイル毎の設定値を有する単位表現テーブル例を示す説明図である。この発明の実施の形態２の読み推定装置の動作を示すフローチャートである。この発明の実施の形態２の読み推定装置における形態素列情報例を示す説明図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、本実施の形態による読み推定装置を示す構成図である。
　本実施の形態による読み推定装置は、図示のように、テキスト入力部１、形態素解析部２、言語辞書３、単位表現テーブル検索部４、単位表現テーブル５、読み解析部６を備える。
　テキスト入力部１は、読みの推定対象となるテキスト情報を取得する処理部である。すなわち、テキスト入力部１は、読み推定の対象となる任意のテキスト情報を取得し、入力テキスト情報１ａとして出力する。入力テキスト情報１ａは、漢字やひらがな、アルファベット、数字、記号などを含む読み推定可能な任意のテキストの情報であれば良い。

　形態素解析部２は、言語辞書３を参照して入力テキスト情報１ａを形態素（言葉の意味を表す最小単位）に分割した形態素列情報を生成する処理部である。すなわち、形態素解析部２は、テキスト入力部１から出力された入力テキスト情報１ａを取得し、言語辞書３を参照して形態素解析処理を行い、入力テキスト情報１ａを形態素に分割した情報を少なくとも一つは含む形態素列情報を生成し、これを第１の形態素列情報２ａとして出力する。第１の形態素列情報２ａにおける各形態素は、表記と、その表記に対応する読みと、品詞情報とで表される。言語辞書３は、テキストに対応する読みと品詞などの情報とを含むデータベースである。

　単位表現テーブル検索部４は、形態素解析部２から第１の形態素列情報２ａが出力された場合、これを受けて単位表現テーブル５を参照し、単位表現テーブル５に格納された記号の読み設定値を検索して、第１の形態素列情報２ａで、記号とルールと単位表現とで一致する形態素があった場合は、一致した記号の設定値に応じた読みとした第２の形態素列情報４ａを出力する処理部である。

　単位表現テーブル５は、任意の記号の表記と、その記号の使用規則を表すルールと、その記号とルールとに関連付けられた単位の種類を表す表記である単位表現と、各単位表現に対応した記号の読み設定を表す設定値との関係を示すテーブルである。
　図２に単位表現テーブル５の一例を示す。図示の単位表現テーブル５は、記号５０１とルール５０２と単位表現５０３と設定値５０４の列からなるテーブルである。
　記号５０１の列には、該当する記号の表記の情報が格納される。例えば、図示例では複数の読み方がある記号の表記「－」が格納されている。
　ルール５０２の列には、記号情報５０２ａと、記号情報５０２ａに対応付けられた数詞情報５０２ｂと、記号情報５０２ａと数詞情報５０２ｂに対応付けられた単位表現情報５０２ｃが格納されている。記号情報５０２ａは、記号５０１の列に格納されている記号の識別情報である。数詞情報５０２ｂは、形態素の品詞情報のうち数量を表す品詞を示す情報である。また、単位表現情報５０２ｃは単位表現５０３の列に格納されている値のいずれかを示す情報である。
　単位表現５０３の列は、単位の種類を示す値が格納され、図示例では「年」「月」「日」…といった値が行毎に格納されている。設定値５０４は、単位表現５０３の各行の値に対応した読み設定を示す値である。ここでは「１」はその記号の読み飛ばし設定であり、「０」はその記号の読み飛ばしを行わない設定としている。

　例えば、入力テキスト情報を「－３月」とした場合、記号５０１の列の表記「－」と一致する表記を含み、また、単位表現５０３の列の単位表現「月」と一致する表記を含み、また、形態素解析処理により分割された形態素「３」が持つ品詞情報は「数詞」であるので、入力テキスト情報「－３月」はルール５０２の列のルール表記「［記号］［数詞］［単位表現］」に一致する。従って、この単位表現テーブルにおいて、一致するルールの単位表現「月」の行における、設定値の列に格納された値「１」が、入力テキスト情報「－３月」における記号「－」の読み設定値となる。

　このように、単位表現テーブル５で対象となる記号は、例えば「－（マイナス）」や「～（波形）」等の複数の読み方がある表記とする。また、記号の使用規則を表すルールは、例えば「［記号］［数詞］［単位表現］」のような、記号の形態素と、品詞を示す形態素と、単位表現の形態素の組合せと並びを示す情報である。なお、ルールは、単位表現テーブル５における記号を示す情報と、品詞情報の種類を表す情報と、単位表現テーブル５における単位表現を示す情報とが少なくとも含まれていればよく、その組み合わせと並びは任意に指定してよい。
　単位表現は、例えば「人（にん）」、「年（ねん）」、「歳（さい）」等の単位の表記であり、単位表現を表す列の各行に値として格納される。また、記号の読み設定を表す値は、例えば、読み飛ばしを行う場合を「１」、読み飛ばしを行わない場合を「０」といったように２値で表現し、記号の読み設定を表す列の各行に値として格納される。記号の読み設定を表す値は、例えば該記号の読みを表す情報をそのまま記述してもよく、例えば記号「～」に対する読み設定値として読み情報「から」や「ｋａｒａ」を設定することもできる。

　また、例えば、図３に示す単位表現テーブル例のように、記号の読みの設定値５０４に対応する値域５０５をテーブル情報として記憶するようにしてもよい。例えば、図３の単位表現テーブル例においては、値域５０５の対応する行に値の範囲「［１－１２］」や「［１－３１］」を表す表記が格納されている。例えば、入力テキスト情報を「－１３月」として、単位表現テーブル検索部４が単位表現テーブル５を検索する場合、この単位表現テーブル例において、ルール列の「［記号］［数詞］［単位表現］」に一致するので、一致するルールの単位表現「月」の行における、設定値の列に格納された値「１」が、入力テキスト情報「－１３月」における記号「－」の読み設定値として取得できる。次に、値域５０５の対応する行に格納された値を参照し、「［１－１２］」を取得する。ここで、入力テキスト情報における数詞を示す形態素が持つ表記を参照し、数詞の表す値が取得した値域の範囲内か判定する。数詞を表す形態素「１３」が表す値は、値域「［１－１２］」の範囲外であるため、取得した記号の読み設定値「１」を「０」とする。つまり、記号「－」の読み飛ばし設定を行わないように指定する。このように、値域５０５を設けることで、ルールに含まれる数詞における、読み設定値を適用する値の範囲を設定することができる。

　読み解析部６は、第１の形態素列情報２ａまたは第２の形態素列情報４ａを参照し、読み推定装置からの出力となる、入力テキスト情報１ａに対応する読み情報６ａを生成する処理部である。読み情報６ａは、入力テキスト情報１ａの読み方を表す表音文字であればよく、例えば、入力テキスト「今日のニュース」に対応する読み情報は「きょーのにゅーす」となる。

　次に、図１に示した読み推定装置のハードウェア構成について説明する。図４は読み推定装置のハードウェア構成図である。
　図示の構成は、プロセッサ１０１、メモリ１０２、ストレージ１０３、入力インタフェース１０４、出力インタフェース１０５、バス１０６を備える。プロセッサ１０１は、テキスト入力部１、形態素解析部２、単位表現テーブル検索部４及び読み解析部６に対応したプログラムを実行し、これらの機能部を実現するためのＣＰＵからなる演算装置である。メモリ１０２は、種々のプログラムをプロセッサ１０１がストレージ１０３から読み込んでプロセッサ１０１の作業領域を構成すると共に、プロセッサ１０１が処理するための各種のデータを記憶するためのメモリである。ストレージ１０３は、言語辞書３と単位表現テーブル５の格納部を構成すると共に、テキスト入力部１、形態素解析部２、単位表現テーブル検索部４及び読み解析部６に対応したプログラムを格納するための記憶部である。入力インタフェース１０４は、読みの推定対象となるテキストを入力するためのインタフェースであり、この入力インタフェース１０４を介してプロセッサ１０１がテキスト情報を読み込むことによりテキスト入力部１が実現されている。出力インタフェース１０５は読み情報６ａを出力するためのインタフェースである。また、バス１０６は、プロセッサ１０１と、ストレージ１０３、入力インタフェース１０４、出力インタフェース１０５とを相互に通信接続するための通信路である。
　なお、図４の例では、プロセッサ１０１によって、テキスト入力部１と形態素解析部２と単位表現テーブル検索部４と読み解析部６とを実現したが、これらの構成を電気回路として実現してもよい。

　次に、実施の形態１の読み推定装置の動作について図５のフローチャートを用いて説明する。
　テキスト入力部１で、読みの推定対象となるテキストを取得し、これを入力テキスト情報１ａとして出力する（ステップＳＴ１）。これにより、形態素解析部２は、言語辞書３を参照して、入力テキスト情報１ａのテキストを形態素単位に分割し、形態素列情報を第１の形態素列情報２ａとして出力する（ステップＳＴ２）。例えば、図６に、第１の形態素列情報２ａの一例として形態素列情報例２０１を示す。この形態素列情報例２０１は、入力テキスト「政策決定会合－２８日から」を形態素分割した結果である。形態素列情報例２０１は、形態素「政策」「決定」「会合」「－」「２８」「日」「から」によって構成され、各形態素は、入力テキストに対応する表記と、表記に対応する品詞情報（例えば、表記「政策」に対する品詞情報「名詞」）と、表記の読み方を表す読み情報（例えば、表記「政策」に対する読み情報「せーさく」）とを持つ。

　次に単位表現テーブル検索部４は、第１の形態素列情報２ａに対して、単位表現テーブル５を参照し、単位表現テーブル５に格納されている記号と一致する表記があるかを第１の形態素列情報２ａの各形態素から検索する（ステップＳＴ３、ＳＴ４）。例えば、図２に示す単位表現テーブル例における記号５０１の列に格納された表記「－」を参照し、この表記と一致するものを、先に示した図６における形態素列情報例２０１の各形態素から検索する。
　ステップＳＴ４において、単位表現テーブル検索部４は、第１の形態素列情報２ａにおける各形態素の表記のいずれかが、単位表現テーブル５に格納された記号と一致した場合はステップＳＴ７の処理を行う。一方、第１の形態素列情報２ａにおける各形態素の表記のいずれとも、単位表現テーブル５に格納された記号が一致しなかった場合、単位表現テーブル検索部４はステップＳＴ５の処理を行う。

　ステップＳＴ５において、読み解析部６は、第１の形態素列情報２ａを参照し、入力テキスト情報１ａに対応する読み情報６ａを生成する。読み情報６ａは、第１の形態素列情報２ａの各形態素が保持する表記に対応する読み方を表す読み情報から作成することができる。例えば、第１の形態素列情報２ａの各形態素「今日」「の」「ニュース」が持つ読み情報「きょー」「の」「にゅーす」から、テキスト「今日のニュース」に対応する読み情報「きょーのにゅーす」を生成する。その後、読み解析部６は、生成した読み情報６ａを読み推定装置の読み推定結果として出力する（ステップＳＴ６）。

　単位表現テーブル検索部４は、ステップＳＴ４において、第１の形態素列情報２ａにおける各形態素の表記のいずれかと、単位表現テーブル５に格納された記号が一致した場合、その記号の使用規則を表すルール５０２と一致する形態素の並びを第１の形態素列情報２ａから検索する（ステップＳＴ７）。例えば、図２に示す単位表現テーブル例において、記号５０１の列に格納された表記「－」が、先に示した図６における形態素列情報例２０１の形態素「－」と一致した場合、単位表現テーブル検索部４は、単位表現テーブル例と、形態素列情報例２０１の形態素「－」の前後の形態素情報とを参照し、単位表現テーブル例におけるルール５０２の列に格納されたルールと一致する形態素列の並びを検索する。まず、形態素列情報例２０１の形態素「－」は、単位表現テーブル例における記号５０１の列の表記「－」と一致するため、ルール５０２の列に格納された「［記号］」は形態素「－」と一致する。また、形態素列情報例２０１の形態素「－」の後続の形態素「２８」に対する品詞情報は「数詞」であるため、単位表現テーブル例におけるルール５０２の列に格納された「［数詞］」と一致する。また、形態素列情報例２０１の形態素「２８」の後続の形態素「日」の表記は、単位表現テーブル例における単位表現５０３の列に格納された表記「日」と一致する。従って、形態素列情報例２０１における形態素「－」「２８」「日」の並びが、単位表現テーブル例におけるルール５０２の「［記号］［数詞］［単位表現］」と一致する。

　単位表現テーブル検索部４は、ステップＳＴ８において、第１の形態素列情報２ａに、単位表現テーブル５に格納された記号の使用規則を表すルールと一致する形態素の並びが存在した場合、ステップＳＴ９に移行する。一方、第１の形態素列情報２ａに、単位表現テーブル５に格納されたルールと一致する形態素の並びが存在しなかった場合はステップＳＴ５に移行する。

　単位表現テーブル検索部４は、ステップＳＴ９において、単位表現テーブル５を参照し、第１の形態素列情報２ａにおける記号の読み情報を設定する。例えば、先に示した図２における単位表現テーブル例において、ルール５０２の列のルール「［記号］［数詞］［単位表現］」と一致する形態素の並びが、先に示した図６における形態素列情報例２０１の形態素「－」「２８」「日」であった場合、ルール５０２の［単位表現］に対応する形態素「日」の表記から、単位表現５０３の列の単位表現「日」の行を参照し、設定値５０４の列の「日」に対応する行に設定された値「１」を取得する。設定値「１」は、単位表現テーブル例において、記号を読み飛ばす設定を表しており、この設定値を用いて、形態素列情報例２０１における記号に対応する形態素「－」の読み情報を、「まいなす」から例えば「＿（スペース）」のような読み飛ばしを表す読み情報を設定する。この際、記号に対応する形態素「－」の表記を合わせて設定してもよく、例えば表記「－」を句読点やスペースに置き換える処理を行ってもよい。

　単位表現テーブル検索部４は、ステップＳＴ９において記号の読み情報を設定すると、設定後の形態素列情報を第２の形態素列情報４ａとして出力する（ステップＳＴ１０）。これにより、読み解析部６は、第２の形態素列情報４ａを参照し、入力テキスト情報１ａに対応する読み情報６ａを生成する（ステップＳＴ１１）。読み情報６ａは、第２の形態素列情報４ａの各形態素が保持する読み情報から作成することができる。例えば、先に示した図６の形態素列情報例２０１における形態素「－」の読み情報が設定された第２の形態素列情報４ａを受け付けると、各形態素「政策」「決定」「会合」「－」「２８」「日」「から」に対する読み情報「せーさく」「けってー」「かいごー」「＿（スペース）」「にじゅーはち」「にち」「から」から、入力テキスト「政策決定会合－２８日から」に対応する読み情報「せーさくけってーかいごー　にじゅーはちにちから」を生成する。その後、読み解析部６は生成した読み情報６ａを出力し（ステップＳＴ６）、読み推定装置における読み推定処理を終了する。

　このように、実施の形態１の読み推定装置では、単位表現テーブル５の構成として、複数の読み方がある記号を表す表記と、この記号の使用規則を表すルールと、単位の種類を表す単位表現と、記号の読み設定を表す値を対応付けて記録するようにしたので、新たに記号の読み分けに使用する単位表現を追加する場合、単位表現を記録する列に単位を表す表記を追加するだけでよく、また、読み設定の処理を変更する場合は、単位表現に対応する列の記号に対する読み設定を表す値を変更するだけでよい。また、単位表現テーブル５は、記号毎に複数作成してもよく、例えば、記号「－（マイナス）」と記号「～（波形）」の各単位表現テーブルで記号の使用規則を表すルールと、単位表現と、読み設定値を記録することができ、単位表現テーブルは容易に作成、拡張、交換及び流用が可能であるという効果がある。

　また、単位表現テーブル５では、単位の種類を表す複数の単位表現と、記号の読み設定を表す値を対応付けて記録するようにしたので、例えば、入力テキスト情報「政策決定会合－２８日から」と「明日の最高気温は２℃、最低気温－３℃」のように、適用される該記号の使用規則を表すルールは同一であり、一方で単位の種類により該記号の読み方が異なる場合においても、単位の種類毎に記号の読み設定を表す値を設定することで、記号を適切に読み分けることができるという効果がある。

　以上のように、実施の形態１の読み推定装置によれば、与えられたテキストを形態素に分割した第１の形態素列情報を生成する形態素解析部と、記号と、記号の使用規則を表すルールと、使用規則で示す単位の種類を表す単位表現と、記号の読み設定を表す設定値との関係を表す単位表現テーブルと、単位表現テーブルを参照し、第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現の設定値に応じた読みとした第２の形態素列情報を出力する単位表現テーブル検索部と、第２の形態素列情報が出力された場合、テキストに対応する読み情報を第２の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたので、複数の読み方がある記号を適切に読み分けることができる。

　また、実施の形態２の読み推定装置によれば、単位表現テーブルにおける記号は、記号の表記を示す情報であり、ルールは、記号の形態素と、品詞を示す形態素と、単位表現の形態素の組合せと並びを示す情報であるようにしたので、記号に関するルールを適切に設定することができる。

実施の形態２．
　実施の形態２は、実施の形態１の構成に加えて、推定対象となるテキストのジャンルとスタイルを考慮して読み情報を求めるようにしたものである。
　図７は、実施の形態２の読み推定装置を示す構成図である。
　実施の形態２の読み推定装置は、テキスト入力部１、形態素解析部２、言語辞書３、単位表現テーブル検索部４０、単位表現テーブル５０、読み解析部６、ジャンル及びスタイル検出部７を備える。ここで、ジャンル及びスタイル検出部７と単位表現テーブル検索部４０と単位表現テーブル５０以外の構成は実施の形態１と同様であるため、対応する部分に同一符号を付してその説明を省略する。

　実施の形態２の単位表現テーブル５０は、任意の記号の表記と、その記号の使用規則を表すルールと、その記号とルールとに関係付けられた単位の種類を表す表記である単位表現と、ジャンルまたはスタイル毎に記述されて各単位表現に対応した記号の読み設定を表す設定値との関係を示している。
　図８に単位表現テーブル５０の一例を示す。図示の単位表現テーブル例は、ジャンル毎に設定された場合の構成例であり、記号５１１、ルール５１２、単位表現５１３、設定値５１４の関係を示している。ここで、記号５１１、ルール５１２、単位表現５１３のそれぞれの列については、実施の形態１における図２及び図３の単位表現テーブル５の記号５０１、ルール５０２、単位表現５０３の列と同様である。

　設定値５１４は、単位表現５１３の各行に対応したジャンル毎の設定値を示しており、図８では「社会」「スポーツ」「経済」のジャンルが設定されている。ここで、ジャンルとは、例えば「経済」や「スポーツ」といったような、テキスト内容の分類を表す情報である。設定値５１４における各ジャンルの列には、読み設定を表す値である２値の「１」「０」が設定されている。ここで「１」を設定した場合は記号の読み飛ばし設定を行い、「０」を設定した場合は記号の読み飛ばし設定を行わないよう設定される。例えば、図示例の単位表現テーブル５０では、単位表現５１３が「安打」であった場合、設定値５１４として、ジャンルが「社会」では「１」、「スポーツ」では「０」、「経済」では「１」といったように、ジャンル毎の設定値が設定されている。
　なお、これらの読み設定を表す設定値５１４は、例えば記号５１１の読みを表す情報をそのまま記述してもよく、例えば記号「～」に対する設定値５１４として、読み情報「から」や「ｋａｒａ」を設定することもできる。

　図８に示す単位表現テーブル例の場合、入力テキスト情報１ａが「株価、前年比－３４円０８銭」であった場合、記号５１１の列の表記「－」と一致する表記を含み、また、単位表現５１３の列の単位表現「円」と一致する表記を含み、また、形態素解析処理により分割された形態素「３４」が持つ品詞情報は「数詞」であるので、入力テキスト情報１ａの「株価、前年比－３４円０８銭」はルール５１２の列のルール表記「［記号］［数詞］［単位表現］」に一致する。また、入力テキスト情報１ａのジャンルが「経済」だった場合、設定値５１４における「経済」の列に一致するので、一致するルールの単位表現「円」の行における設定値の列に格納された値「０」が、「株価、前年比－３４円０８銭」における記号「－」の読み設定値となる。

　図９はスタイル毎に設定された場合の単位表現テーブル５０の構成例を示す説明図である。図示の単位表現テーブル例は、記号５２１、ルール５２２、単位表現５２３、設定値５２４の関係を示している。ここで、記号５２１、ルール５２２、単位表現５２３のそれぞれの列については図８の記号５１１、ルール５１２、単位表現５１３と同様である。
　設定値５２４は、単位表現５２３の各行に対応したスタイル毎の設定値を示しており、図９では「見出し」「本文」のスタイルが設定されている。ここで、スタイルとは、例えば「見出し」や「本文」のような、入力テキスト情報の様式を表す情報である。読み設定を表す「１」「０」は、記号の読み飛ばし設定を行うか、記号の読み飛ばし設定を行わないかを示す値である。

　図９に示す単位表現テーブル例の場合、入力テキスト情報１ａを「現在、札幌の気温は－３℃です。」とした場合、単位表現テーブル例における記号５２１の表記「－」と一致する表記を含み、また、単位表現５２３の列の単位表現「℃」と一致する表記を含み、また、形態素解析処理により分割された形態素「３」が持つ品詞情報は「数詞」であるので、入力テキスト情報１ａの「現在、札幌の気温は－３℃です。」はルール５２２の列のルール表記「［記号］［数詞］［単位表現］」に一致する。また、入力テキスト情報１ａのスタイルが「本文」だった場合、設定値５２４における「本文」の列に一致する。従って、この単位表現テーブル例において、一致するルールの単位表現「℃」の行における、設定値の列に格納された値「０」が、「現在、札幌の気温は－３℃です。」における記号「－」の読み設定値となる。

　このように、単位表現テーブル５０における実施の形態１と実施の形態２との違いは、実施の形態１の単位表現テーブルの設定値をジャンルやスタイル毎に記述するようにしたことである。

　次に、図７のジャンル及びスタイル検出部７について説明する。
　ジャンル及びスタイル検出部７は、入力テキスト情報１ａを参照し、入力テキストが表すジャンルやスタイルを表す情報を検出する処理部である。ここで、ジャンルとしては、例えば「経済」のような表記や、特定のジャンルと紐付けられたＩＤ等の情報を示す表記や数値で表される。スタイルとしては、例えば「見出し」や「ｔｉｔｌｅ」のような表記や、特定のスタイルと紐付けられたＩＤ等の情報を示す表記や数値で表される。ジャンルは、予め登録したそのジャンル特有の表記が入力テキスト情報１ａに含まれているか否かを判定することで取得してもよいし、そのジャンル特有の表記が含まれている頻度により推定してもよい。また、入力テキスト情報１ａがＨＴＭＬで記述されており、テキストのヘッダ情報としてジャンルを表す情報が付加されている場合は、その情報を用いて取得してもよい。

　スタイルは、体言止めの頻度を算出し、その頻度により判定してもよいし、また、入力テキスト情報１ａがＨＴＭＬで記述されており、テキストのヘッダ情報やボディ情報として見出しや本文等の判定が可能な情報が付加されている場合、それらの情報からスタイルを判定し、スタイル情報を取得してもよい。また、引用記号等のスタイルを判定可能な情報が含まれていた場合、その情報からスタイルを検出してもよい。例えば、テキスト「東京、猛暑警報－３６℃＝今年度最高」のような複数の記号で区切られた文を記号を用いて分割し、記号で区切られた文が全て体言止めである場合、入力テキストのスタイルは見出しであると判定してもよい。
　また、ジャンル及びスタイル検出部７は、テキスト情報からジャンルやスタイルを表す情報を検出、推定、判定、抽出できるような公知の技術を用いてもよい。

　単位表現テーブル検索部４０は、形態素解析部２から第１の形態素列情報２ａが出力された場合、これを受けて、ジャンル及びスタイル検出部７から出力されたジャンル及びスタイル情報７ａと単位表現テーブル５０とを参照し、単位表現テーブル５０に格納された記号の読み設定値を検索して、第１の形態素列情報２ａで、記号とルールと単位表現とで一致する形態素があった場合は、一致した記号の設定値に応じた読みとした第２の形態素列情報４０ａを出力する処理部である。

　なお、実施の形態２の読み推定装置におけるハードウェア構成は、図４に示した構成と同様である。ただし、実施の形態２におけるジャンル及びスタイル検出部７と単位表現テーブル検索部４０は、それぞれの機能部に対応するプログラムをプロセッサ１０１が読み出して実行することにより実現される。また、単位表現テーブル５０はストレージ１０３に格納される。

　次に、実施の形態２の読み推定装置の動作について図１０のフローチャートを用いて説明する。ここで、ステップＳＴ２１及びＳＴ２２の処理以外は、実施の形態１の図５に示した処理と同様であるため、対応する処理に同一のステップ番号を付してその説明を省略する。

　先ず、テキスト入力部１が入力テキスト情報１ａを出力し（ステップＳＴ１）、形態素解析部２が入力テキスト情報１ａのテキストを形態素単位に分割して第１の形態素列情報２ａを出力する（ステップＳＴ２）のは実施の形態１と同様である。
　また、実施の形態２では、ジャンル及びスタイル検出部７が、入力テキスト情報１ａを参照し、ジャンル情報とスタイル情報のうち少なくともいずれか一方を表す情報を検出し、これをジャンル及びスタイル情報７ａとして出力する（ステップＳＴ２１）。単位表現テーブル検索部４０は、第１の形態素列情報２ａに対して単位表現テーブル５０を参照し、単位表現テーブル５０に格納されている記号と一致する表記があるかを第１の形態素列情報２ａの各形態素から検索する（ステップＳＴ３）。その結果、単位表現テーブル５０に一致する記号があった場合は、ルールに一致する形態素の並びを検索し、一致するルールがあるかを判定する（ステップＳＴ４、ステップＳＴ７、ステップＳＴ８）。これらステップＳＴ３、ステップＳＴ４、ステップＳＴ７及びステップＳＴ８は、実施の形態１の処理と同様である。

　単位表現テーブル検索部４０は、ステップＳＴ８において、第１の形態素列情報２ａに、単位表現テーブル５０に格納された記号の使用規則を表すルールと一致する形態素の並びが存在した場合、ジャンル及びスタイル情報７ａを参照し、単位表現テーブル５０から一致するジャンルまたはスタイル毎の記号の読み情報を設定する（ステップＳＴ２２）。
　例えば、図８で示した単位表現テーブル例において、ルール５１２の列のルール「［記号］［数詞］［単位表現］」と一致する形態素の並びが、図１１における形態素列情報例２０２の形態素「－」「８」「安打」であった場合、ルールの［単位表現］に対応する形態素「安打」の表記から、単位表現５１３の列の単位表現「安打」の行を参照する。また、受け付けたジャンル及びスタイル情報７ａが、例えばスポーツを表すジャンル情報であった場合、設定値５１４のスポーツ列の「安打」に対応する行に設定された値「０」を取得する。設定値「０」は、単位表現テーブル例において、記号の読み飛ばし設定を行わないことを示しており、形態素列情報例２０２における記号に対応する形態素「－」の読み情報を「まいなす」のままとする。

　その後の単位表現テーブル検索部４０の動作（ステップＳＴ１０）及び読み解析部６の動作（ステップＳＴ１１、ステップＳＴ５、ステップＳＴ６）については実施の形態１と同様である。

　なお、上記実施の形態２では、単位表現テーブル５０として、ジャンルに対応した単位表現テーブルとスタイルに対応した単位表現テーブルを図８と図９に別々に示したが、ジャンルとスタイルの両方を備えた単位表現テーブル５０であってもよい。
　また、上記実施の形態２では、ジャンルとスタイルの両方を検出するジャンル及びスタイル検出部７としたが、ジャンルを検出するジャンル検出部とスタイルを検出するスタイル検出部のうち、いずれか一方の検出部を備えるようにしてもよい。この場合は、ジャンル検出部に対応した単位表現テーブルと、スタイル検出部に対応した単位表現テーブルとする。

　以上説明したように、実施の形態２の読み推定装置によれば、与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、単位表現テーブルの設定値はジャンル毎に設定され、単位表現テーブル検索部は、第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現でかつ検出されたジャンルの設定値に応じた読みとした第２の形態素列情報を出力するようにしたので、ジャンルによって記号の読み方が異なる場合においても、ジャンル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、ジャンルによって読み方が異なる記号をより精度よく読み分けることができる。

　また、実施の形態２の読み推定装置によれば、与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、単位表現テーブルの設定値はスタイル毎に設定され、単位表現テーブル検索部は、第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、形態素の記号を、一致した単位表現でかつ検出されたスタイルの設定値に応じた読みとした第２の形態素列情報を出力するようにしたので、スタイルによって記号の読み方が異なる場合においても、スタイル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、スタイルによって読み方が異なる記号をより精度よく読み分けることができる。

　また、実施の形態２の読み推定装置によれば、与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、単位表現テーブルの設定値はジャンル及びスタイル毎に設定され、単位表現テーブル検索部は、第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第２の形態素列情報を出力するようにしたので、ジャンルまたはスタイルによって記号の読み方が異なる場合においても、ジャンルまたはスタイル毎に単位表現に対応する記号の読みの設定を指定することが可能となり、ジャンルまたはスタイルによって読み方が異なる記号をより精度よく読み分けることができる。

　なお、上記実施の形態１及び実施の形態２は、日本語のテキストの例を説明したが、日本語に限らず、例えば英語のような外国語で使用してもよい。

　なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　以上のように、この発明に係る読み推定装置は、入力されたテキストの読みを推定し、テキストに対応する読みを付与する構成に関するものであり、文字と記号からなるテキストを音声出力する音声処理装置などに用いるのに適している。

　１　テキスト入力部、１ａ　入力テキスト情報、２　形態素解析部、２ａ　第１の形態素列情報、３　言語辞書、４，４０　単位表現テーブル検索部、４ａ，４０ａ　第２の形態素列情報、５，５０　単位表現テーブル、６　読み解析部、６ａ　読み情報、７　ジャンル及びスタイル検出部、７ａ　ジャンル及びスタイル情報、２０１，２０２　形態素列情報例、５０１，５１１，５２１　記号、５０２，５１２，５２２　ルール、５０３，５１３，５２３　単位表現、５０４，５１４，５２４　設定値、５０５値域。

Claims

　与えられたテキストを形態素に分割した第１の形態素列情報を生成する形態素解析部と、
　記号と、当該記号の使用規則を表すルールと、当該使用規則で示す単位の種類を表す単位表現と、前記記号の読み設定を表す設定値との関係を表す単位表現テーブルと、
　前記単位表現テーブルを参照し、前記第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現の設定値に応じた読みとした第２の形態素列情報を出力する単位表現テーブル検索部と、
　前記第２の形態素列情報が出力された場合、前記テキストに対応する読み情報を当該第２の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたことを特徴とする読み推定装置。
　前記単位表現テーブルにおける記号は、記号の表記を示す情報であり、前記ルールは、前記記号の形態素と、品詞を示す形態素と、前記単位表現の形態素の組合せと並びを示す情報であることを特徴とする請求項１記載の読み推定装置。
　与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル毎に設定され、
　前記単位表現テーブル検索部は、前記第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンルの設定値に応じた読みとした第２の形態素列情報を出力することを特徴とする請求項１記載の読み推定装置。
　与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はスタイル毎に設定され、
　前記単位表現テーブル検索部は、前記第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたスタイルの設定値に応じた読みとした第２の形態素列情報を出力することを特徴とする請求項１記載の読み推定装置。
　与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表す情報を示すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル及びスタイル毎に設定され、
　前記単位表現テーブル検索部は、前記第１の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第２の形態素列情報を出力することを特徴とする請求項１記載の読み推定装置。