WO2020166397A1

WO2020166397A1 - 校閲方法、情報処理装置および校閲プログラム

Info

Publication number: WO2020166397A1
Application number: PCT/JP2020/003801
Authority: WO
Inventors: 菜那長谷川; 宮尾　浩; 鎮成齋藤
Original assignee: 日本電信電話株式会社
Priority date: 2019-02-14
Filing date: 2020-01-31
Publication date: 2020-08-20
Also published as: US20220138406A1; JP7211139B2; JP2020135126A

Abstract

情報処理装置（１０）は、テキストデータから略語と原型語のペアを抽出し、ペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部（１４ａ）に格納する。そして、情報処理装置（１０）は、判定テーブル記憶部（１４ａ）に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。

Description

校閲方法、情報処理装置および校閲プログラム

　本発明は、校閲方法、情報処理装置および校閲プログラムに関する。

　開発現場では、開発用語は略語が使用されることが多い。例えば、「ミドルウェア」と「ミドル」、「レプリケーション」と「レプリ」、「電話番号」と「電番」等がある。また、開発ドキュメント等のテキストデータについて、執筆者は一人に限られないため、表記揺れが発生する。このような表記揺れは、どちらかに統一させる必要があるため、従来では、開発用語に関する表記揺れを人手で確認し修正することが行われている。

酒井浩之、増山繁、"略語とその原型語との対応関係のコーパスからの自動獲得手法の改良"、自然言語処理　Vol.12　No.5、2005年10月

　しかしながら、従来の手法では、開発ドキュメント等のテキストデータについて、表記揺れが発生した場合に、テキストデータを人手で修正するため、手間が掛かるという課題があった。

　例えば、略語と原型語、どちらを記述すべきなのかはその開発現場によって様々であり、開発用語によっても異なるため一様に定めることは出来ず、開発用語に関する表記揺れは人手で確認し修正しなければならなかった。なお、一般に市販されている校正ツールは開発用語のような専門用語を対象としておらず、開発用語に関する表記揺れは人手で確認し修正していくことが多かった。

　上述した課題を解決し、目的を達成するために、本発明の校閲方法は、情報処理装置によって実行される校閲方法であって、テキストデータから略語と原型語のペアを抽出する抽出工程と、前記抽出工程によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数工程と、前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数工程によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定工程とを含むことを特徴とする。

　また、本発明の情報処理装置は、テキストデータから略語と原型語のペアを抽出する抽出部と、前記抽出部によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数部と、前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数部によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定部とを有することを特徴とする。

　また、本発明の校閲プログラムは、テキストデータから略語と原型語のペアを抽出する抽出ステップと、前記抽出ステップによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数ステップと、前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数ステップによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定ステップとをコンピュータに実行させることを特徴とする。

　本発明によれば、表記揺れがあるテキストデータを修正するための稼働を削減することができるという効果を奏する。

図１は、第１の実施形態に係る情報処理装置の構成例を示すブロック図である。図２は、判定テーブル記憶部に記憶されるデータの一例を示す図である。図３は、略語と原型語のペアを抽出する処理を説明する図である。図４は、抽出ルールについて説明する図である。図５は、略語の出現回数と原型語の出現回数とを計数する処理を説明する図である。図６は、新規ドキュメントを修正する処理を説明する図である。図７は、第１の実施形態に係る情報処理装置における判定テーブル格納処理の流れの一例を示すフローチャートである。図８は、第１の実施形態に係る情報処理装置における校閲処理の流れの一例を示すフローチャートである。図９は、開発現場における開発ドキュメントの背景について説明するための図である。図１０は、校閲プログラムを実行するコンピュータを示す図である。

　以下に、本願に係る校閲方法、情報処理装置および校閲プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る校閲方法、情報処理装置および校閲プログラムが限定されるものではない。

［第１の実施形態］
　以下の実施の形態では、第１の実施形態に係る情報処理装置１０の構成、情報処理装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［情報処理装置の構成］
　まず、図１を用いて、本実施形態の情報処理装置１０の構成例を説明する。図１は、第１の実施形態に係る情報処理装置の構成例を示すブロック図である。図１に例示する情報処理装置１０は、過去の開発文書のテキストデータから略語と原型語のペアを作成し、略語と原型語の出現頻度をそれぞれ求め、多い方を正解の単語、少ない方を誤りの単語とする。そして、情報処理装置１０は、校閲対象の新規ドキュメントの文書において、誤りの単語の方が使用されている場合には、正解の単語に修正する。

　図１に示すように、この情報処理装置１０は、入力部１１、出力部１２、制御部１３および記憶部１４を有する。以下に情報処理装置１０が有する各部の処理を説明する。

　入力部１１は、キーボードやマウスなどの入力デバイスであり、例えば、過去の開発文書のテキストデータや校閲対象のテキストデータなどを入力するものである。出力部１２は、ディスプレイなどの出力デバイスであり、校閲対象のテキストデータの校閲結果等を出力する。例えば、出力部１２は、後述する判定部１３ｃによって特定された修正対象の単語を出力するようにしてもよい。なお、校閲結果は、出力部１２から出力される代わりに、外部の装置に送信されるようにしてもよい。

　記憶部１４は、制御部１３による各種処理に必要なデータおよびプログラムを格納する。例えば、記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。例えば、記憶部１４は、判定テーブル記憶部１４ａを有する。

　判定テーブル記憶部１４ａは、過去の開発文書のテキストデータから抽出された略語と原型語のペアについて、どちらが正解の単語であるか誤りの単語であるかをそれぞれ記憶する。

　例えば、判定テーブル記憶部１４ａは、図２に例示するように、略語と原型語の各ペアについて、正解の単語を示す「正」と誤りの単語であることを示す「誤」とを対応付けて記憶する。図２は、判定テーブル記憶部に記憶されるデータの一例を示す図である。図２の例を挙げて説明すると、判定テーブル記憶部１４ａは、例えば、原型語である「電話番号」が正解の単語であり、略語である「電番」が誤りの単語であることを記憶している。

　制御部１３は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。ここで、制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）などの電子回路やＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）などの集積回路である。制御部１３は、抽出部１３ａ、計数部１３ｂ、判定部１３ｃおよび修正部１３ｄを有する。

　抽出部１３ａは、テキストデータから略語と原型語のペアを抽出する。例えば、抽出部１３ａは、特定の開発現場における過去の開発文書のテキストデータを集約し、開発コーパスを作成する。そして、例えば、抽出部１３ａは、図３に例示するように、過去の開発文書のテキストデータから抽出ルールに従って、略語と原型語のペアを取得し、リスト化する。図３は、略語と原型語のペアを抽出する処理を説明する図である。

　なお、抽出部１３ａは、過去の開発文書のテキストデータについて、複数の開発現場における過去の開発文書のテキストデータを集約するようにしてもよい。この場合には、抽出部１３ａは、全てのテキストデータから略語と原型語のペアを抽出してリスト化するようにしてもよいし、開発現場別にテキストデータを分類し、開発現場ごとに略語と原型語のペアを抽出してリスト化するようにしてもよい。

　ここで、図４を用いて、抽出ルールについて説明する。図４は、抽出ルールについて説明する図である。抽出部１３ａは、抽出ルールとして、以下のルール１およびルール２が設定されており、ルール１およびルール２を満たす名詞を略語と原型語のペアとして抽出する。
ルール１：名詞Ａに含まれる全ての文字が、名詞Ｂに同じ順序で出現する。
ルール２：名詞Ａ（略語候補）と名詞Ｂ（原型語候補）の先頭の文字列が同じである。

　抽出部１３ａは、抽出ルールに従い、テキストデータに含まれる名詞Ａに含まれるすべての文字が、テキストデータに含まれる名詞Ｂに同じ順序で出現し、かつ、名詞Ａと名詞Ｂの先頭の文字列が同じである場合に、名詞Ａを略語、名詞Ｂを原型語とするペアとして抽出する。

　図４の例を用いて説明すると、抽出部１３ａは、名詞「カスコン」と名詞「カスタマーコントロール」とが抽出ルールを満たすか判定するため、まず、名詞「カスコン」に含まれる「カ」、「ス」、「コ」、「ン」が、名詞「カスタマーコントロール」に同じ順序で出現するか判定する。名詞「カスタマーコントロール」では、「カ」、「ス」、「コ」、「ン」の順序で出現するため、抽出部１３ａは、上記のルール１を満たすと判定する。

　続いて、抽出部１３ａは、名詞「カスコン」と名詞「カスタマーコントロール」の先頭の文字が同じであるか判定する。名詞「カスコン」も名詞「カスタマーコントロール」も先頭の文字が「カ」であるため、抽出部１３ａは、上記のルール２を満たすと判定する。この結果、抽出部１３ａは、ルール１およびルール２の両方を満たすため、名詞「カスコン」と名詞「カスタマーコントロール」とを略語候補と原型語候補として取得する。

　そして、抽出部１３ａは、例えば、取得した略語候補と原型語候補との名詞間類似度をＷｏｒｄ２ｖｅｃにより計算し、名詞間類似度が一定数のペアを正式な略語と原型語として抽出する。

　計数部１３ｂは、抽出部１３ａによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部１４ａに格納する。

　ここで、図５の例を用いて、略語の出現回数と原型語の出現回数とを計数する処理を説明する。図５は、略語の出現回数と原型語の出現回数とを計数する処理を説明する図である。図５に例示するように、計数部１３ｂは、過去の開発文書のテキストデータにおいて、ペアの略語および原型語の出現回数をそれぞれ計数し、出現回数が多い方を正解の単語、出現回数が少ない方を誤りの単語として判定テーブル記憶部１４ａに格納する。

　図５の例を挙げて具体的に説明すると、例えば、計数部１３ｂは、略語「電番」と原型語「電話番号」の出現回数をそれぞれ計数し、出現回数が多い「電話番号」を正解の単語、出現回数が少ない「電番」を誤りの単語として判定テーブル記憶部１４ａに格納する。

　なお、計数部１３ｂは、抽出部１３ａが複数の開発現場における過去の開発文書のテキストデータから略語と原型語のペアを抽出した場合には、開発現場ごとにテキストデータにおける略語の出現回数と原型語の出現回数とを計数し、開発現場ごとに判定結果を判定テーブル記憶部１４ａに格納するようにしてもよい。

　判定部１３ｃは、判定テーブル記憶部１４ａに格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、計数部１３ｂによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。

　例えば、判定部１３ｃは、校閲対象のテキストデータとして新規ドキュメントを受け付けると、判定テーブルを参照し、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれているか否か判定する。そして、判定部１３ｃは、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれていると判定した場合には、修正対象の単語を修正部１３ｄに通知する。また、判定部１３ｃは、出力部１２ｂを介して修正対象の単語を出力するようにしてもよい。

　修正部１３ｄは、判定部１３ｃによって特定された修正対象の単語が略語である場合には、該略語に対応する原型語に修正し、修正対象の単語が原型語である場合には、該原型語に対応する略語に修正する。

　ここで、図６を用いて、校閲対象のテキストデータを修正する処理について説明する。図６は、新規ドキュメントを修正する処理を説明する図である。図６の例では、情報処理装置１０は、校閲対象のテキストデータとして、新規ドキュメントの入力を受け付け、新規ドキュメントにおいて、判定テーブル記憶部１４ａに誤りの単語として記憶された単語と一致する単語が含まれている場合には、新規ドキュメントにおける該当の単語を、誤りの単語に対応する正解の単語に修正する。

　例えば、図６の例を用いて説明すると、修正部１３ｄは、新規ドキュメントにおける「レプリケーション」が誤りの単語「レプリケーション」と一致するので、「レプリケーション」を正解の単語「レプリ」に修正する。

　このように、情報処理装置１０では、新規の開発ドキュメントにおいて「略語」か「原型語」のどちらで記載する方が適切か自動的に判断し、新規の開発ドキュメントの記載が適切でない場合には、新規の開発ドキュメントを自動で修正したり、ユーザに誤りを指摘したりすることが可能である。なお、情報処理装置１０は、修正部１３ｄによる修正処理を行わずに、判定部１３ｃによって特定された修正対象の単語を出力する処理のみを行い、修正作業を手動で行うように促すだけでもよい。

［情報処理装置の処理手順］
　次に、図７および図８を用いて、第１の実施形態に係る情報処理装置１０による処理手順の例を説明する。図７は、第１の実施形態に係る情報処理装置における判定テーブル格納処理の流れの一例を示すフローチャートである。図８は、第１の実施形態に係る情報処理装置における校閲処理の流れの一例を示すフローチャートである。

　まず、図７を用いて、略語と原型語のペアのうち、どちらが正解の単語であるか誤りの単語であるかを示す判定テーブルを格納する処理の流れを説明する。図７に例示するように、情報処理装置１０の抽出部１３ａは、過去の開発文書を取得し（ステップＳ１０１）、略語および原型語のペアを抽出する（ステップＳ１０２）。

　そして、計数部１３ｂは、抽出部１３ａによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し（ステップＳ１０３）、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部１４ａに格納する（ステップＳ１０４）。

　続いて、図８を用いて、判定テーブルを用いて新規ドキュメントを校閲する処理の流れを説明する。図８に例示するように、情報処理装置１０の判定部１３ｃは、校閲対象のテキストデータとして新規ドキュメントを受け付けると（ステップＳ２０１肯定）、判定テーブルを参照し、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれているか否か判定する（ステップＳ２０２）。

　そして、判定部１３ｃが、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれていると判定した場合には（ステップＳ２０２肯定）、修正部１３ｄは、修正対象の単語を修正部１３ｄに通知する（ステップＳ２０３）。また、判定部１３ｃが、新規ドキュメントに判定テーブルにおいて「誤」として記憶された単語が含まれていないと判定した場合には（ステップＳ２０２否定）、そのまま処理を終了する。

［第１の実施形態の効果］
　第１の実施形態に係る情報処理装置１０は、テキストデータから略語と原型語のペアを抽出し、ペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部１４ａに格納する。そして、情報処理装置１０は、判定テーブル記憶部１４ａに格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。このため、情報処理装置１０は、表記揺れがあるテキストデータを修正するための稼働を削減することが可能である。

　図９を用いて、開発現場における開発ドキュメントの背景について説明する。図９は、開発現場における開発ドキュメントの背景について説明するための図である。図９に例示するように、新入社員Ａ、中堅社員Ｂおよびベテラン社員Ｃが執筆者として開発ドキュメントを作成する場合には、略語と原型語が混在することとなる。さらに、開発現場によっても用語によっても略語で記述すべきか原型語で記載すべきかが異なる。例えば、図９に例示するように、Ａ社では、開発ドキュメントにおいて「電話番号」という用語は略語「電番」と記載し、ミドルウェアについては原型語「ミドルウェア」と記載する一方で、Ｂ社では、開発ドキュメントにおいて「電話番号」という用語は略語「電番」と記載し、ミドルウェアについては原型語「ミドルウェア」と記載する。

　このような前提のもと、第１の実施形態に係る情報処理装置１０では、新規の開発ドキュメントにおいて「略語」か「原型語」のどちらで記載する方が適切か自動的に判断し、新規の開発ドキュメントの記載が適切でない場合には、新規の開発ドキュメントを自動で修正したり、ユーザに誤りを指摘したりすることが可能である。このため、第１の実施形態に係る情報処理装置１０では、開発環境に応じた略語と原型語の使い分けが可能となり、修正おための稼働削減を実現することが可能である。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　また、上記実施形態において説明した情報処理装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る情報処理装置１０が実行する処理をコンピュータが実行可能な言語で記述した校閲プログラムを作成することもできる。この場合、コンピュータが校閲プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる校閲プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された校閲プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

　図１０は、校閲プログラムを実行するコンピュータを示す図である。図１０に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

　メモリ１０１０は、図１０に例示するように、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図１０に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図１０に例示するように、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図１０に例示するように、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図１０に例示するように、例えばディスプレイ１１３０に接続される。

　ここで、図１０に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の、校閲プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０９０に記憶される。

　また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

　なお、校閲プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、校閲プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　情報処理装置
　１１　入力部
　１２　出力部
　１３　制御部
　１３ａ　抽出部
　１３ｂ　計数部
　１３ｃ　判定部
　１３ｄ　修正部
　１４　記憶部
　１４ａ　判定テーブル記憶部

Claims

　情報処理装置によって実行される校閲方法であって、
　テキストデータから略語と原型語のペアを抽出する抽出工程と、
　前記抽出工程によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数工程と、
　前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数工程によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定工程と
　を含むことを特徴とする校閲方法。
　前記判定工程によって特定された修正対象の単語が略語である場合には、該略語に対応する原型語に修正し、前記修正対象の単語が原型語である場合には、該原型語に対応する略語に修正する修正工程をさらに含むことを特徴とする請求項１に記載の校閲方法。
　前記判定工程によって特定された修正対象の単語を出力する出力工程をさらに含むことを特徴とする請求項１に記載の校閲方法。
　前記抽出工程は、前記テキストデータに含まれる第一の名詞に含まれるすべての文字が、前記テキストデータに含まれる第二の名詞に同じ順序で出現し、かつ、前記第一の名詞と前記第二の名詞の先頭の文字列が同じである場合に、前記第一の名詞を略語、前記第二の名詞を原型語とするペアとして抽出することを特徴とする請求項１に記載の校閲方法。
　テキストデータから略語と原型語のペアを抽出する抽出部と、
　前記抽出部によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数部と、
　前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数部によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定部と
　を有することを特徴とする情報処理装置。
　テキストデータから略語と原型語のペアを抽出する抽出ステップと、
　前記抽出ステップによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数ステップと、
　前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数ステップによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定ステップと
　をコンピュータに実行させることを特徴とする校閲プログラム。