WO2020059527A1

WO2020059527A1 - フォント作成装置、フォント作成方法及びフォント作成プログラム

Info

Publication number: WO2020059527A1
Application number: PCT/JP2019/035056
Authority: WO
Inventors: 誠大関; 和幸板垣; 喬俊狩野; 林　伸治
Original assignee: 富士フイルム株式会社
Priority date: 2018-09-20
Filing date: 2019-09-05
Publication date: 2020-03-26
Also published as: JP7482783B2; US20210201548A1; US11600031B2; JPWO2020059527A1

Abstract

スタイルを模倣したい少数の文字画像からその文字画像と同様のスタイルの一揃いのフォントセットを、任意の言語に対して生成することができるフォント作成装置、フォント作成方法及びフォント作成プログラムを提供する。特徴量抽出部（４０）は、スタイルを模倣したい第１フォントの文字画像（３２）を入力し、その文字画像（３２）の第１フォントの第１特徴量を抽出する。推定部（４２）は、抽出した第１特徴量と基準の第２フォント（３４）の第２特徴量との間の変形パラメータを推定する。特徴量生成部（４４）は、一揃いの基準のフォントセット（３６）の第３特徴量を、推定した変形パラメータに基づいて変形処理することにより、作成しようとする第２フォントセットの第４特徴量を生成する。フォント生成部（４６）は、第２フォントセットの第４特徴量を画像に変換し、一揃いの第２フォントセットを生成する。

Description

フォント作成装置、フォント作成方法及びフォント作成プログラム

　本発明はフォント作成装置、フォント作成方法及びフォント作成プログラムに係り、特に模倣したいスタイルの一揃いのフォントセットを作成する技術に関する。

　特許文献１には、標準の文字フォントと、イメージ入力される文字フォント（例えば、手書き文字）とを比較して対応点の変位を抽出してその統計的情報を抽出し、その抽出結果に応じて標準の文字フォントを変更して、手書き風文字フォントを生成する手書き風文字フォント生成システムが記載されている。

　特許文献１に記載の手書き風文字フォント生成システムは、標準の文字フォントと、イメージ入力される文字フォントとの間の幾何学的変位、及び手書き文字の大きさを解析し、その統計的情報をそのユーザの個性を表す特徴量として登録し、標準の文字フォントをユーザの個性を表す特徴量で変形させることで、ユーザ固有の手書き風文字フォントを生成する。

　また、非特許文献１には、敵性的生成ネットワーク（ＧＡＮ：Generative Adversarial Networks)を使用し、模倣したいスタイルの少数（例えば、５文字）のアルファベットから、それと類似したスタイルのアルファベット２６文字を生成する技術が開示されている。

　ＧＡＮは、GeneratorとDiscriminatorという２つのネットワークを備え、Generatorは訓練データ(模倣したいスタイルのアルファベット）と同じようなデータを生成し、Discriminatorはデータが訓練データ由来のものか、生成モデル由来のものかを識別する。そして、Discriminatorによりデータが訓練データ由来のものか、生成モデル由来のものかが識別不能になるように（正解率が５０％になるように）、GeneratorとDiscriminatorの学習が行われ、最終的にGeneratorが、訓練データと同じようなデータを生成できるようにする。

特開２００３－５８１４２号公報

"Multi-Content GAN for Few-Shot Font Style Transfer" Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, Trevor Darrell UC Berkeley, Adobe Research　インターネット〈URL：https://engineering.columbia.edu/press-releases/changxi-zheng-fontcode〉

　特許文献１に記載の手書き風文字フォント生成システムは、標準の文字フォントを、ユーザの個性を表す特徴量で変形させることで、ユーザ固有の手書き風文字フォントを生成するが、ユーザの個性を表す特徴量は、ユーザの手書きの文字フォントと対応する（同種の）標準の文字フォントとの対応点を求め、対応点の変位を抽出してユーザの個性を表す特徴量を求めるため、例えば、ユーザの手書きの「ひらがな」を使用して手書き風「カタカナ」の文字フォントを生成することはできない。

　また、非特許文献１に記載のＧＡＮを使用する場合、模倣したいスタイルのフォントが「アルファベット」の場合、模倣したいスタイルのフォントの特徴を有する「ひらがな」、「カタカナ」、その他の言語の一揃いのフォントセットを生成することができない。

　本発明はこのような事情に鑑みてなされたもので、スタイルを模倣したい少数の文字画像からその文字画像と同様のスタイルの一揃いのフォントセットを、任意の言語に対して生成することができるフォント作成装置、フォント作成方法及びフォント作成プログラムを提供することを目的とする。

　上記目的を達成するために本発明の一の態様に係るフォント作成装置は、第１フォントの一部の文字から構成される文字画像を取得する文字画像取得部と、取得した文字画像から第１フォントの第１特徴量を抽出する特徴量抽出部と、抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定する推定部と、一揃いの基準のフォントセットの第３特徴量を、推定した変形パラメータに基づいて変形させることにより、一揃いの第２フォントセットの第４特徴量を生成する特徴量生成部と、生成された第２フォントセットの第４特徴量を画像に変換し、第２フォントセットを生成するフォント生成部と、を備える。

　本発明の一の態様によれば、文字画像取得部は、スタイルを模倣したい第１フォントの一部の文字から構成される文字画像を取得する。文字画像は、１文字からなる文字画像でもよいし、複数の文字からなる文字列画像でもよい。特徴量抽出部は、取得した文字画像から第１フォントの第１特徴量を抽出し、推定部は、抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定する。基準の第２フォントは、例えば、コンピュータ用のフォントとして準備されている一般的なフォントである。

　特徴量生成部は、一揃いの基準のフォントセットの第３特徴量を、推定した変形パラメータに基づいて変形処理することにより、作成しようとする第２フォントセットの第４特徴量を生成する。フォント生成部は、生成された第２フォントセットの第４特徴量を画像に変換し、第２フォントセットを生成する。一揃いの基準のフォントセットは、任意の言語に対応するフォントセットでよく、これにより、任意の言語に対する一揃いの第２フォントセットを生成することができる。

　本発明の他の態様に係るフォント作成装置において、文字画像取得部は、第１フォントの一部の文字が撮像された画像を入力する画像入力部と、入力した画像から文字に対応する文字領域を切り出す切出部と、を備え、切り出した文字領域の画像を文字画像とすることが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、特徴量抽出部は、特徴量の抽出を学習した第１学習済みモデルであり、第１学習済みモデルは、取得した文字画像を入力し、文字画像の第１特徴量を出力することが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、特徴量抽出部は、文字画像の特徴部分を示すデザイナからの入力を受け付ける受付部を有し、受付部により受け付けた文字画像の特徴部分から第１特徴量を抽出することが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、推定部は、第１特徴量と第２特徴量との特徴量空間での距離、又は類似度を計算して変形パラメータを推定することが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、推定部及び特徴量生成部は、第２学習済みモデルであり、第２学習済みモデルは、第１特徴量と第２特徴量との特徴量空間での距離を最小化し、又は第１特徴量と第２特徴量との類似度を最大化するモデルであり、一揃いの基準のフォントセットを入力することで、第２フォントセットの第４特徴量を生成することが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、フォント生成部は、第２フォントセットの第４特徴量を画像に変換する自己符号化器であることが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、フォント生成部は、第２フォントセットとしてベクタデータを生成することが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、フォント生成部は、第２フォントセットとしてラスタデータを生成することが好ましい。

　本発明の更に他の態様に係るフォント作成装置において、基準のフォントセットは、第１フォントとスタイルが異なる同じ種類のフォントセットであることが好ましい。例えば、第１フォントがアルファベットの場合、基準のフォントセットも同じ種類の「アルファベット」とすることができる。

　本発明の更に他の態様に係るフォント作成装置において、基準のフォントセットは、第１フォントとスタイルが異なる２種類以上のフォントセットを含むことが好ましい。例えば、第１フォントがアルファベットの場合、基準のフォントセットは、「アルファベット」とは種類が異なる「ひらがな」、「カタカナ」とすることができる。

　本発明の更に他の態様に係るフォント作成方法は、第１フォントの一部の文字から構成される文字画像を取得するステップと、取得した文字画像から第１フォントの第１特徴量を抽出するステップと、抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定するステップと、一揃いの基準のフォントセットの第３特徴量を、推定した変形パラメータに基づいて変形させることにより、一揃いの第２フォントセットの第４特徴量を生成するステップと、生成された第２フォントセットの第４特徴量を画像に変換し、第２フォントセットを生成するステップと、を含む。

　本発明の更に他の態様に係るフォント作成プログラムは、第１フォントの一部の文字から構成される文字画像を取得する機能と、取得した文字画像から第１フォントの第１特徴量を抽出する機能と、抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定する機能と、一揃いの基準のフォントセットの第３特徴量を、推定した変形パラメータに基づいて変形させることにより、第２フォントセットの第４特徴量を生成する機能と、生成された第２フォントセットの第４特徴量を画像に変換し、一揃いの第２フォントセットを生成する機能と、をコンピュータにより実現させる。

　本発明によれば、スタイルを模倣したい少数の文字画像からその文字画像と同様のスタイルの一揃いのフォントセットを、任意の言語に対して生成することができる。

図１は、本発明に係るフォント作成装置のハードウエア構成の一例を示すブロック図である。図２は、文字画像取得部１２の実施形態を示すブロック図である。図３は、本発明に係るフォント作成装置１０－１の第１実施形態を示すブロック図である。図４は、特徴量空間内における文字画像３２のスタイルを示す第１フォントの第１特徴量と、基準の第２フォント３４の第２特徴量と、第１特徴量と第２特徴量との関係を示す変形パラメータとを示す図である。図５は、特徴量空間内における基準のフォントセット３６の第３特徴量が、変形パラメータにより第２フォントセット３８の第４特徴量に変形処理される様子を示す図である。図６は、本発明に係るフォント作成装置１０－２の第２実施形態を示す要部ブロック図である。図７は、本発明に係るフォント作成方法の実施形態を示すフローチャートである。

　以下、添付図面に従って本発明に係るフォント作成装置、フォント作成方法及びフォント作成プログラムの好ましい実施形態について説明する。

　［フォント作成装置のハードウエア構成］
　図１は、本発明に係るフォント作成装置のハードウエア構成の一例を示すブロック図である。

　図１に示すフォント作成装置１０としては、パーソナルコンピュータ又はワークステーションを使用することができる。本例のフォント作成装置１０は、主として文字画像取得部１２と、フォントセットデータベース（以下、「フォントセットＤＢ」（ＤＢ：database）という）１４と、記憶部１６と、操作部１８と、ＣＰＵ（Central Processing Unit）２０と、ＲＡＭ(Random Access Memory)２２と、ＲＯＭ(Read Only Memory)２４と、表示部２６とから構成されている。

　文字画像取得部１２は、模倣したいスタイルのフォント（第１フォント）の一部の文字から構成される文字画像を取得する部分である。

　図２は、文字画像取得部１２の実施形態を示すブロック図である。

　図２に示すように文字画像取得部１２は、画像入力部１２Ａと、切出部１２Ｂとから構成されている。

　画像入力部１２Ａは、模倣したいスタイルの文字画像を含む画像３０を入力する。例えば、ユーザは、模倣したいスタイルの文字を有する看板、ポスター、あるいは雑誌等を見つけた場合、看板等をカメラにより撮像し、模倣したいスタイルの文字画像を含む画像３０を取得する。尚、模倣したいスタイルの文字が雑誌等の紙媒体に印刷されている場合には、その紙媒体をスキャナで読み取る（撮像する）ことで、模倣したいスタイルの文字画像を含む画像３０を取得することができる。また、文字画像は、１文字からなる文字画像でもよし、複数の文字からなる文字列画像でもよい。

　ユーザは、上記のようにして取得した画像３０を画像入力部１２Ａに入力する。

　切出部１２Ｂは、画像入力部１２Ａに入力された画像３０から文字に対応する文字領域を切り出し、切り出した文字領域の画像（文字画像）３２を記憶部１６又はＲＡＭ２２に出力し、ここに記憶させる。

　切出部１２Ｂは、画像に含まれる文字領域を認識する機械学習装置により構成してもよいし、ユーザからの文字画像の抽出の支援を受けて文字画像を切り出すものでもよい。例えば、画像入力部１２Ａに入力した画像３０を表示部２６に表示させ、ユーザがポインティングデバイス等の操作部１８を使用して、表示部２６に表示された画像３０に含まれる文字領域を指定することで、切出部１２Ｂは文字画像３２を切り出すことができる。

　フォントセットＤＢ１４は、基準のフォントセットを記憶する記憶部である。基準のフォントセットは、例えばＩＰＡフォントが考えられる。ＩＰＡフォントは、日本語アウトラインフォントであり、独立行政法人情報処理推進機構（ＩＰＡ：Information-technology Promotion Agency,Japanの略称）によって配布されているコンピュータ用のフォントセットであり、ＩＰＡ明朝 (IPAMincho)、ＩＰＡＰ明朝 (IPAPMincho)、ＩＰＡゴシック(IPAGothic)、ＩＰＡＰゴシック(IPAPGothic)がある。また、基準のフォントセットは、上記の例に限らず、基準となる一揃いのフォントセットであれば、任意の言語に対するフォントセットであってもよい。

　記憶部１６は、ハードディスク装置、フラッシュメモリ等から構成される記憶部であり、オペレーティングシステム、本発明に係るフォント作成プログラムを含む各種のプログラムの他、パラメータ等のデータ、文字画像取得部１２により取得された文字画像３２、本装置により生成された一揃いのフォントセット（第２フォントセット）等を記憶する。

　操作部１８は、コンピュータに有線接続又は無線接続されるキーボード及びマウス等が用いられ、フォント作成に当たって各種の操作入力を受け付ける。

　ＣＰＵ２０は、記憶部１６又はＲＯＭ２４等に記憶された各種のプログラム（本発明に係るフォント作成プログラムを含む）を読み出し、各種の処理を実行する。ＲＡＭ２２は、ＣＰＵ２０の作業領域として使用され、読み出されたプログラムや各種のデータを一時的に記憶する記憶部として用いられる。

　表示部２６は、コンピュータに接続可能な液晶モニタ等の各種モニタが用いられ、操作部１８とともに、ユーザインターフェースの一部として使用される。

　上記構成のフォント作成装置１０は、操作部１８からの指示入力によりＣＰＵ２０が、記憶部１６又はＲＯＭ２４に記憶されているフォント作成プログラムを読み出し、フォント作成プログラムを実行することにより、後述するように模倣したいスタイルの一揃いのフォントセットを作成する。

　［フォント作成装置の第１実施形態］
　図３は、本発明に係るフォント作成装置１０－１の第１実施形態を示すブロック図であり、図１に示したフォント作成装置１０の主要な機能を示す機能ブロック図である。

　図３に示すフォント作成装置１０－１は、主として特徴量抽出部４０、推定部４２、特徴量生成部４４、及びフォント生成部４６から構成されている。

　文字画像取得部１２（図２）により取得された文字画像３２は、特徴量抽出部４０に加えられる。特徴量抽出部４０は、入力する文字画像３２から、文字画像３２のスタイルを示すフォント（第１フォント）の特徴量（第１特徴量）を抽出する。

　特徴量抽出部４０による特徴量の抽出は、文字画像３２のスタイルを示す第１フォントに対する各特徴量をマージ（重み付き平均、機械学習による統合）する方法や、フォント全体から直接特徴量を計算する方法が考えられる。また、特徴量抽出部４０による特徴量の抽出は、デザイナの知見に基づくスコアリングや機械学習、特に深層学習で計算することが考えられる。例えば、特徴量抽出部４０は、デザイナが文字画像３２を見たときに、その文字画像３２の印象を決定付ける特徴部分の入力を受け付ける受付部を有し、受け付けた文字画像３２の特徴部分から第１特徴量を抽出することが考えられる。深層学習で特徴量を計算する場合、特徴量の抽出を学習した学習済みモデル（第１学習済みモデル）を使用し、この第１学習済みモデルに文字画像３２を入力することで、文字画像３２の第１特徴量を抽出する。

　特徴量抽出部４０により抽出された文字画像３２のスタイルを示す第１フォントの第１特徴量は、推定部４２に出力される。

　推定部４２は、文字画像３２のスタイルを示す第１フォントの第１特徴量と、基準のフォント（第２フォント）３４の特徴量（第２特徴量）との間の変形パラメータを推定する部分である。

　基準の第２フォント３４は、フォントセットＤＢ１４から取得することができる。ここで、基準の第２フォント３４は、フォントセットＤＢ１４に保存されている一揃いのフォントセットのうちの一部のフォントでもよいし、全てのフォントでもよい。また、第１フォントが、例えばアルファベットの場合、基準の第２フォントは、アルファベット（即ち、同じ種類のフォント）でもよいし、異なる２種類以上のフォント（例えば、「ひらがな」、「カタカナ」、「漢字」等）でもよい。

　推定部４２は、文字画像３２のスタイルを示す第１フォントの第１特徴量と、基準の第２フォント３４の第２特徴量との間の変形パラメータを推定する。この推定した変形パラメータは、基準の第２フォント３４の第２特徴量を、文字画像３２のスタイルを示す第１フォントの第１特徴量に変換するためのパラメータである。

　図４は、特徴量空間内における文字画像３２のスタイルを示す第１フォント（「入力ＡＩ」）の第１特徴量と、基準の第２フォント３４（「基準ＡＩ」）の第２特徴量と、第１特徴量と第２特徴量との関係を示す変形パラメータとを示している。

　推定部４２は、第１特徴量と第２特徴量との特徴量空間での距離、又は類似度を計算することで変形パラメータを推定することができ、あるいは後述するように機械学習により変形パラメータを推定することができる。

　また、推定部４２は、第２フォント３４を入力し、特徴量抽出部４０と同様に第２フォント３４の第２特徴量を抽出するが、フォントセットＤＢ１４、又はその他の記憶部に予め第２フォントの第２特徴量を記憶させておき、記憶された第２フォントの第２特徴量を入力してもよい。

　推定部４２により推定された変形パラメータは、特徴量生成部４４に加えられる。

　一方、フォントセットＤＢ１４から一揃いの基準のフォントセット３６が読み出され、基準のフォントセット３６を構成する複数のフォントが１文字ずつ特徴量生成部４４に加えられる。フォントセットＤＢ１４に記憶されている複数の種類の基準のフォントセット（例えば、アルファベット、ひらがな、カタナカ、漢字等のフォントセット）のうちのいずれの基準のフォントセットを特徴量生成部４４に入力させるかは、ユーザが操作部１８により指定することが可能である。

　特徴量生成部４４は、基準のフォントセット３６の特徴量（第３特徴量）を、推定した変形パラメータに基づいて変形処理することにより、第２フォントセット（生成するフォントセット）の第４特徴量を生成する。

　図５は、特徴量空間内における基準のフォントセット３６の第３特徴量が、変形パラメータにより第２フォントセット３８の第４特徴量に変形処理される様子を示す図であり、図５では、一揃いの基準のフォントセット３６として、「ひらがな」の「あ」～「ん」が選択されている場合に関して示している。

　「ひらがな」の基準のフォントセット３６の第３特徴量は、変形パラメータに基づいて特徴量生成部４４により第４特徴量に変形処理される。即ち、第３特徴量から変形処理された第４特徴量は、模倣したい文字画像３２のスタイルを示す第１フォントの第１特徴量と同様の特徴量になる。

　尚、特徴量生成部４４は、基準のフォントセット３６を入力し、特徴量抽出部４０と同様に基準のフォントセット３６の第３特徴量を抽出するが、フォントセットＤＢ１４、又はその他の記憶部に予め基準のフォントセットの第３特徴量を記憶させておき、記憶された基準のフォントセットの第３特徴量を入力してもよい。

　特徴量生成部４４により変形処理された第２フォントセットの第４特徴量は、フォント生成部４６に出力される。

　フォント生成部４６は、特徴量空間における第２フォントセットの第４特徴量を画像空間における画像に変換し、模倣したい文字画像３２のスタイルを有する一揃いの第２フォントセットを生成する。

　フォント生成部４６は、一揃いの第２フォントセットとして、文字画像を画素の集合として表現したラスタデータを生成するが、文字画像を点、線及び面で表現したベクタデータを生成するものでもよい。

　フォント生成部４６により生成された一揃いの第２フォントセットは、記憶部１６に記憶される。これにより、ユーザは、記憶部１６に記憶された、模倣したい文字画像３２のスタイルを有する一揃いの第２フォントセットを使用することができる。

　また、図５に示した例では、「ひらがな」の一揃いの基準のフォントセットを入力したが、これに限らず、任意の言語の基準のフォントセットを入力することができ、例えば、「アルファベット」の一揃いの基準のフォントセットを入力すると、模倣したい文字画像３２のスタイルを有する一揃いの「アルファベット」の第２フォントセットを生成することができる。

　［フォント作成装置の第２実施形態］
　図６は、本発明に係るフォント作成装置１０－２の第２実施形態を示す要部ブロック図であり、図１に示したフォント作成装置１０の主要な機能を示す機能ブロック図である。

　図６に示すフォント作成装置１０－２は、主として特徴量抽出部４０及び学習装置５０から構成されている。

　図６において、特徴量抽出部４０は、図３に示した特徴量抽出部４０と同様に文字画像３２を入力し、その文字画像３２の特徴量を抽出して学習装置５０（の損失値算出部５４）に出力する。

　学習装置５０は、文字画像３２と基準の第２フォントとを学習データとして使用して学習することにより、図３に示した推定部４２及び特徴量生成部４４に対応する学習済みモデル（第２学習済みモデル）を生成する。本例では、深層学習モデルの一つである畳み込みニューラルネットワーク（ＣＮＮ：Convolution Neural Network）５２を構築する。

　図６に示す学習装置５０は、主としてＣＮＮ５２と、損失値算出部５４と、パラメータ制御部５６とから構成される。

　ＣＮＮ５２は、複数のレイヤー構造を有し、複数の重みパラメータを保持している。ＣＮＮ５２は、重みパラメータが初期値から最適値に更新されることで、未学習モデルから学習済みモデルに変化しうる。ＣＮＮ５２の重みパラメータの初期値は、例えば、画像の分類等を行う画像系の学習済みモデルの重みパラメータを適用することができる。これによれば、ＣＮＮ５２は事前学習されたものとなり、僅かな学習データによる学習（ファインチューニング）により所望の学習モデルとなる。

　このＣＮＮ５２は、入力層５２Ａと、畳み込み層とプーリング層から構成された複数セットを有する中間層５２Ｂと、出力層５２Ｃとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。

　入力層５２Ａには、学習対象である第２フォント３４が入力される。

　中間層５２Ｂは、畳み込み層とプーリング層とを１セットとする複数セットを有し、入力層５２Ａから入力した第２フォント３４（画像）から特徴を抽出する部分である。畳み込み層は、前の層で近くにあるノードにフィルタ処理し（フィルタを使用した畳み込み演算を行い）、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。尚、中間層５２Ｂには、畳み込み層とプーリング層とを１セットとする場合に限らず、畳み込み層が連続する場合や正規化層も含まれる。

　出力層５２Ｃは、ＣＮＮ５２の認識結果（本例では、フォントの特徴を示す特徴マップ）を出力する部分である。

　損失値算出部５４は、ＣＮＮ５２の出力層５２Ｃから出力される認識結果（特徴マップ）と、模倣したい文字画像３２のスタイルを示す第１フォントの第１特徴量（訓練データ）とを取得し、両者間の損失値を算出する。損失値の算出方法は、例えばソフトマックスクロスエントロピー、シグモイドなどが考えられる。

　パラメータ制御部５６は、損失値算出部５４により算出された損失値を元に、誤差逆伝播法により、訓練データ（第１特徴量）とＣＮＮ５２の出力（第２特徴量）との特徴量空間での距離を最小化させ、又は類似度を最大化させるべ、ＣＮＮ５２の重みパラメータを調整する。

　このパラメータの調整処理を繰り返し行い、損失値算出部５４により算出される損失値が収束するまで繰り返し学習を行う。

　このようにして重みパラメータが最適化された学習済みのＣＮＮ５２は、第２フォント３４の第２特徴量を抽出し、文字画像３２のスタイルを示す第１フォントの第１特徴量と第２フォント３４の第２特徴量との間の変形パラメータとしての重みパラメータを有する。

　そして、学習済みのＣＮＮ５２の入力画像として、基準のフォントセット３６を入力すると、学習済みのＣＮＮ５２は、基準のフォントセットの第３特徴量を、模倣したい文字画像３２のスタイルを示す第１フォントの第１特徴量と同様な第４特徴量（特徴マップ）を出力する。この学習済みのＣＮＮ５２は、図３に示した推定部４２及び特徴量生成部４４として機能する。

　学習済みのＣＮＮ５２から出力される第２フォントセットの第４特徴量（特徴マップ）は、フォント生成部４６（図３）により特徴量空間における第２フォントセットの第４特徴量が画像空間に変換された画像（文字画像）になる。フォント生成部４６は、画像の特徴量（第２フォントセットの第４特徴量）を画像に変換する自己符号化器にて構成することができる。

　［フォント作成方法］
　図７は、本発明に係るフォント作成方法の実施形態を示すフローチャートであり、図３に示した第１実施形態のフォント作成装置１０－１の各部の処理手順に関して示している。

　図７において、まず、文字画像取得部１２（図２）により模倣したいスタイルの文字画像３２を取得する（ステップＳ１０）。

　特徴量抽出部４０は、ステップＳ１０で取得した文字画像３２から、文字画像３２のスタイルを示す第１フォントの第１特徴量を抽出する（ステップＳ１２）。

　続いて、推定部４２により、文字画像３２のスタイルを示す第１フォントの第１特徴量と、基準のフォント（第２フォント）３４の第２特徴量との間の変形パラメータを推定する（ステップＳ１４）。

　特徴量生成部４４は、フォントセットＤＢ１４から読み出された一揃いの基準のフォントセット３６の第３特徴量を、ステップＳ１４で推定した変形パラメータに基づいて変形処理し、第２フォントセットの第４特徴量を生成する（ステップＳ１６）。

　フォント生成部４６は、ステップＳ１６で生成された特徴量空間における第２フォントセットの第４特徴量を画像空間における画像に変換し、模倣したい文字画像３２のスタイルを有する一揃いの第２フォントセットを生成する（ステップＳ１８）。

　［その他］
　本実施形態のフォント作成装置１０の各種制御を実行するハードウエア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の制御部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

　１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の制御部を１つのプロセッサで構成してもよい。複数の制御部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の制御部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の制御部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の制御部は、ハードウエア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

　また、これらの各種のプロセッサのハードウエア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

　また、本発明は、コンピュータにインストールされることにより、本発明に係るフォント作成装置として機能させるフォント作成プログラム、及びこのフォント作成プログラムが記録された記録媒体を含む。

　更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１０、１０－１、１０－２　フォント作成装置
１２　文字画像取得部
１２Ａ　画像入力部
１２Ｂ　切出部
１４　フォントセットＤＢ
１６　記憶部
１８　操作部
２０　ＣＰＵ
２２　ＲＡＭ
２４　ＲＯＭ
２６　表示部
３０　画像
３２　文字画像
３４　第２フォント
３６　基準のフォントセット
３８　第２フォントセット
４０　特徴量抽出部
４２　推定部
４４　特徴量生成部
４６　フォント生成部
５０　学習装置
５２　畳み込みニューラルネットワーク（ＣＮＮ）
５２Ａ　入力層
５２Ｂ　中間層
５２Ｃ　出力層
５４　損失値算出部
５６　パラメータ制御部
Ｓ１０～Ｓ１８　ステップ

Claims

　第１フォントの一部の文字から構成される文字画像を取得する文字画像取得部と、
　前記取得した文字画像から前記第１フォントの第１特徴量を抽出する特徴量抽出部と、
　前記抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定する推定部と、
　一揃いの基準のフォントセットの第３特徴量を、前記推定した変形パラメータに基づいて変形させることにより、一揃いの第２フォントセットの第４特徴量を生成する特徴量生成部と、
　前記生成された前記第２フォントセットの第４特徴量を画像に変換し、前記第２フォントセットを生成するフォント生成部と、
　を備えたフォント作成装置。
　前記文字画像取得部は、前記第１フォントの一部の文字が撮像された画像を入力する画像入力部と、前記入力した画像から前記文字に対応する文字領域を切り出す切出部と、を備え、前記切り出した文字領域の画像を前記文字画像とする請求項１に記載のフォント作成装置。
　前記特徴量抽出部は、特徴量の抽出を学習した第１学習済みモデルであり、前記第１学習済みモデルは、前記取得した文字画像を入力し、前記文字画像の第１特徴量を出力する請求項１又は２に記載のフォント作成装置。
　前記特徴量抽出部は、前記文字画像の特徴部分を示すデザイナからの入力を受け付ける受付部を有し、前記受付部により受け付けた前記文字画像の特徴部分から前記第１特徴量を抽出する請求項１又は２に記載のフォント作成装置。
　前記推定部は、前記第１特徴量と前記第２特徴量との特徴量空間での距離、又は類似度を計算して前記変形パラメータを推定する請求項１から４のいずれか１項に記載のフォント作成装置。
　前記推定部及び前記特徴量生成部は、第２学習済みモデルであり、
　前記第２学習済みモデルは、前記第１特徴量と前記第２特徴量との特徴量空間での距離を最小化し、又は前記第１特徴量と前記第２特徴量との類似度を最大化するモデルであり、前記一揃いの基準のフォントセットを入力することで、前記第２フォントセットの第４特徴量を生成する請求項１から４のいずれか１項に記載のフォント作成装置。
　前記フォント生成部は、前記第２フォントセットの第４特徴量を画像に変換する自己符号化器である請求項１から６のいずれか１項に記載のフォント作成装置。
　前記フォント生成部は、前記第２フォントセットとしてベクタデータを生成する請求項１から７のいずれか１項に記載のフォント作成装置。
　前記フォント生成部は、前記第２フォントセットとしてラスタデータを生成する請求項１から７のいずれか１項に記載のフォント作成装置。
　前記基準のフォントセットは、前記第１フォントとスタイルが異なる同じ種類のフォントセットである請求項１から９のいずれか１項に記載のフォント作成装置。
　前記基準のフォントセットは、前記第１フォントとスタイルが異なる２種類以上のフォントセットを含む請求項１から１０のいずれか１項に記載のフォント作成装置。
　第１フォントの一部の文字から構成される文字画像を取得するステップと、
　前記取得した文字画像から前記第１フォントの第１特徴量を抽出するステップと、
　前記抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定するステップと、
　一揃いの基準のフォントセットの第３特徴量を、前記推定した変形パラメータに基づいて変形させることにより、一揃いの第２フォントセットの第４特徴量を生成するステップと、
　前記生成された前記第２フォントセットの第４特徴量を画像に変換し、前記第２フォントセットを生成するステップと、
　を含むフォント作成方法。
　第１フォントの一部の文字から構成される文字画像を取得する機能と、
　前記取得した文字画像から前記第１フォントの第１特徴量を抽出する機能と、
　前記抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定する機能と、
　一揃いの基準のフォントセットの第３特徴量を、前記推定した変形パラメータに基づいて変形させることにより、一揃いの第２フォントセットの第４特徴量を生成する機能と、
　前記生成された前記第２フォントセットの第４特徴量を画像に変換し、前記第２フォントセットを生成する機能と、
　をコンピュータにより実現させるフォント作成プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に、
　第１フォントの一部の文字から構成される文字画像を取得する機能と、
　前記取得した文字画像から前記第１フォントの第１特徴量を抽出する機能と、
　前記抽出した第１特徴量と基準の第２フォントの第２特徴量との間の変形パラメータを推定する機能と、
　一揃いの基準のフォントセットの第３特徴量を、前記推定した変形パラメータに基づいて変形させることにより、一揃いの第２フォントセットの第４特徴量を生成する機能と、
　前記生成された前記第２フォントセットの第４特徴量を画像に変換し、前記第２フォントセットを生成する機能と、
　を含むフォント作成機能をコンピュータに実行させる記録媒体。