WO1999034352A1

WO1999034352A1 - Procede de reconnaissance de la musique et support d'enregistrement lisible par un ordinateur sur lequel est enregistre un programme de reconnaissance de la musique

Info

Publication number: WO1999034352A1
Application number: PCT/JP1998/002895
Authority: WO
Inventors: Seiji Nakano
Original assignee: Kabushiki Kaisha Kawai Gakki Seisakusho
Priority date: 1997-12-26
Filing date: 1998-06-29
Publication date: 1999-07-08
Also published as: JP3607065B2; JPH11194762A; US6580805B1

Description

明細書楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体

技術分野

本発明は、楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

背景技術

画像をスキャナ等で入力してこれらに含まれる文字や記号を認識させるには、認識率に重大な影響を及ぼす原稿の傾きの調整等と共に、取り込む画像の解像度を調整することが行われ、更に 2値化画像の取り込みの場合は、 2値化しきい値の設定を行って、 2値画像の判定を行う必要がある。

原稿の傾きや取り込み解像度については、最適な状態にすることは比較的容易であるが、 2値化しきい値については、認識アルゴリズムに依存する部分なので、認識アルゴリズムが知らされていない場合には、最適な値への設定が難しい。また表示の解像度によっては、 2値化の状態を充分に目視でチェックできない場合も多い。

従って手動で設定した 2値化のしきい値が適当でないために、認識性能が充分に引き出せないということが多い。

更に認識が行われた後、認識率の低い原因が 2値化しきい値であることが判明した場合、もう一度画像の取り込みからやり直すと、結局処理工数が増え、処理に時間が掛かるといった問題を生ずる。

本発明は従来技術の以上のような問題に鑑み創案されたもので、認識率に重大な影響を及ぼす画像 2値化のしきい値設定を、認識に最適な値に自動で設定することができる構成を提供せんとするものである。

発明の開示

そのため請求の範囲 1の構成は、楽譜イメージを読み取って、その音楽記号を認識し、演奏及び Z又は楽譜表示のためのデータを作成する楽譜認識方法におレ、て、楽譜情報を用いて、 2値化しきい値の設定を行い、楽譜イメージを 2値化画像として取り込むことを基本的特徴としている。

請求の範囲 4の構成は、上記手順を、記録媒体として提供するものであって、その具体的構成は、楽譜イメージを読み取って、その音楽記号を認識し、演奏及び/又は楽譜表示のためのデータを作成する楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体において、楽譜情報を読み込む情報読み込みステツプと、読み込まれた楽譜情報に基づき 2値化しきい値の設定を行うしきい値設定ステップと、設定された 2値化しきい値に基づいて、楽譜イメージを 2値化画像として取り込む 2値化画像取り込みステップとを実行させるプログラムを含んでいることを基本的特徴としている。

これらの構成では、 2値化しきい値の設定を楽譜情報に基づいて行うため、操作者の試行錯誤による設定が必要なくなり、自動的に最適なしきい値に設定され、認識がなされる。それによつて全体的な認識率の向上も図れることになる。その場合、楽譜情報として、第 1図に示すように、五線間隔 Hと五線の線幅 tを求め、この割合が最適になるしきい値を検出すると良い。その理由を以下に説明する。 2値化しきい値が替わると 2値画像の濃さが変わり、線の太さが変わる。よって、 2値化しきい値によって、楽譜画像の五線の線幅が変化する。様々な楽譜を階調画像として取り込み、これを様々なしきい値で 2値化し、最も高い認識率が得られるものに対して、五線の線幅を五線間隔によって正規化した値（五線間隔に対する五線の線幅の割合）が略一定の値をとる場合、この値に近づくように 2値化しきい値を設定すれば、略妥当な認識率で 2値楽譜画像を作成することができる。解像度等によって、最適なしきい値における五線間隔に対する五線の線幅の割合が変化する場合（解像度が低いと、五線間隔に対する五線の線幅の割合が高い方が認識率が高く、逆に解像度が高いと、その反対となるような場合）には、五線間隔に対して、線形関数やテーブル変換などにより、目標値を変えるようにすれば良い。

更に五線の線幅や間隔が段落毎或いはパ一ト毎に違う等の場合には、単に五線の間隔と五線の線幅を求めただけでは、結局適切なしきい値の設定はできないことになる。そこで請求の範囲 2の構成は、画像を複数のブロックに分割（例えば段落毎やパート毎、或いは五線毎に、更には横方向に分割）し、各ブロック毎に、楽譜情報を用いて 2値化しきい値の設定を行い、楽譜イメージを 2値化画像として取り込む構成としている。

同様に請求の範囲 5の構成は、上記手順を、楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体として提供するものであって、その具体的構成は、画像を読み込む画像読み込みステップと、読み込まれた画像を複数のプロックに分割する画像分割ステップと、各ブロック毎に楽譜情報を読み込む情報読み込みステップと、読み込まれた楽譜情報に基づき、各ブロック毎の 2値化しきい値の設定を行うしきい値設定ステップと、各ブロック毎に設定された 2値化しきい値に基づいて、楽譜イメージを 2値化画像として取り込む 2値化画像取り込みステップとを実行させるための楽譜認識プログラムを、上記記録媒体に含む構成である。この構成の場合も、前記楽譜情報として、五線間隔と五線の線幅が適していることは言うまでもなレ、。

図面の簡単な説明

第 1図は、五線の線幅と五線間隔を示す説明図、第 2図は、請求の範囲 4に係る楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体を外部記憶装置で読み込ませて稼動する楽譜認識装置の実施形態構成を示すプロック図、第 3図は、 C P Uのメイン処理を示すフローチャート、第 4図は、自動 2値化処理のメイン処理ステップを示すフローチャート、第 5図は、 2分法によるしきい値の検出手順を示すフローチャート、第 6図は、しきい値判定が T— O Kで終了した際 T 〇Kの帯域のどこをしきい値とするか決定する場合の帯域上限の検出手順を示すフローチャート、第 7図は、しきい値判定の処理フローを示すフロ一チャート、第 8図は、楽譜を縦方向に走査してしきい値より値が大きいか小さいかで背景と図を分離する状態を示す説明図、第 9図は、五線に線幅及び五線間隔の夫々のラン長のヒストグラムを示すグラフ、第 10図は、画像の縦方向の走査を或る間隔をおいて行う状態を示す説明図、第 1 1図は、しきい値判定を行うために設定された五線を囲む矩形の設定状態を示す説明図、第 1 2図は、しきい値判定領域として設定された短冊型の例を示す説明図、第 1 3図は、しきい値決定における 2値化処理の例を示す説明図である。

発明を実施するための最良の形態

(実施形態 1 )

以下本発明の一実施形態を添付図面に基づき説明する。第 2図は請求の範囲 4 に係る楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体を後述するフレキシブルディスクドライブ FDD 5等の外部記憶装置（或いは CD— ROMドライブ等）で読み込ませて稼動する楽譜認識装置の実施形態構成を示すブロック図である。この装置は、パソコンなどの電子計算機の構成に、スキャナや M I D Iインタ一フェース回路を付加したものである。 CPU 1は、 ROM2 或いは R AM 3に格納されるプログラムに基づき、楽譜認識装置全体の制御を行う中央演算処理装置である。また予め設定された所定の周期で CPU 1に割り込みをかけるタイマ回路を内蔵している。 RAM3はプログラムエリアの他、画像データバッファ、ワークエリア等として使用される。ハードディスク装置 HDD

4及びフレキシブルディスクドライブ FDD 5は、プログラム及び画像データ、演奏データ等を格納する。 CRT 6は CPU 1の制御に基づき、 CRTインタ一フエ一ス回路 7から出力される映像情報を表示し、キーボード 8カゝら入力された情報は、キーボードインターフエ一ス回路 9を経て C PU 1に取り込まれる。プリンタ 1 0は、 CPU 1の制御に基づき、プリンタインタ一フェース回路 1 1から出力される印字情報を印字する。

スキャナ 1 2は、例えば（印刷された）楽譜を光学的に走査して、グレースケ —ル或いはカラーの画像を単色階調付データに変換するもの（但し 2値画像も取り込める）であり、フラットベッド型、ハンディ型、フィーダ型等任意のタイプのスキャナを使用できる。スキャナ 1 2によって読み取られた画像情報は、スキャナインターフェース回路 1 3を介して、 R AM 3或いは H D D 4に取り込まれる。 M I D Iインターフェース回路 1 4は、音源モジュール等の外部の M I D I 機器との間で M I D Iデータの送受信を行う回路である。バス 1 5は、本楽譜認識装置内の各回路を接続し、各種データ、プログラム、アドレス等をやり取りさせている。なお、この他にマウスなどのポインティングデバイスや R S 2 3 2 C 等のシリアルインタ一フェース回路等を備えていても良い。

第 3図は C P U 1のメイン処理を示すフロ一チヤ一トである。ステップ S Iにおいては、スキャナ 1 2によって楽譜のィメ一ジ（この中には五線の線幅及び五線間隔も楽譜情報として取り込まれる）を R AM 3に取り込む。画像は単色階調付イメージとして取り込む。もちろんそのような形式でハ一ドディスク等に保存されたイメージファイルを読み込んでも良い。カラ一画像の場合には、その画像形式に応じた処理によって、単色階調付画像に変換することができる。スキャナから取り込んだりファイルとして読み込んだ画像が 2値画像であった場合には、自動 2値化はできないので、そのまま認識する力 \ 自動 2値化を行うために階調付画像として取り込みをやり直す。楽譜イメージを取り込んだ R AM 3の記憶容量が足りない場合には、画像を部分的に R AM 3に格納した上で、順次処理することもできる。尚、本構成では 1画素 8ビット 2 5 6階調で取り込んでいるが、このビット数に限定されるわけではない。また階調は、数値の大きいものが白、数値の小さいものが黒として、以下説明される。

ステップ S II において、自動 2値化処理（しきい値設定処理）が行われる。この自動 2値化処理については、後述する。そしてステップ S III において、取り込まれた階調画像を、設定された 2値化しきい値に基づいて 2値化し、楽譜ィメージを 2値化画像として取り込む。

第 4図は、上記自動 2値化処理のメイン処理ステップを示している。まずステップ S 1において、 2分法によるしきい値（ t h r e s ) の検出を行う。 2 5 6 段階全てで五線の線幅と五線間隔を検出し、目標のしきい値を求めても良いが、実行速度に問題が出てきてしまうので、 2分法で最適しきい値を求めることにした。この処理については、後述する。

前述のように、 256階調程度あれば、 2分法のループ 8回程度で目的のしきい値が得られる。しカゝし、本実施形態では、五線間隔及び五線の線幅を整数で求めているため、五線間隔に対する五線の線幅の割合が段階的に変化しており、 8 回未満で目的のしきい値を検出できる場合もある。この状態で自動 2値化のしきい値検出処理を終了しても良いが、目的の割合と同値の帯域が広い場合は、しきい値をその帯域の中点とした方が、より正確なしきい値を得ることができる。そこで、ステップ S 3において、割合が目標値と同じ値になる帯域が存在する場合には、その帯域の上限と下限を求め、その中点をしきい値（t h r e s) とするようにした。ステップ S 2は、その際、割合が目標値と同じ値になる帯域が存在するか否かを判断するために行われる処理であり、しきい値判定処理の結果（r e t ) の値がしきい値判定終了コード [T— OK (目的の割合 DE ST— PER と等しい値となった場合の値）] になったか否かが判定される。ステップ S 3は、上述のように、帯域の上限と下限を求め、その中点をしきい値（t h r e s) とする処理である。即ちステップ S 30において、帯域上限（t h r e s 2) を検出し、ステップ S 3 1において、帯域下限（ t h r e s 3) を検出して、ステツプ S 32において、この上限（ t h r e s 2) と下限（ t h r e s 3) の中点を求め、しきい値（t h r e s) として設定する。この上限及び下限の検出についても、後述するように、 2分法によって行うことができる。尚、五線の線幅及び五線間隔を実数で検出する等して、割合が充分連続的に変化するようにすれば、帯域の上限及び下限の検出処理は不要となる。この後、上述したように、ステツプ S III において、取り込まれた階調画像を、設定された 2値化しきい値に基づいて 2値化し、楽譜イメージが 2値化画像として取り込まれる。

第 5図は、上記ステップ S 1における 2分法によるしきい値（ t h r e s ) の検出手順を示している。ステップ S 100において、初期設定を行う。即ち最大しきい値（ t h r e s Ma X ) に階調最大値 255を、また最小しきい値（ t h r e sM i n) に階調最小値 0をセットし、更に 2分法によるしきい値検出処理ループの繰り返し回数をカウントするカウンタ（c t) に 256をセットすると共に、しきい値判定処理結果の最大値（r e tMa X) 及び同結果の最小値（r e tM i n) に、五線間隔 '五線の線幅が検出できなかったことを示す T—N〇 Tをセットする。

次にステップ S 1 01において、前記 t h r e sMa xと t h r e s M i nの中間の値をしきい値（t h r e s) とする。ステップ S 1 02において、このしきい値（ t h r e s ) の後述する判定処理を行ってその結果を r e tとする。その判定処理結果とは、後述するように、 T— OK (しきい値が目的の割合 DE S T PERと等しい値と判定された場合の出力結果）、 T— TH I N (しきい値が目的の割合 DE ST PERより小さい値と判定された場合、即ち五線の線が細いと判定された場合の出力結果）、 T— TH I CK (しきい値が目的の割合 DE ST— PERより大きい値と判定された場合、即ち五線の線幅が太いと判定された場合の出力結果）、 T— NOT (五線間隔、五線の線幅が検出できないと判断された場合の出力結果）がある。

ステップ S 103において、上記判定処理結果（r e t) が T— NOTであるか否かが判断され、 T_NOTでないと判断された場合、即ち五線間隔及び五線の線幅が検出できる場合は、ステップ S 1 04に移行して、上記判定処理結果（r e t ) が T— OKか否かが判定される。この処理結果（r e t) が T—〇Kならば、ループから抜け出し、 2分法によるしきい値の検出処理を終了する（即ち第 4図のステップ S 2における判定が YESとなり、ステップ S 3の処理に移る）。他方、該処理結果（r e t) が T— OKでないならば、ステップ S 1 05に移行し、該処理結果（r e t) が T— TH I CKか否かが判定される。この処理結果が T— TH I CKならば（五線の線幅が太い場合）、ステップ S 107において、しきい値（ t h r e s ) を最大しきい値（t h r e sMa x) とし、ステップ S 101の計算式においてしきい値を再計算する際に、最大しきい値（t h r e s Ma x) をより小さい側に変更できるようにする（五線の線幅が細い側寄りになるようにしきい値を設定し直す）。一方前記処理結果が T— TH I CKでないならば（五線の線幅が細い場合）、ステップ S 1 06において、しきい値（t h r e s ) を最小しきい値（ t h r e sM i n) とし、ステップ S 1 01の計算式においてしきい値を再計算する際に、最小しきい値（ t h r e sM i n) をより大きい側に変更できるようにする（五線の線幅が太い側寄りになるようにしきい値を設定し直す）。

ステップ S 1 03において、上記判定処理結果（r e t) が T— NOTであると判断された場合、即ち五線間隔及び五線の線幅が検出できない場合は、しきい値が濃い側或いは薄い側のどちらに振れているかを、ステップ S 109以下のしきい値オーバ一フロ一チヱックで判定し、これに基づいて 2分法の処理を行う。但ししきい値ォ一バーフローチェックは処理コス卜の高い処理になるので、両端のしきい値判定結果を、同結果の最小値（r e tM i n) 及びその最大値（r e tMa x) として保存しておく。そしてステップ S 1 08で、 r e tMa x並びに r e tM i nが T— NOTか否かが判定され、両方が T— NOTの場合、ステップ S 1 09でしきい値のォ一バーフローチェックがなされる。そしてステップ S 1 1 0において、しきい値が濃い側或いは薄い側のどちらに振れているかが判定され、黒側にオーバーフローしている場合は、ステップ S 1 1 2において、しきい値（ t h r e s ) をその最大値（ t h r e s Ma X) にセットし、しきい値判定結果の最大値（r e tMa X) が T— NOTとなる。逆に白側にオーバーフ口一している場合は、ステップ S 1 1 1において、しきい ί直 ( t h r e s ) をその最小値（ t h r e s M i n) にセットし、しきい値判定結果の最小値（r e t M i n) が T— NOTとなる。

上記のステップ S 1 08において、 r e t Ma x或いは r e t M i nのうちの一方が T— NOTでないと判定された場合は、ステップ S 1 1 3以下で T— NO Tでない側に近づくように 2分法処理を行うことで、しきい値オーバーフローチエックの呼び出し回数を減らすことができる。該ステップ S 1 1 3において、 r e tMa Xと r e tM i nのどちらが T— NO Tでないかが判定され、 r e tM a xが T— NOTでない場合はステップ S 1 1 4で、しきい値（t h r e s) をその最小値（t h r e sM i n) にセットし、しきい値判定結果の最小値（r e t M i n) が T— NOTとなる。 r e tM i nが T— NOTでない場合はステツプ S 1 1 5で、しきい値 (t h r e s) をその最大値（ t h r e s Ma x) にセットし、しきい値判定結果の最大値（r e tMa x) が T— NOTとなる。しきい値判定結果（r e t) が T OKの場合以外は、ステップ S 1 1 7で力ゥンタ（c t) の数を半分に減らして、以上の処理をカウンタ（c t) の数が 1 になる（ステップ S 1 1 6) までループで繰り返す。このように、開始帯域を t h r e sM i nから t h r e sMa xとし、 2分法により、領域を狭めていき、最後に判定された結果が、 2値化しきい値（t h r e s) となる（参照ステップ S 1 )。

以上のようにして 2値化しきい値が検出された後、上述のように、ステップ S 2において、しきい値判定が r e t =T— OKで終了した場合には、ステップ S 3で、 Τ—ΟΚの帯域のどこをしきい値とするか決定する必要がある。第 6図はそのような決定を行う場合の、ステップ S 30における帯域上限（ t h r e s 2) の検出手順を示している。

まずステップ S 300において、初期設定を行う。即ち上記の最大しきい値（ t h r e sMa x)をそのまま本処理における最大しきい値（ t h r e s Ma x 2) とし、また上記処理によって求められたしきい値（t h r e s) を本処理における最小しきい値（t h r e sM i η 2) としてセッ卜すると共に、 2分法によるしきい値検出処理ループの繰り返し回数をカウントするカウンタ（c t) に上記最大しきい値（ t h r e sMa X 2) から最小しきい値（ t h r e sM i n 2) を引いた値 + 1をセッ卜する。

次にステップ S 30 1において、前記 t h r e sMa x 2と t h r e sM i n 2の中間の値をしきい値（ t h r e s 2) とする。ステップ S 302において、このしきい値（ t h r e s 2) の後述する判定処理を行ってその結果を r e tとする。その判定処理結果とは、後述するように、 T— OK (しきい値が目的の割合 DEST— PERと等しい値と判定された場合の出力結果）、 T— TH I N (しきい値が目的の割合 DE ST— PERより小さい値と判定された場合、即ち五線の線幅が細いと判定された場合の出力結果）、 T— TH I CK (しきい値が目的の割合 DE ST— PERより大きい値と判定された場合、即ち五線の線幅が太いと判定された場合の出力結果）、 T— NOT (五線間隔、五線の線幅が検出できないと判断された場合の出力結果）がある。

ステップ S 303において、上記判定結果（r e t) が T— OKであるか否かが判断され、 T —OKであると判断された場合、即ち判定結果（r e t) が目的の割合（D E ST— PER) と等しい値になった場合は、ステップ S 305で、前記しきい値（ t h r e s 2 ) の値を最小しきい値（t h r e sM i n 2) としてセットする。ステップ S 303において、上記判定結果（r e t) が T—〇K でないと判断された場合は、しきい値 (t h r e s 2) の値を最大しきい値（t h r e s Ma X 2) としてセットする。その後ステップ S 307でカウンタ（c t ) の数を半分に減らして、以上の処理をカウンタ（c t) の数が 1になる（ステツプ S 306) までループで繰り返す。このように、五線の線幅の五線間隔に対する割合が或る帯域を持った場合の帯域上限の検出フローは、 t h r e s =T —OKとなった時点での、 t h r e sから t h r e sMa xまでを 2分法で検索し、 T— OKである領域とそうでない領域の境界を検出する。即ち開始帯域を t h r e sM i n 2から t h r e sMa x 2とし、 2分法により、領域を狭めていく。最後に判定された結果が、 t h r e s 2となる（参照ステップ S 30)。ステップ S 3 1の帯域の下限の検出も同様のフローで行い、下限の結果は t h r e s 3となる。これについては、 t h r e sから t h r e s M i nまでを 2分法で検索し、 T—OKである領域とそうでない領域の境界を検出することになり、処理手順は上記帯域の上限の検出と同様になるので、省略する。そして、上述のように、ステップ S 32において、以上のようにして求められた t h r e s 2と t h r e s 3の中点をしきい値（ t h r e s ) とする。

第 7図は第 5図のステップ S 1 02及ぴ第 6図のステップ S 302におけるしきい値判定の処理フローを示している。まずステップ S 1020において、五線間隔（b 1 a n k) 及び五線の線幅（ t h i c k) の検出を行う。即ち第 8図に示すように、楽譜を縦方向に走査し、上記しきい値（ t h r e s、 t h _Γ e s 2、 t h r e s 3) より値が大きいか小さいかで背景と図を分離し、第 9図に示すように、背景及び図の夫々のラン長のヒストグラムを作成する。そして背景、図、夫々のヒストグラムの最大値を持つ添字、或いは最大値を持つ添字付近の或る帯域の値の重心位置を、五線間隔（b 1 a n k) 及び五線の線幅（t h i c k) とする。実際は上記 b 1 a n kは、背景のラン長であるので、五線間隔に対する五線の線幅の割合を計算する際には、五線間隔として、（b l a n k+ t h i c k) を充当する（b l a n kの両端に t h i c k 2を足したものとする）。また画像の縦方向の走査は、横座標 Xの全ての位置において行う必要はない。処理速度の向上のため、第 1 0図に示すように、或る間隔をおいて行えば良い。

この検出時点で b 1 a n k = 0となった場合（ステップ S 1 02 1)、五線間隔の検出に失敗している（真っ黒か真っ白の何れかで検出できない）ので、ステップ S 1 028で判定結果（r e t) を T— N O Tとして処理を終了する。五線間隔や五線の線幅の検出失敗は、この他にも、 t h i c 1^ = 0の場合ゃ1 h i c k > b 1 a n kとなった場合や、 t h i c kや b 1 a n kが或る範囲を超えた場合を追加しても良い。

この判定後ステップ S 1 022において、五線間隔（b 1 a n k + t h i c k) に対する五線の線幅（t h i c k) の割合（p e r) を求める。もちろんより正確な値を得たり、認識率との対応をより良好にしたりするために、フローとは異なる数式により上記割合（p e r) を求めても良い。次にステップ S 1 023において、この割合（p e r) が目的の割合（D EST— PER) と等しいか否かが判定され、等しいと判定された場合は、ステップ S 1 027において、判定結果（r e t) を、 T—〇Kとし、ステップ S 1 024において、それより大きいと判定された場合は、ステップ S 1 025において、判定結果（r e t) を、 T — TH I CKとし、更にそれより小さいと判定された場合は、ステップ S 1 02 6において、判定結果（r e t) を、 T— TH I Nとして判定を終了する。

第 5図におけるステップ S 1 09のしきい値オーバ一フローチェックとは、そのしきい値で 2値化した場合、略真っ黒或いは真っ白になる状態を判定することを言う。よってそのチェックは、画素の値がしきい値より大きいものと小さいものをカウントし、この数を判定すれば良い。もちろん画像全ての画素を計測する必要はなく、前記五線間隔や五線の線幅検出時の X位置でチェックすれば良い。正確さは要求されないので、高速化のために、更に X位置を削減しても良い。ォ一バーフローチェック時は、黒か白どちらかにオーバーフローしているとして、黒のカウント数がチェック画素数（オーバーフローチェックを行う X位置での画素合計）の半分以上になった時点で黒にオーバーフロ一したと判定して処理を終了し、黒のカウント数がチェック画素数の半分に満たなかった場合には白にォーバーフローしたと判定しても良い。 (実施形態 2 )

上記実施形態 1では、画像全体で検出した五線間隔と五線の線幅をしきい値決定の基準値としているが、これは、五線以外の部分のラン長も反映されたものなので、表題や絵、楽譜の折り目の影等の影響を受け、ヒストグラムの山が正しい五線間隔や五線の線幅よりもずれてしまい、五線の部分のみで検出した場合の五線間隔や五線の線幅とは異なつてしまう場合がある。よつて一旦大まかなしきい値で 2値化した画像について五線認識を行い、その後の 2分法のしきい値検出処理を、この五線周辺に限定する。

本構成においても、前記実施形態と同様にして R AM 3に格納された単色階調付き画像（1画素 8ビット形式で格納）を適当な 2値化しきい値で 2値化する。五線認識は、 2値化しきい値にさほど影響を受けないので、単純に仮のしきい値を階調の中央の値とする。このしきい値で五線間隔と五線の線幅の検出を行い、これが五線認識の許容範囲内であれば、このしきい値で五線検出を行う。即ち、五線部分の画像を縦方向に走査して、しきい値より大きいか否かで線部分とブランクの部分とに分け、夫々のヒストグラムを作成する。これらのヒストグラムを元に、五線間隔と五線の線幅の認識を行う。許容範囲内でない場合は、更に 2分法により許容範囲になる値を探しても良いが、五線認識を行うのをやめ、前記実施形態と同様に、画像全体で五線間隔と五線の線幅の検出を行い、しきい値を設定する方法に切り替えても良い。

五線認識は、 R AM 3中に、階調画像領域とは別に作成した仮の 2値化画像に対して行うようにしても良い。即ち、五線部分の画像を縦方向に走査して、 0か 1かで線部分とブランクの部分とに分け、夫々のヒストグラムを作成する。これらのヒストグラムを元に、五線間隔と五線の線幅の認識を行う。但し、記憶領域削減のために、別の領域を作らず、仮の 2値化画像を階調付き画像の最下位ビッ卜に上書きしても良い（2 5 6階調程度あれば、最下位ビットの変更はしきい値の検出にあまり影響を与えないため）。

また求められた仮の 2値化しきい値に基づいて、階調付き画像から直接五線を認識しても良い。更に五線が 1本検出できた時点で、その認識処理を終了しても良い。第 1 1図に示すように、検出した五線を囲む矩形（点線部分）を設定する。左右端は五線の端点とする。加線は五線よりも少し太い線で書かれることが多く、また加線の間幅も五線より広い場合が多いので、前記矩形の上下は、加線を含まない領域としても良い。

上記実施形態 1と同様な方法で、 2値化したしきい値を検出する。但し処理領域を、上記の矩形に限定する。これによつてより正確な五線間隔及び五線の線幅が得られ、且つ矩形が小さいため、以降の処理工数は低減される。また五線認識が既に行われているので、この時点で五線間隔は検出されており、 2分法処理時には、五線の線幅の検出だけを行うようにすれば、更に高速化できる。

本実施形態において、仮の 2値化のための 2値化しきい値の決定を、モード法や微分ヒストグラム等の通常の画像処理方式であるしきい値選択法を用いても良レ、。また上記しきい値判定領域は、矩形（長方形）ではなく、五線の開始及び終了位置を結んだ平行四辺形領域でも良いし、第 1 2図に示すような五線認識で検出された五線ずらし量を考慮した短冊型領域でも良い。更に五線の線幅の検出を正確に行うために、 2分法によるしきい値検出時、五線間隔及び五線の線幅の検出だけでなく、最初に検出されている五線に沿って、そのしきい値で 2値化された画像の図を上下に走査し、五線であるのが確実な部分のラン長の平均値を取る処理を追加することもできる。

(実施形態 3 )

1つの楽譜画像の中で 1つの 2値化しきい値を決定すれば、殆どの場合それで充分である。しかし、これでは不十分な場合がある。特に顕著な例は、幅が違う五線が存在する場合である。このような時には、同じしきい値で 2値化すると、基準とならなかった五線のしきレ、値が最適値からずれてしまい、認識率が低下する。そのため本実施形態では、前記実施形態と同様な方法で五線を検出し（全ての五線を検出する）、夫々の五線を囲む矩形を検出する。大かっこの認識も行い、第 1 3図（b )に示すように、パート毎の矩形としても良い。これらの矩形はしきい値決定のための矩形であり、この矩形内で、最初の実施形態 1と同様な手段により、夫々の 2値化しきい値を決定する。しきい値決定後の 2値化処理は、矩形内はそのしきい値で 2値化するが、矩形間は、第 1 3図（a )に示されるように、

① 上下の矩形領域のしきい値の中間値で 2値化した場合に、 2つの領域の中点から図が存在しない箇所を探索し、検出された位置で分離する。

② 同様に 2値化した場合に、図が存在しない領域を求め、最も広い領域にわたつている箇所で分離する。

③ 2つの矩形領域の中間のしきい値を、様々な方法で補間する。

④ 2つの矩形領域の真ん中で 2つのしきい値の領域を分離する。

等の方法で 2値化する。

第 1 3図は、しきい値決定における 2値化の例を示している。そのうち同図（b ) は、読み取られた楽譜画像であり、点線の矩形がしきい値決定矩形である。また同図（a )は、決定されたしきい値の状態を示しており、 b及び f の区間は、各矩形内で決定されたしきい値が用いられ、 a及び cの画像の端の区間は、前記 bの区間と同じしきい値が用いられ、 eの区間は、前記 f の区間と同じしきい値が用いられ、更に dの区間は、 2つの領域の各しきい値を線形補間して用いる。

またしきい値を変動させることにより、部分的な印刷のかすれ等に対応することもできる。これは、第 1 3図のように横方向に 1つの矩形だけとする（横方向には同じしきい値）のではなく、複数の矩形に分割することによって、実現可能である。

上記しきい値判定領域は、矩形（長方形）ではなく、前述と同様、五線の開始及び終了位置を結んだ平行四辺形領域でも良いし、五線認識で検出された五線ずらし量を考慮した短冊型領域でも良い。以上詳述した本発明の構成によれば、楽譜情報を利用して、認識に最適な 2値化画像を得ることができ、認識率を向上せしめることが可能となる。また画像スキャン時に最適なしきい値への設定の手間がなくなり、作業効率が改善されることになる。産業上の利用可能性

以上のように、本発明にかかる楽譜認識方法及び楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体の構成は、楽譜を機械的に認識させる場合に有用であり、特に楽譜からカラオケ演奏のためのデータを作成したり、スタジォ録音やライブ演奏で、人による演奏に代わってその一部を機械演奏させる場合などに適している。

Claims

請求の範囲

1 . 楽譜イメージを読み取って、その音楽記号を認識し、演奏及び Z又は楽譜表示のためのデータを作成する楽譜認識方法において、楽譜情報を用いて、 2値化しきレ、値の設定を行レ、、楽譜ィメージを 2値化画像として取り込むことを特徴とする楽譜認識方法。

2 . 楽譜イメージを読み取って、その音楽記号を認識し、演奏及び Z又は楽譜表示のためのデータを作成する楽譜認識方法において、画像を複数のプロックに分割し、各ブロック毎に、楽譜情報を用いて 2値化しきい値の設定を行い、楽譜イメージを 2値化画像として取り込むことを特徴とする楽譜認識方法。

3 . 請求の範囲 1乃至 2記載の楽譜認識方法において、前記楽譜情報は、五線間隔と五線の線幅であることを特徴とする請求の範囲 1乃至 2記載の楽譜認識方法。

4 . 楽譜イメージを読み取って、その音楽記号を認識し、演奏及びノ又は楽譜表示のためのデータを作成する楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体において、楽譜情報を読み込む情報読み込みステップと、読み込まれた楽譜情報に基づき 2値化しきい値の設定を行うしきい値設定ステップと、設定された 2値化しきい値に基づいて、楽譜イメージを 2値化画像として取り込む 2値化画像取り込みステップとを実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体。

5 . 楽譜イメージを読み取って、その音楽記号を認識し、演奏及び Z又は楽譜表示のためのデータを作成する楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体において、画像を読み込む画像読み込みステップと、読み込まれた画像を複数のプロックに分割する画像分割ステップと、各プロック毎に楽譜情報を読み込む情報読み込みステップと、読み込まれた楽譜情報に基づき、各ブロック毎の 2値化しきい値の設定を行うしきい値設定ステップと、各ブロック毎に設定された 2値化しきい値に基づいて、楽譜イメージを 2値化画像として取り込む 2値化画像取り込みステップとを実行させるための楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体。

6 . 請求の範囲 4乃至 5記載の楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体において、前記楽譜情報は、五線間隔と五線の線幅であることを特徴とする請求の範囲 4乃至 5記載の楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体。