WO2015147029A1

WO2015147029A1 - 検閲装置

Info

Publication number: WO2015147029A1
Application number: PCT/JP2015/059048
Authority: WO
Inventors: 佑樹林
Original assignee: 株式会社ＩｋｋｙｏＴｅｃｈｎｏｌｏｇｙ
Priority date: 2014-03-27
Filing date: 2015-03-25
Publication date: 2015-10-01
Also published as: JP5975503B2; JPWO2015147029A1

Abstract

人力分類による検閲の作業効率を向上させることができる検閲装置を提供する。複数のコンテンツを、複数の検閲者に検閲させる検閲装置（１０）であって、複数のコンテンツの各々に対する指標として、少なくとも、コンテンツ分類及びコンテンツ分類毎のスコア、を出力する、機械判別器（１）と、複数の検閲者の各々についての指標として、少なくとも、コンテンツ分類毎の、検閲精度及び検閲速度、を記憶する、検閲者指標記憶部（２）と、コンテンツに関する指標、及び前記検閲者に関する指標に基づき、複数の検閲者の各々に検閲すべきコンテンツを分配する、タスク生成器（３）と、を備える。

Description

検閲装置

　本発明は、ネットワークで閲覧可能な種々のコンテンツから不適切なものを除去する検閲装置（コンテンツフィルタリング装置）に関し、より詳細には、機械学習と自動分類機を用いて人力によるコンテンツの監視を最適化する検閲装置に関する。

　インターネット上で閲覧可能なコンテンツデータから不適切なもの（例えば、個人情報、著作権に関わるデータ、公序良俗に反するデータ等）を抽出する方法には、コンピュータによる自動分類と人力による手動分類（以下、「人力分類」とする。）が知られている。

　近年は自動分類と人力分類を組み合わせた検閲システムとして、例えば、自動分類を補助的に用いて検閲者（ワーカー）の監視負担を軽減するシステムが検討されている（特許文献１、２等）。

特開２００８－１５８７３５号公報特開２０１０－２６６９４０号公報

　しかし、自動分類の検閲精度は種々のコンテンツを対象とするものに対しては未だ実用レベルになく、機械学習を用いた検閲装置の精度も実用レベルには程遠い。そのため、自動分類と人力分類を組み合わせた検閲においても、検閲精度の観点から未だ人力分類に比重を置いた検閲が行われており、大量の人材を投入して検閲する、いわゆる人海戦術による検閲が主流である。

　人海戦術による検閲システムでは、検閲作業をマイクロタスクと呼ばれる最小単位に分類し、各マイクロタスクごとに単価を定め、予めネットワーク上で検閲者を登録した上で、検閲者がタスクを選別する仕組み（マイクロタスキングプラットフォーム）を用いて検閲が行われているが、表示される目安の作業時間には検閲者の能力が反映されていなかった。そのため、検閲者の各々の能力を十分に活かすことができなかった。

　また、人的資産を用いる以上、検閲の品質及び検閲業務の持続性を確保するためには、検閲者のメンタルヘルスの維持や管理など人的負担が十分に考慮され、かつプライシングスキーム（価格決定の枠組み）が発注者及び検閲者の双方にとって合理的なものであることが好ましい。しかし、既存のマイクロタスキングプラットフォームは必ずしもこのようなニーズに応えるものではなかった。

　本発明は、上記に鑑みてなされたものであり、人力分類による検閲の作業効率を向上させることができる検閲装置を提供することを主な技術的課題とする。

　本発明による検閲装置は、複数のコンテンツを、複数の検閲者に検閲させる検閲装置であって、
　　前記複数のコンテンツの各々に対する指標として、少なくとも、コンテンツ分類及び前記コンテンツ分類毎のスコア、を出力する、機械判別器と、
　　前記複数の検閲者の各々についての指標として、少なくとも、前記コンテンツ分類毎の、検閲精度及び検閲速度、を記憶する、検閲者指標記憶部と、
　　前記コンテンツに関する指標、及び前記検閲者に関する指標に基づき、
　　前記複数の検閲者の各々に検閲すべきコンテンツを分配する、タスク生成器と、
　を備えることを特徴とする。

　上記の構成によれば、タスク生成器が、機械判別器１から入力されるコンテンツに関する指標と、検閲者指標記憶部２の検閲者１～ｎに関する指標、特に、検閲精度及び検閲速度とに基づき、検閲者１～ｎのタスク１～ｎを生成し、検閲者１～ｎの各々にそれらのタスク１～ｎを分配するものであるため、従来の人力分類を前提とした検閲装置よりも、人力分類による検閲の作業効率を向上させることができる。

第１の実施形態の検閲装置のフローチャート第１の実施形態の検閲者指標記憶部のデータベースを示す図、（ａ）テーブルを示す図、（ｂ）コンテンツ毎の複数のテーブルを示す図第２の実施形態の検閲装置のフローチャート第３の実施形態の検閲装置のフローチャート第４の実施形態の検閲装置のフローチャートを示す図、（ａ）タスク細分化処理部及びタスク重付処理部を示す図、（ｂ）コンテンツ加工部を示す図第４の実施形態のタスク記憶部のデータベースを示す図、（ａ）テーブルを示す図、（ｂ）コンテンツ毎の複数のテーブルを示す図第４の実施形態の検閲装置の構成を示す図第４の実施形態の検閲装置の実施例のフローチャート第４の実施形態の検閲装置においてタスクの順番を示す概念図従来の検閲手法を示す概念図従来の検閲手法においてタスクの順番を示す概念図、（ａ）総当たりの場合を示す図、（ｂ）分散処理の場合を示す図

　以下、図面を参照して本発明の実施形態について詳述する。但し、これらの実施形態はいずれも例示であり、本発明についての限定的解釈を与えるものではない。なお、図面において、同一の又は対応する部分については同一の符号を付すものとする。

（第１の実施形態）
　図１は、第１の実施形態の検閲装置のフローチャートである。第１の実施形態にかかる検閲装置１０は、主に、機械判別器１と、検閲者指標記憶部２と、タスク生成器３と、を備える。

　検閲装置１０は、主にネットワーク上の複数のコンテンツを複数の検閲者に検閲させる装置である。コンテンツとしては、主に、テキスト、画像、動画、及びこれらの複合データが挙げられる。検閲者は、目視によりコンテンツ内の検閲対象（個人情報、著作権に関わるデータ、公序良俗に反するデータ等）の有無を判別し、コンテンツに対してＯＫ（検閲対象を含まない）又はＮＧ（検閲対象を含む）といった分類を行う。

　機械判別器１は、主に１つ又は複数のコンテンツを自動分類するものである。機械判別器１にコンテンツが入力されると、機械判別器１は、そのコンテンツに対する指標（以下、「コンテンツに関する指標」という。）を出力する。コンテンツに関する指標には、少なくとも、コンテンツ分類及びコンテンツ分類毎のスコアが含まれる。

　ここで、コンテンツ分類とは、コンテンツの検閲対象毎のカテゴリーをいい、記憶装置等に保存されている。コンテンツ分類は、例えば、特定キャラクターを含んだ著作権に関するもの、性に関するもの、暴力に関するもの、などのように、数１０種ほどを予め設定しておいてもよい。また、流行（トレンド）等に合わせて適宜追加・変更してもよく、さらには、検閲を希望するクライアントのニーズに合わせて追加・変更することもできる。コンテンツ分類毎のスコアとは、コンテンツの検閲対象毎の確からしさ（コンテンツ内の相対的確率）を表すものであり、例えば、数値である。このスコアをみることにより、コンテンツ内の検閲対象の有無の確からしさを知ることができる。

　機械判別器１は、以下（１）～（３）の処理を実施する。

（１）入力されたコンテンツから検閲対象を抽出するために有効な特徴部分を抽出する。この特徴部分は、既存の特徴点抽出手法によりコンテンツからメタデータをパラメータとして抽出することができる。

（２）（１）のパラメータの分布から検閲対象との近似性や関連性等を解析し、コンテンツ分類毎に数値化する。例えば、抽出したパラメータ群をＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）やＫ－Ｍｅａｎｓ法、Ｋ－ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ法等で多変量解析することにより、検閲対象毎にコンテンツ内の相対的確率を算出する。なお、上記パラメータを含む検閲対象のデータを蓄積し、その蓄積されたデータに対してデータマイニングにより高頻度で発生する特徴的なパターンやパラメータの相関関係等を見つけ、それらを相対的確率の算出に反映するようにしてもよい。

（３）このコンテンツ分類毎に算出された数値をコンテンツ分類毎のスコアとして出力する。このコンテンツ分類毎のスコアは記憶装置等に保存してもよい。なお、特徴量は、例えばＪＰＥＧファイルのＥＸＩＦ領域に記録されている写真の撮影条件や画像に関する各種パラメータに加え、画素情報から計算されるカラーヒストグラムやエントロピー、また深層学習ニューラルネットワークやＳＩＦＴのような特徴抽出アルゴリズムによって抽出することができる。

　機械判別器１において、コンテンツ分類毎のスコアが非常に高い又は低い場合、すなわち、コンテンツ内の検閲対象の有無が非常に高い確率で判別可能な場合は、検閲者による検閲（人力分類）をすることなく、機械判別器１によりＯＫ又はＮＧの判定を行ってもよい。機械判別器１の判定によりコンテンツ内の検閲対象がなくなった場合、以後このコンテンツに関する指標をタスク生成器３へ出力しないようにしてもよい。このようにすれば、以後の人的作業が不要となり、タスク生成器３により生成されるタスクの数を減らすことができる。

　検閲者指標記憶部２は、主に複数の検閲者の各々についての指標（以下、「検閲者に関する指標」という。）を記憶するデータベースである。検閲者に関する指標には、少なくとも、複数の検閲者（１～ｎ、ｎは２以上の整数）の各々に対する、コンテンツ分類毎の検閲精度及び検閲速度が含まれる。

　図２は、第１の実施形態の検閲者指標記憶部２のデータベースを示す図である。図２（ａ）はテーブルを示す図であり、図２（ｂ）はコンテンツ分類毎の複数のテーブルを示す図である。テーブル２ａ～２ｃはコンテンツ分類毎のテーブルである。このデータベースでは、検閲者１～ｎに検閲者ＩＤとして００００１～００００ｎが各々割り当てられ、各テーブルには検閲者１～ｎに関する指標（検閲者ＩＤ、検閲精度、検閲速度、対応分類、単価、・・・）が登録されている。

　タスク生成器３は、複数の検閲者により人力分類する検閲対象コンテンツを生成し、それらを検閲者の各々に分配するものである。機械判別器１からタスク生成器３にコンテンツに関する指標が入力されると、タスク生成器３は、そのコンテンツに関する指標、及び検閲者指標記憶部２の検閲者に関する指標に基づき、検閲者１～ｎの各々が検閲すべき１つ又は複数のコンテンツ１～ｎを生成し、検閲者１～ｎの各々に対するタスク１～ｎとして分配する。

　タスク生成器３は、以下（１）～（３）の処理により、入力されたコンテンツに関する指標から、検閲者１～ｎに対する各々のタスク１～ｎを生成する。

（１）コンテンツに関する指標に基づき、人力分類するにあたって最適なコンテンツ分類毎のタスクを構成する。
なお、タスクを構成する際に、コンテンツを適宜加工してもよい。また、コンテンツに関する指標に基づき、タスク１～ｎに対して難易度情報を設定するようにしてもよい。

　コンテンツ加工を伴うタスクの構成方法として、例えば、以下の（ａ）～（ｃ）が挙げられる。
（ａ）卑猥な写真の可能性が高い場合、画像にフィルターをかけ、類似の他のコンテンツと合わせて一括目視確認するタスクを構成する。
（ｂ）子供の顔が写っている可能性が高い場合、画像中の顔が認識された領域をハイライトし、未成年かどうかの判定を目視確認するタスクを構成する。
（ｃ）パーティー写真の可能性が高い場合、画像中に酒類が含まれていないかを目視確認するタスクを構成する。

（２）検閲者指標記憶部２の検閲者に関する指標に基づき、検閲者１～ｎを選定する。
この選定は、検閲者が対応可能なコンテンツ分類であることが前提条件となるが、特に、検閲者の検閲精度や検閲速度を重要視すれば、人力分類による検閲の作業効率の向上が見込まれる。
（３）（１）のタスクを検閲者１～ｎの各々に振り分けて、検閲者１～ｎに対する各々のタスク１～ｎを生成する。

　以上のように、第１の実施形態の検閲装置１０は、タスク生成器３が、機械判別器１から入力されるコンテンツに関する指標と、検閲者指標記憶部２の検閲者１～ｎに関する指標、特に、検閲精度及び検閲速度とに基づき、検閲者１～ｎのタスク１～ｎを生成し、検閲者１～ｎの各々にそれらのタスク１～ｎを分配するものであるため、従来の人力分類を前提とした検閲装置よりも、人力分類による検閲の作業効率を向上させることができる。

（第２の実施形態）
　図３は、第２の実施形態の検閲装置２０のフローチャートである。第２の実施形態にかかる検閲装置２０は、主に、前述の第１の実施形態の検閲装置１０の構成と、さらに、検閲結果取得部４と、検閲判定部５と、検閲精度に対する自動学習部６とを備える。

　検閲結果取得部４は、複数の検閲者１～ｎ毎の検閲結果１～ｎを取得するものである。検閲結果取得部４は検閲者１～ｎの検閲結果１～ｎを取得すると、検閲結果取得部４はそれらの検閲結果１～ｎを検定判定部５及び自動学習部６へ各々出力する。取得された検閲結果１～ｎは、検閲結果取得部４内部の記憶装置又は外部記憶装置に保存するようにしてもよい。

　検閲判定部５は、複数の検閲結果１～ｎに基づき、検閲対象とすべきか否かを判定するものである。検閲結果取得部４から検閲判定部５に検閲結果１～ｎが入力されると、検閲判定部５は、コンテンツがＯＫかＮＧかを判定する。例えば、検閲判定部５の判定は、検閲結果１～ｎのＯＫの数とＮＧの数とを比較し、多数決の原理により判定結果を出してもよい。

　また、検閲判定部５の判定は、検閲結果１～ｎに対して、検閲者指標記憶部２の検閲者に関する指標、特に、検閲者１～ｎの検閲精度情報に基づいた重み付けをして判定結果を出してもよい。

　前述の判定後、検閲判定部５は、判定結果を自動学習部６へ出力する。自動学習部６は、検閲者１～ｎの検閲結果１～ｎと、検閲判定部５の判定結果と、の比較に基づき、検閲者指標記憶部２に記憶されている検閲者１～ｎの検閲精度情報を更新する。自動学習部６に検閲結果１～ｎ及び判定結果が入力されると、自動学習部６は、それらを検閲者１～ｎの検閲精度情報にフィードバックし、以後タスク生成器３は更新された検閲者に関する指標に基づきタスク１～ｎを生成する。これにより、検閲者１～ｎの検閲精度情報に基づいた最適なタスク１～ｎを生成することができるため、検閲者による人力分類による検閲の作業効率を向上させることができる。

　検閲者１～ｎに関する指標は、自動学習部６によりフィードバックされる毎に、又は所定のタイミング毎に、検閲者指標記憶部２又は他の記憶装置に記憶させるようにしてもよい。これにより、検閲者１～ｎの実際の時間あたりの単価、検閲者１～ｎ毎の検閲したタスク量、及び検閲者１～ｎのトータルコスト等を算出することができ、コストや検閲者の管理に有効な情報となるからである。

　第２の実施形態の検閲装置２０は、自動学習部６が、検閲者１～ｎの検閲結果１～ｎと、検閲判定部５の判定結果との比較により検証された、検閲者１～ｎの検閲結果１～ｎの正誤情報に基づき、検閲者１～ｎに関する指標、特に、検閲精度を動的に更新し、タスク生成器３は、更新された検閲者１～ｎの検閲精度を基に検閲者１～ｎの最適なタスク１～ｎを生成するため、第１の実施形態の検閲装置よりもさらに人力分類による検閲の作業効率を向上させることができる。

　なお、上記にいう「動的に更新」とは、検閲者１～ｎのに関する指標をリアルタイムで更新することをいうものとするが、かかる更新は完全なリアルタイムでなくてもよく、所定周期毎に、若しくは、所定のイベント毎に更新してもよい。

（第３の実施形態）
　図４は、第３の実施形態の検閲装置３０のフローチャートである。第３の実施形態にかかる検閲装置３０は、主に、前述の第２の実施形態の検閲装置２０の構成と、さらに、検閲時間測定部７と、検閲速度に対する自動学習部６とを備える。

　検閲時間測定部７は、検閲者１～ｎの各々について、タスク生成器３によりタスク１～ｎが分配されてから、検閲者１～ｎが検閲結果１～ｎを返すまでの時間を測定する。検閲時間測定部７は検閲者１～ｎの検閲時間１～ｎを測定すると、検閲時間測定部７はそれらの検閲時間１～ｎを自動学習部６へ各々出力する。測定された検閲結果１～ｎは、検閲時間測定部７内や外部の記憶装置に保存されるようにしてもよい。

　自動学習部６は、検閲測定部７の検閲時間１～ｎに基づき、検閲者指標記憶部２に記憶されている検閲者１～ｎの検閲速度情報を更新する。自動学習部６に検閲時間１～ｎが入力されると、自動学習部６は、それらを検閲者１～ｎの検閲速度情報にフィードバックして、以後タスク生成器３によるタスク１～ｎの生成に反映させる。これにより、検閲者１～ｎの検閲速度情報に基づいた最適なタスク１～ｎを生成することができ、検閲者による人力分類による検閲の作業効率を向上させることができる。

　従来の検閲装置では、各検閲者に対する１つのタスクあたりのコンテンツを、単純に検閲者の人数で均等に分配していた。例えば、図１０のように、検閲者１０１（１０１ａ～１０１ｃ）が３人の場合、各人が担当するコンテンツ（１０２ａ～１０２ｃ）は全コンテンツ１０２を３等分したものであった。これは、３人の検閲者（１０１ａ～１０１ｃ）の検閲精度及び検閲速度に差がなければ問題ないが、実際には能力の低い検閲者が人力分類の作業においてボトルネックとなり、作業効率に影響していた。

　一方、本実施形態におけるタスク生成器３は、検閲者１～ｎのタスク１～ｎに対して、検閲者指標記憶部２の動的に更新された検閲者に関する指標、特に、自動学習部６により動的に更新された検閲者１～ｎの検閲精度及び検閲速度に基づき、一度に処理すべきコンテンツ量を各々決定することが好ましい。このようにすると、検閲者１～ｎのより最適なタスク１～ｎを生成することができるため、検閲者による人力分類の作業効率を向上させることができる。

　第３の実施形態の検閲装置３０は、自動学習部６が、検閲時間測定部７の測定時間に基づき、検閲者１～ｎに関する指標、特に、検閲速度を動的に更新し、タスク生成器３は、更新された検閲者１～ｎの検閲速度を基に検閲者１～ｎの最適なタスク１～ｎを生成するため、第２の実施形態の検閲装置よりもさらに人力分類による検閲の作業効率を向上させることができる。

　特に、タスク生成器３が、更新された検閲者１～ｎの検閲精度及び検閲速度に基づき、検閲者１～ｎの一度に処理すべきタスク量を決定していくことで、検閲者の各々の最新の検閲精度及び検閲速度を反映した人力分類を行うことができるため、人力分類による検閲の作業効率をより向上させることができる。

　従来の検閲装置では、検閲者は、事前登録等された、ある限られた対象を母集団とするものがほとんどであり、検閲者に関する指標が頻繁に変化することは想定されていなかった。一方、本実施形態で取り扱う検閲装置においては、世界中のオンラインユーザーを検閲者の母集団とすることができ、検閲者の入れ替わりが激しかったり、その情報が頻繁に更新されるようなことも想定されるが、そのような場合であっても、常に最新の検閲者に関する指標に基づきタスクを決定できるため、最適なタスク分配が可能となる。すなわち、本実施形態における検閲装置は、検閲者の流動性が高い環境においても適用できるものである。

（第４の実施形態）
　図５は、第４の実施形態の検閲装置のフローチャートである。図５（ａ）は主にタスク細分化処理部３１及びタスク重付処理部３２を示す図であり、図５（ｂ）は主にコンテンツ加工部３３を示す図である。第４の実施形態にかかる検閲装置は、前述の第１～３の実施形態の検閲装置のいずれか１つの構成と、さらに、タスク記憶部８を備える。タスク記憶部８は、コンテンツ分類毎に処理すべきタスクを記憶するものである。タスク生成器３は、コンテンツ分類に基づき、タスク記憶部８に記憶されたタスクを選択するようにしてもよい。このようにすることで、タスク生成器３は、より効率よく検閲者１～ｎのタスク１～ｎを生成することができる。

　図６は、第４の実施形態のタスク記憶部８のデータベースを示す図である。図６（ａ）はテーブルを示す図であり、図６（ｂ）はコンテンツ毎の複数のテーブルを示す図である。テーブル８ａ～８ｃはコンテンツ分類毎のテーブルである。このデータベースでは、タスク１～ｎのタスクＩＤとして００００１～００００ｎが各々割り当てられ、各テーブルにはタスクに関する指標（タスクＩＤ、内容、難易度、条件１、条件２、・・・）が登録されている。

　第４の実施形態にかかる検閲装置は、さらに、タスク細分化処理部３１と、タスク重付処理部３２とを備えてもよい。

　タスク細分化処理部３１は、選択されたタスクを複数のステップ１～ｍ（ｍは２以上の整数）に各々細分化する。機械判別器１からタスク細分化処理部３１にコンテンツ分類及びコンテンツ分類毎のスコアが入力されると、タスク細分化処理部３１は、タスク記憶部８のコンテンツ分類毎のタスクを選択し、それらのタスクを複数のステップ１～ｍに各々細分化してタスク重付処理部３２へ各々出力する。

　タスク重付処理部３２は、主に細分化された複数のステップ１～ｍのうち、優先度の高いステップから順に検閲者１～ｎに処理させるようタスクの順番を調整する。タスク細分化処理部３１からタスク重付処理部３２にステップ１～ｍが入力されると、タスク重付処理部３２は、それらのステップ１～ｍを検閲すべきと判断される可能性の高い順に並び替えて検閲者１～ｎのタスク１～ｎを生成し、タスク１～ｎを各々出力する。

　ここで、「ステップ」とは、タスクよりもさらに細分化した１つ又は複数の検閲すべきコンテンツをいう。優先度の高さとしてはコンテンツ分類毎のスコアを用いるようにしてもよい。例えば、タスク重付処理部３２は、コンテンツ分類毎のスコアが高い順にステップ１～ｍを並び替えてタスク１～ｎを生成してもよい。

　さらに、タスク重付処理部３２は、少なくとも検閲者１～ｎの検閲精度、検閲速度、及びタスクの難易度のいずれか１つに基づき、ステップ１～ｍを優先度の高い順に並び替えて検閲者１～ｎのタスク１～ｎを生成するようにしてもよい。

　図１１は、従来の検閲手法においてステップの順番を示す概念図である。図１１（ａ）は総当たりの場合を示す図であり、図１１（ｂ）は分散処理の場合を示す図である。この図に示す従来の検閲手法では、検閲者は、概ね総当たり又は分散処理の２通りの方法で検閲対象を目視確認していた。

例えば、図１１（ａ）に示すように、左から順に、コンテンツが検閲対象「Ｉｓ　ｓｃｅｎｅｒｙ」、「Ｉｓ　ｖｉｏｌｅｎｔ」、「Ｉｓ　ｒｅｌｉｇｉｏｕｓ」、「Ｉｓ　ｃｏｐｙｒｉｇｈｔｅｄ」、「Ｉｓ　ｈｕｍａｎ」、「Ｉｓ　ｎａｋｅｄ」、及び「Ｉｓ　ｓｅｘｕａｌ」に該当するか否かを総当たりで目視確認していた。そして、全ての検閲対象に該当しない場合通過（ｐａｓｓ）、又は検閲対象に該当した時点で、拒絶（ｄｅｃｌｉｎｅ）を判定していた。

また、図１１（ｂ）に示すように、コンテンツを、各々のタスク（検閲対象）毎で分散処理して、通過又は拒絶を判定していた。この場合、ステップ毎の優先順位は均等（図中では、すべて重み１）であった。

以上のような従来の検閲手法では、例えば、ステップ毎の優先順位が均等である場合、ステップの難易度や検閲者の検閲技能によって検閲結果、検閲精度及び検閲時間に大きな差が生じ、さらに、重要度の高いステップ及びに対しても優先順位が均等な対応となり、人力分類の効率が非常に悪かった。

　一方、図９は、第４の実施形態の検閲装置４０においてステップの順番を示す概念図である。図９に示すように、検閲装置４０では、各々のステップに対する重み付けによりステップの優先順位を決定する。具体的には、まず、重み付けが一番高いステップ（図中では重みが１のステップ）である、コンテンツが検閲対象「Ｉｓ　ｈｕｍａｎ」、「Ｉｓ　ｎａｋｅｄ」、及び「Ｉｓ　ｓｅｘｕａｌ」であるか否かを検閲者に判定させる。コンテンツが検閲対象に該当しなかった場合、次に重み付けが高いステップ（図中では重みが０．６のステップ）である、コンテンツが検閲対象「Ｉｓ　ｖｉｏｌｅｎｔ」であるか否かを検閲者に判定させる。以後同様にして重み付けの降順に検閲者にステップを実施させる。検閲装置４０では、このようなステップの順番に並べ替えたタスクを生成する。このようにして優先順位の高い順に検閲者に検閲させることにより、人力分類の効率をより向上させることができる。

　重み付けの高いステップとは、１つのタスクに対する複数のステップのうち、ＮＧと判定される可能性が高いステップのことをいう。検閲者によるタスク処理において、コンテンツがＮＧと判断された時点で、その検閲者による検閲を終了させることができる。よって、ＮＧと判定される可能性が高いステップ、すなわち、重み付けの高いステップから検閲を実行させることで早期にそのコンテンツがＮＧであると判定できれば、それ以降、かかるコンテンツに関するタスク（ステップ）を行う必要がなくなり、作業を短縮化できる。

　従来は、総当たり又は重み付けを考慮しない分散処理がなされていた。一方、本実施形態における検閲装置は、検閲者の作業効率が向上するようタスクを細分化し、かつ、ＮＧと判定される可能性が高い、重み付けの高いステップから処理させるようにしたことで、検閲者の作業効率が向上するだけではなく、従来よりも検閲工程自体を短縮することが可能となり、全体としての作業効率を飛躍的に向上させることができる。

　第４の実施形態にかかる検閲装置は、さらに、コンテンツ加工部３３を備えてもよい。コンテンツ加工部３３は、種々の目的によって、検閲者に分配されるタスク中のコンテンツを加工修正するものである。

コンテンツ加工部３３の一形態として、コンテンツ加工部３３は、タスク重付処理部３２から入力されたタスク１～ｎ内のコンテンツに対し、色階調補正を行う。例えば、卑猥な写真に対して色階調を落として輪郭を強調したアニメ調の画像への変換を行う。そして、コンテンツ加工部３３は、加工後のタスク１～ｎを検閲者１～ｎの各々に分配する。

　検閲者は卑猥な写真等の検閲に長時間従事し続けると精神的負荷が蓄積しやすいが、コンテンツ加工部３３によってコンテンツの色階調補正を行うことにより、検閲中に検閲者１～ｎが受ける刺激を緩和でき、検閲者１～ｎの精神的負担を軽減させることができる。

　また、コンテンツ加工部３３の別形態としては、コンテンツ、特に画像に対して、セキュリティ対策を行ってもよく、例えば以下（ａ）～（ｃ）の処理を少なくとも１つを行ってもよい。
（ａ）画像に透かしを埋め込む。
（ｂ）画像を複数に分割する。
（ｃ）画像にフィルターをかけ、特徴を残しつつもオリジナルでない状態にする。

　このセキュリティ対策により、オリジナルのコンテンツの流出を抑えることができ、たとえタスク１～ｎが流出してもコンテンツが特定されることを抑えることができる。

　第４の実施形態の検閲装置は、タスク細分化処理部３１が選択された検閲者１～ｎのタスク１～ｎを複数のステップ１～ｍに各々細分化し、タスク重付処理部３２が細分化された複数のステップ１～ｍのうち、優先度の高いステップから順に検閲者１～ｎに処理させるようにタスクの順番を調整するため、人力分類による検閲の作業効率をより向上させることができる。さらに、コンテンツ加工部３３が検閲すべきコンテンツの色階調補正を行うことにより、長時間の検閲による検閲者１～ｎの精神的負担を軽減することができる。

　さらに、第４の実施形態にかかる検閲装置は、従来のマイクロタスキングプラットフォームに対し、以下のような効果を有する。なお、マイクロタスキングプラットフォームとは、上述したように、検閲作業をマイクロタスクと呼ばれる最小単位に分類し、各マイクロタスクごとに単価を定め、予めネットワーク上で検閲者を登録した上で、検閲者がタスクを選別する仕組みである。

（１－１）従来のマイクロタスキングプラットフォームでは、タスク単価でリスト表示されるものの、実際にタスクにかかる時間や一時間あたりの見積もり額等は検閲者の能力が考慮されず、検閲者にとってタスクの選別が困難であった。

（１－２）一方、第４の実施形態にかかる検閲装置は、実際の統計的な観測から、検閲者における時間あたり単価を算出し、検閲者に対して参考値として提示できるため、検閲者によるタスク選択が容易となる。

（２－１）従来のマイクロタスキングプラットフォームでは、タスク単価が発注者による言い値であり、低く設定される傾向にあったため、検閲者のモチベーションが低下し、高い検閲精度を維持できないという問題があった。

（２－２）一方、第４の実施形態にかかる検閲装置では、発注者は固定単価の代わりに「最大予算」を指定することができる。「最大予算」とは、発注者がそのタスクに対して支払うことができる対価の上限額である。これにより、実際のタスク単価及び処理の優先度は、同時間における他の発注者との自動的な競争入札によって決定させることができる。例えば、多くのタスクが発注される時間帯においては単価を上げなければなかなか処理が完了しないようにすることができる。また、検閲者としても、検閲精度や検閲速度を上げることでより多くの対価が期待できるため、検閲者のモチベーションを高く維持できる。

（３－１）従来のマイクロタスキングプラットフォームでは、サービス上で検閲者として登録した上で作業を行うことが主流となっていた。しかし、検閲者は平均賃金の低い途上国からの登録が大半を占めるため、フェアトレードの観点からこのような仕組みが問題視されていた。

（３－２）一方、本実施形態にかかる検閲装置では、例えば、汎用的なＷｅｂサイトやアプリにおけるディスプレイ広告やリワード広告が表示される領域にマイクロタスクを挿入することにより、世界中のオンラインユーザーを対象として幅広く検閲者を確保することができる。さらに、検閲者に対してプロファイリング、アンケート調査、又はモニター調査等を実施することができる。

　以上説明した第１乃至第４の実施形態の検閲装置はいずれも任意に組み合わせて実施することができる。

（実施例）
　図７は、第４の実施形態の検閲装置４０の具体的な構成例を示す図である。検閲装置４０は、機械判別器１としてＭａｃｈｉｎｅ　Ｃｌａｓｓｉｆｉｅｒｓと、検閲者指標記憶部２及びタスク記憶部８としてＤａｔａｂａｓｅと、タスク生成器３としてＨｕｍａｎ　Ｃｏｍｐｕｔａｔｉｏｎ　Ｇａｔｅｗａｙと、検閲結果取得部４、検閲判定部５、自動学習部６、及び検閲時間測定部７としてＲｅｓｕｌｔ　Ａｇｇｒｅｇａｔｏｒと、を備える。例えば、Ｍａｃｈｉｎｅ　Ｃｌａｓｓｉｆｉｅｒｓ、Ｈｕｍａｎ　Ｃｏｍｐｕｔａｔｉｏｎ　Ｇａｔｅｗａｙ、Ｒｅｓｕｌｔ　Ａｇｇｒｅｇａｔｏｒはいずれもサーバであり、Ｄａｔａｂａｓｅは記憶装置である。

　機械判別器１、検閲者指標記憶部２、タスク生成器３、検閲結果取得部４、検閲判定部５、自動学習部６、検閲時間測定部７、及びタスク記憶部８は、少なくともハードウェア又はソフトウェア（プログラム）のいずれかにより各々構成され、前述の処理が各々実施される。

　ＳｅｒｖｉｃｅＡのコンテンツ及びＳｅｒｖｉｃｅＢのコンテンツは、Ｇａｔｅｗａｙ（サーバ）を介して検閲装置４０にダウンロード（取得）される。ダウンロードされたコンテンツは、Ｍａｃｈｉｎｅ　Ｃｌａｓｓｉｆｉｅｒｓに入力され、Ｈｕｍａｎ　Ｃｏｍｐｕｔａｔｉｏｎ　Ｇａｔｅｗａｙにより複数のタスクが生成され、それらのタスクが複数の検閲者（Ｍｉｃｒｏ－ｔａｓｋ　ｗｏｒｋｅｒｓ）に分配される。Ｒｅｓｕｌｔ　Ａｇｇｒｅｇａｔｏｒは、検閲者の各々の検閲結果、検閲精度、検閲時間、及び判定結果を取得して、それらをＤａｔａｂａｓｅに記憶された検閲者に関する指標に反映する。そして、それらの指標がＭａｃｈｉｎｅ　Ｃｌａｓｓｉｆｉｅｒｓの次のタスク生成のためにフィードバックされる。

　図８は、第４の実施形態の検閲装置４０の実施例のフローチャートである。以下、このフローチャートの概要を説明する。コンテンツ（テキスト、画像、動画、音声、音楽等）は、Ａｐｐｌｉｃａｔｉｏｎ　Ｓｅｒｖｅｒに集約されており、第４の実施形態の検閲装置４０は、まず、それらのコンテンツをＷｅｂ　ＡＰＩ等を用いてＧａｔｅｗａｙを介してダウンロード（取得）する。次に、ダウンロードされたコンテンツを既存の様々な手法によりコンテンツ分類毎にメタデータ（Ｏｂｊ．Ｄｅｔｅｃｔｏｒ、ＯＣＲ、Ｓｐｅｅｃｈ　ｔｏ　Ｔｘｔ、Ｆｅａｔｕｒｅｓ等）を抽出する。次に、多変量解析のアルゴリズム等（ＳＶＭ、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ、Ｃａｃｈｅ、Ｃｕｓｔｏｍ　Ｆｉｌｔｅｒｓ等）を用いてコンテンツ分類毎にスコアを算出する。このとき、検閲対象の有無を判別できる（Ａｌｍｏｓｔ　Ｃｅｒｔａｉｎ）場合は、コンテンツに対してＯＫ又はＮＧを判定する。

　次に、それ以外の（検閲対象の有無の確からしさがない、Ｌｅｓｓ　Ｓｕｒｅ）のコンテンツに対して複数の検閲者（Ｗｏｒｋｅｒ）各々に最適なタスクを生成し、それらを複数の検閲者に分配する。次に、少なくとも検閲者の検閲結果、検閲精度、検閲速度、及び判定結果の１つを取得し、それらをフィードバックして次のタスク生成に反映させる。

　以上のような検閲装置４０を構成し、手書きによるアニメーション画像を組み合わせたコンテンツからの肌の露出のあるヒトの画像の検閲を検証した結果、人力分類において６０～９０％のコストを削減することができた。

　なお、上記検証結果の詳細は以下のとおりである。以下のワークフローにより、平均的に約２７％の時間で検閲を実施できた。
・前処理によって重複フレームを省くことで平均３０％程度フレームを削減できた。
・卑猥なコンテンツを絞り込むために、「ヒトが写っているかどうか（８１％）」、「肌の露出があるか（６７％）」という２つの分類器を実装した。
・上記分類結果に基づいてヒトが写っていない可能性の高い画像と写っていない画像に分け、複数枚をまとめてそれぞれ「ヒトの写っていない画像を選択」、「ヒトの写っている画像を選択」というタスクを構成した。
・上記タスクにより、ヒトの写っていない画像を検閲対象から効率的に除外することができ、全体の約６０％の画像を、ランダムに１枚ずつ目視するときに比べて４倍の効率で検閲できた。また、この時、ページ上に３６枚の画像を一度に表示した場合が平均的に最も効率が高く、検閲者によっては５４枚まで同じ時間内に処理することができた。
・残りの４０％の画像に対しても同様に、分類結果に基いてグループ分けを行い、「肌の露出のある画像を選ぶ」、「肌の露出のない画像を選ぶ」というタスクを適用したところ、約３倍の効率で検閲できた。

１　機械判別器
２　検閲者指標記憶部
３　タスク生成器
４　検閲結果取得部
５　検閲判定部
６　自動学習部
７　検閲時間測定部
８　タスク記憶部
１０、２０、３０、４０　検閲装置
３１　タスク細分化処理部
３２　タスク重付処理部
３３　コンテンツ加工部

Claims

　複数のコンテンツを、複数の検閲者に検閲させる検閲装置であって、
　　前記複数のコンテンツの各々に対する指標として、少なくとも、コンテンツ分類及び前記コンテンツ分類毎のスコア、を出力する、機械判別器と、
　　前記複数の検閲者の各々についての指標として、少なくとも、前記コンテンツ分類毎の、検閲精度及び検閲速度、を記憶する、検閲者指標記憶部と、
　　前記コンテンツに関する指標、及び前記検閲者に関する指標に基づき、
　　前記複数の検閲者の各々に検閲すべきコンテンツを分配する、タスク生成器と、
　を備える、検閲装置。
　前記検閲装置は、さらに、
　　前記複数の検閲者毎の検閲結果を取得する、検閲結果取得部と、
　　前記複数の検閲結果に基づき、検閲対象とすべきか否かを判定する検閲判定部と、
　　前記検閲者の検閲結果と、前記検閲判定部の判定結果と、の比較に基づき、
　　前記検閲者指標記憶部に記憶されている検閲精度情報を更新する、検閲精度自動学習部と、を備える
　ことを特徴とする請求項１記載の検閲装置。
　前記検閲判定部は、
　前記検閲者指標記憶部に記憶されている検閲者毎の検閲精度情報に基づいた重み付けをして検閲判定を行う
　ことを特徴とする請求項１又は２記載の検閲装置。
　前記検閲装置は、
　　前記複数の検閲者の各々について、前記タスク生成器によりタスクが分配されてから、前記検閲者が検閲結果を返すまでの時間を測定する、検閲時間測定部と、
　　前記測定された検閲時間に基づき、前記検閲者指標記憶部に記憶されている検閲速度情報を更新する、検閲速度自動学習部と、を備える
　ことを特徴とする請求項１乃至３のいずれか１項に記載の検閲装置。
　前記検閲装置は、さらに、
　　コンテンツ分類毎に処理すべきタスクを記憶するタスク記憶部を備え、
　前記タスク生成器は、
　　コンテンツ分類に基づき、前記タスク記憶部に記憶されたタスクを選択する
　ことを特徴とする請求項１乃至４のいずれか１項に記載の検閲装置。
　前記タスク生成器は、さらに
　　前記選択されたタスクを複数のステップに細分化する、タスク細分化処理部と、
　　前記細分化された複数のステップのうち、優先度の高いステップから順に検閲者に処理させるようタスクの順番を調整する、タスク重付処理部と、を備える
　ことを特徴とする請求項１乃至５のいずれか１項に記載の検閲装置。
　前記タスク生成器は、さらに
　　コンテンツの色階調補正を行うコンテンツ加工部を備える
　ことを特徴とする請求項１乃至６のいずれか１項に記載の検閲装置。
　前記タスク生成器は、
　　前記検閲者指標記憶部に記憶された検閲者の検閲精度及び検閲速度に基づき、一度に処理すべきコンテンツ量を決定する
　ことを特徴とする請求項１乃至７のいずれか１項に記載の検閲装置。