WO2015147029A1 - 検閲装置 - Google Patents

検閲装置 Download PDF

Info

Publication number
WO2015147029A1
WO2015147029A1 PCT/JP2015/059048 JP2015059048W WO2015147029A1 WO 2015147029 A1 WO2015147029 A1 WO 2015147029A1 JP 2015059048 W JP2015059048 W JP 2015059048W WO 2015147029 A1 WO2015147029 A1 WO 2015147029A1
Authority
WO
WIPO (PCT)
Prior art keywords
censor
censorship
task
content
censors
Prior art date
Application number
PCT/JP2015/059048
Other languages
English (en)
French (fr)
Inventor
佑樹 林
Original Assignee
株式会社 Ikkyo Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 Ikkyo Technology filed Critical 株式会社 Ikkyo Technology
Priority to JP2016507939A priority Critical patent/JP5975503B2/ja
Publication of WO2015147029A1 publication Critical patent/WO2015147029A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Definitions

  • the present invention relates to a censor device (content filtering device) that removes inappropriate content from various contents that can be browsed on a network, and more specifically, it is optimal to monitor content manually using machine learning and an automatic classifier.
  • the present invention relates to a censorship device.
  • Patent Documents 1, 2, etc. systems that reduce the monitoring burden on censors (workers) by using automatic classification have been studied.
  • the censorship In the censorship system based on human sea tactics, the censorship is classified into the smallest units called microtasks, the unit price is set for each microtask, and the censors select the tasks after registering the censors on the network in advance.
  • microtasks the unit price is set for each microtask
  • the censors select the tasks after registering the censors on the network in advance.
  • censorship is being performed using (Microtasking Platform)
  • the censor's ability is not reflected in the approximate work time displayed. As a result, each censor's ability could not be fully utilized.
  • the present invention has been made in view of the above, and has as its main technical problem to provide a censor device capable of improving the efficiency of censorship based on human power classification.
  • a censor device is a censor device that allows a plurality of censors to censor a plurality of contents, A machine classifier that outputs at least a content classification and a score for each content classification as an index for each of the plurality of contents; A censor indicator storage unit that stores at least censor accuracy and censor speed for each content category as an index for each of the plurality of censors; Based on the index about the content and the index about the censor, A task generator for distributing content to be censored to each of the plurality of censors; It is characterized by providing.
  • the task generator is based on the index related to the content input from the machine discriminator 1 and the index related to the censors 1 to n in the censor index storage unit 2, particularly the censorship accuracy and the censorship speed. Since the tasks 1 to n of the censors 1 to n are generated and the tasks 1 to n are distributed to each of the censors 1 to n, the censor device based on the conventional human power classification is used. It is possible to improve the efficiency of censorship based on human classification.
  • Flowchart of the censor device of the first embodiment The figure which shows the database of the censor index memory
  • the flowchart of the Example of the censorship apparatus of 4th Embodiment The conceptual diagram which shows the order of a task in the censorship apparatus of 4th Embodiment Conceptual diagram showing conventional censorship techniques
  • a conceptual diagram showing the order of tasks in a conventional censorship method (a) a diagram showing a brute force case, (b) a diagram showing a case of distributed processing
  • FIG. 1 is a flowchart of the censor device according to the first embodiment.
  • a censor device 10 according to the first embodiment mainly includes a machine discriminator 1, a censor indicator storage unit 2, and a task generator 3.
  • the censor device 10 is a device that allows a plurality of censors to censor a plurality of contents mainly on the network.
  • the content mainly includes text, images, moving images, and composite data thereof.
  • the censor visually determines whether or not there is a censorship target in the content (personal information, data related to copyrights, data that violates public order and morals, etc.), and the content is OK (excluding censorship) or NG (censored) Classification).
  • the machine discriminator 1 mainly automatically classifies one or a plurality of contents.
  • the machine discriminator 1 outputs an index for the content (hereinafter referred to as “content-related index”).
  • the content-related index includes at least a content classification and a score for each content classification.
  • content classification refers to a category for each content censorship, and is stored in a storage device or the like.
  • content classifications may be set in advance, such as those relating to copyright including a specific character, those relating to sex, and those relating to violence. Further, it may be added / changed appropriately according to the trend or the like, and further, added / changed according to the needs of the client who desires censorship.
  • the score for each content category represents the certainty (relative probability within the content) for each content censor, and is, for example, a numerical value. By looking at this score, it is possible to know the certainty of whether or not there is a censor in the content.
  • the machine discriminator 1 performs the following processes (1) to (3).
  • a feature portion effective for extracting a censored object from the input content is extracted.
  • This feature portion can be extracted from the content using metadata as a parameter by an existing feature point extraction method.
  • the numerical value calculated for each content category is output as a score for each content category.
  • the score for each content category may be stored in a storage device or the like.
  • the feature amount is, for example, a color histogram or entropy calculated from pixel information, a deep learning neural network, SIFT, or the like in addition to various parameters related to image capturing conditions and images recorded in the EXIF area of the JPEG file. It can be extracted by a feature extraction algorithm.
  • the machine discriminator 1 when the score for each content classification is very high or low, that is, when the presence / absence of a censored object in the content can be discriminated with a very high probability, the censor performs censorship (human power classification). Instead, OK or NG may be determined by the machine discriminator 1. If there is no more censorship in the content due to the determination by the machine discriminator 1, the index relating to this content may not be output to the task generator 3 thereafter. In this way, the subsequent human work is unnecessary, and the number of tasks generated by the task generator 3 can be reduced.
  • the censor indicator storage unit 2 is a database that mainly stores an indicator for each of a plurality of censors (hereinafter referred to as “an indicator relating to a censor”).
  • the index regarding the censor includes at least the censoring accuracy and the censoring speed for each content classification for each of the plurality of censors (1 to n, where n is an integer of 2 or more).
  • FIG. 2 is a diagram showing a database of the censor indicator storage unit 2 according to the first embodiment.
  • FIG. 2A is a diagram showing a table
  • FIG. 2B is a diagram showing a plurality of tables for each content classification.
  • Tables 2a to 2c are tables for each content classification.
  • censor IDs 1 to n are assigned as censor IDs 00001 to 0000n, and each table has indexes (censor ID, censor accuracy, censor speed, correspondence classification, unit price,. ⁇ ⁇ ) Is registered.
  • the task generator 3 generates censored contents to be classified by a plurality of censors and distributes them to each censor.
  • the task generator 3 determines the censors 1 to n based on the index regarding the content and the index regarding the censor in the censor index storage unit 2.
  • the task generator 3 generates the tasks 1 to n for the censors 1 to n from the input index relating to the content by the following processes (1) to (3).
  • category optimal in classifying human power is comprised.
  • content may be appropriately processed when configuring a task.
  • difficulty level information may be set for tasks 1 to n based on an index relating to content.
  • the following (a) to (c) can be cited as a method for configuring tasks involving content processing.
  • A When the possibility of an obscene photograph is high, a filter is applied to the image, and a task of performing visual confirmation together with other similar contents is configured.
  • B When there is a high possibility that a child's face is shown, a region in which the face in the image is recognized is highlighted, and a task for visually confirming whether the child is a minor is configured.
  • C When the possibility of a party photo is high, a task for visually confirming whether alcohol is contained in the image is configured.
  • the censors 1 to n are selected based on the censor's index in the censor index storage unit 2. This selection is premised on content classification that can be handled by censors, but if the accuracy and speed of censorship are emphasized, the efficiency of censorship is expected to be improved by human classification. . (3) The tasks of (1) are assigned to the censors 1 to n, and the tasks 1 to n for the censors 1 to n are generated.
  • the task generator 3 has the index related to the content input from the machine discriminator 1, the index related to the censors 1 to n in the censor index storage unit 2,
  • the conventional human power It is possible to improve the efficiency of censorship based on human power classification, compared to censorship devices based on classification.
  • FIG. 3 is a flowchart of the censorship device 20 according to the second embodiment.
  • the censor device 20 according to the second embodiment mainly includes the configuration of the censor device 10 according to the first embodiment described above, a censor result acquisition unit 4, a censor determination unit 5, and automatic learning for censor accuracy. Part 6.
  • the censorship result acquisition unit 4 acquires censorship results 1 to n for each of a plurality of censors 1 to n.
  • the censor result acquisition unit 4 acquires the censor results 1 to n of the censors 1 to n
  • the censor result acquisition unit 4 outputs the censor results 1 to n to the test determination unit 5 and the automatic learning unit 6, respectively.
  • the acquired censorship results 1 to n may be stored in a storage device inside the censorship result acquisition unit 4 or an external storage device.
  • the censorship determination unit 5 determines whether or not to be a censorship target based on a plurality of censorship results 1 to n.
  • the censorship determination unit 5 determines whether the content is OK or NG. For example, the determination by the censorship determination unit 5 may compare the number of censored results 1 to n with the number of NGs and output a determination result based on the principle of majority vote.
  • the censorship determination unit 5 determines the censorship results 1 to n by weighting them based on an index related to the censors in the censorship indicator storage unit 2, in particular, the censorship accuracy information of the censors 1 to n. Results may be given.
  • the censorship determination unit 5 outputs the determination result to the automatic learning unit 6. Based on the comparison between the censored results 1 to n of the censors 1 to n and the determination result of the censor determining unit 5, the automatic learning unit 6 stores the censors 1 to n stored in the censor indicator storage unit 2. Update censorship accuracy information.
  • the automatic learning unit 6 feeds them back to the censor accuracy information of the censors 1 to n, and the task generator 3 thereafter updates the censored information.
  • Tasks 1 to n are generated based on the index related to the person. As a result, since the optimal tasks 1 to n based on the censor accuracy information of the censors 1 to n can be generated, it is possible to improve the efficiency of the censoring by the censor by the human power classification.
  • the indices related to the censors 1 to n may be stored in the censor index storage unit 2 or another storage device every time the automatic learning unit 6 feeds back or at every predetermined timing. As a result, it is possible to calculate the unit price per hour of the censors 1 to n, the amount of tasks censored for each censor 1 to n, the total cost of the censors 1 to n, etc. This is because the information is effective for management.
  • the automatic learning unit 6 is verified by comparing the censor results 1 to n of the censors 1 to n with the determination results of the censor determining unit 5. Based on the correctness information of the censorship results 1 to n, the index relating to the censors 1 to n, in particular, the censorship accuracy is dynamically updated, and the task generator 3 is based on the censorship accuracy of the updated censors 1 to n. In addition, since the optimal tasks 1 to n of the censors 1 to n are generated, it is possible to further improve the efficiency of censoring by human power classification than the censor device of the first embodiment.
  • the “dynamic update” mentioned above refers to updating the indicators related to the censors 1 to n in real time, but such update may not be complete real time, and may be performed at predetermined intervals. Alternatively, it may be updated every predetermined event.
  • FIG. 4 is a flowchart of the censor device 30 according to the third embodiment.
  • the censor device 30 according to the third embodiment mainly includes the configuration of the censor device 20 of the second embodiment described above, a censor time measuring unit 7, and an automatic learning unit 6 for censor speed.
  • the censor time measuring unit 7 measures, for each of the censors 1 to n, the time from when the tasks 1 to n are distributed by the task generator 3 until the censors 1 to n return the censor results 1 to n. .
  • the censor time measuring unit 7 measures the censor time 1 to n of the censors 1 to n
  • the censor time measuring unit 7 outputs the censor time 1 to n to the automatic learning unit 6, respectively.
  • the measured censorship results 1 to n may be stored in the censorship time measuring unit 7 or in an external storage device.
  • the automatic learning unit 6 updates the censor speed information of the censors 1 to n stored in the censor index storage unit 2 based on the censor times 1 to n of the censor measuring unit 7.
  • the automatic learning unit 6 feeds them back to the censoring speed information of the censors 1 to n, and thereafter generates the tasks 1 to n by the task generator 3.
  • the optimal tasks 1 to n based on the censor speed information of the censors 1 to n can be generated, and the efficiency of censoring by the censor by the human power classification can be improved.
  • the content per task for each censor is simply distributed equally by the number of censors. For example, as shown in FIG. 10, when there are three censors 101 (101a to 101c), the contents (102a to 102c) handled by each person are obtained by dividing all the contents 102 into three equal parts. This is not a problem if there is no difference between the censorship accuracy and censorship speed of the three censors (101a to 101c), but in fact, the censors with low ability will become a bottleneck in the work of human power classification and affect the work efficiency Was.
  • the task generator 3 is configured so that the censors 1 to n tasks 1 to n are dynamically updated with the index relating to the censor who is dynamically updated in the censor index storage unit 2, particularly the automatic learning unit 6. It is preferable to determine the amount of content to be processed at one time based on the censoring accuracy and censoring speed of the censors 1 to n dynamically updated by. In this way, since the more optimal tasks 1 to n of the censors 1 to n can be generated, the work efficiency of human power classification by the censors can be improved.
  • the automatic learning unit 6 dynamically updates the indices relating to the censors 1 to n, particularly the censoring speed, based on the measurement time of the censor time measurement unit 7, and the task generator 3 generates the optimal tasks 1 to n of the censors 1 to n based on the updated censoring speeds of the censors 1 to n. Work efficiency can be improved.
  • the task generator 3 determines the amount of tasks to be processed at one time for each of the censors 1 to n based on the updated censoring accuracy and censoring speed of the censors 1 to n. Since the human power classification reflecting the latest censorship accuracy and censorship speed can be performed, the work efficiency of censorship by human power classification can be further improved.
  • censors are mostly based on a limited target that has been pre-registered, etc., and it has not been assumed that indices related to censors will change frequently.
  • online users around the world can be the population of censors, and it is assumed that the censors will be replaced frequently or that information will be updated frequently.
  • the task can always be determined based on the latest index regarding the censor, so that an optimal task distribution is possible.
  • the censorship apparatus according to this embodiment can be applied even in an environment where the fluidity of the censor is high.
  • FIG. 5 is a flowchart of the censor device according to the fourth embodiment.
  • FIG. 5A is a diagram mainly showing the task segmentation processing unit 31 and the task weighting processing unit 32
  • FIG. 5B is a diagram mainly showing the content processing unit 33.
  • the censor device according to the fourth embodiment includes any one of the configurations of the censor devices according to the first to third embodiments described above and a task storage unit 8.
  • the task storage unit 8 stores tasks to be processed for each content classification.
  • the task generator 3 may select a task stored in the task storage unit 8 based on the content classification. In this way, the task generator 3 can generate the tasks 1 to n of the censors 1 to n more efficiently.
  • FIG. 6 is a diagram illustrating a database of the task storage unit 8 according to the fourth embodiment.
  • FIG. 6A is a diagram showing a table
  • FIG. 6B is a diagram showing a plurality of tables for each content.
  • Tables 8a to 8c are tables for each content classification.
  • task IDs 00001 to 0000n are assigned as task IDs of tasks 1 to n
  • indices (task ID, contents, difficulty, condition 1, condition 2,...) Relating to tasks are registered in each table. Yes.
  • the censorship apparatus may further include a task segmentation processing unit 31 and a task weighting processing unit 32.
  • the task subdivision processing unit 31 subdivides the selected task into a plurality of steps 1 to m (m is an integer of 2 or more).
  • m is an integer of 2 or more.
  • the task fragmentation processing unit 31 selects a task for each content classification in the task storage unit 8, The task is subdivided into a plurality of steps 1 to m and output to the task weighting processing unit 32.
  • the task weighting processing unit 32 adjusts the order of tasks so that the censors 1 to n perform processing in descending order of priority among the subdivided steps 1 to m.
  • steps 1 to m are input from the task segmentation processing unit 31 to the task weighting processing unit 32, the task weighting processing unit 32 is likely to be determined to censor those steps 1 to m.
  • the tasks 1 to n of the censors 1 to n are generated in order and the tasks 1 to n are output.
  • step refers to one or more contents to be censored that are further subdivided than tasks. You may make it use the score for every content classification as a high priority.
  • the task weight processing section 32 may generate tasks 1 to n by rearranging steps 1 to m in descending order of scores for each content category.
  • the task weighting processing unit 32 sorts the steps 1 to m in descending order of priority based on at least one of the censor accuracy of the censors 1 to n, the censoring speed, and the task difficulty. Tasks 1 to n of persons 1 to n may be generated.
  • FIG. 11 is a conceptual diagram showing the order of steps in the conventional censorship technique.
  • FIG. 11A is a diagram showing a brute force case
  • FIG. 11B is a diagram showing a case of distributed processing.
  • the censor has visually confirmed the object to be censored by two methods of brute force or distributed processing.
  • the contents are censored objects “Is scenario”, “Is violet”, “Is religious”, “Is copied”, “Is human”, “Is named”,
  • the passage (pass) or the rejection (decline) is determined at the time when it corresponds to the censored object.
  • the content is distributedly processed for each task (censorship target), and passage or rejection is determined.
  • the priority order for each step is equal (all weights are 1 in the figure).
  • FIG. 9 is a conceptual diagram showing the order of steps in the censor device 40 of the fourth embodiment.
  • the censor device 40 determines the priority order of steps by weighting each step. Specifically, first, whether or not the content is the step with the highest weight (the step with the weight of 1 in the figure), the content is “Is human”, “Is nailed”, and “Is sex”. Let the censor judge. If the content does not fall under censorship, the censor determines whether the content is the next censored subject “Is violent”, which is the next step with the highest weighting (step with a weight of 0.6 in the figure). Let Thereafter, the censors are caused to perform the steps in descending order of weighting in the same manner. The censor device 40 generates tasks rearranged in such order of steps. In this way, the efficiency of human power classification can be further improved by causing the censor to censor in order of higher priority.
  • a step with a high weight means a step with a high possibility of being judged as NG among a plurality of steps for one task.
  • the censor by the censor can be terminated. Therefore, if it is determined that the content is NG early by performing censoring from a step with a high possibility of being determined as NG, that is, a step with high weight, a task (step) relating to the content is performed thereafter. This is no longer necessary and the work can be shortened.
  • the censorship apparatus subdivides the task so that the work efficiency of the censor is improved, and the censoring process is performed from a step with a high weight that is likely to be determined as NG.
  • the work efficiency of the user it is possible to shorten the censoring process itself as compared with the prior art, and the work efficiency as a whole can be dramatically improved.
  • the censorship device may further include a content processing unit 33.
  • the content processing unit 33 processes and corrects the content in the task distributed to the censors for various purposes.
  • the content processing unit 33 performs color gradation correction on the content in the tasks 1 to n input from the task weighting processing unit 32. For example, an obscene photograph is converted into an animation-like image in which the color gradation is reduced and the outline is emphasized. Then, the content processing unit 33 distributes the processed tasks 1 to n to the censors 1 to n.
  • Censors tend to accumulate a mental burden if they continue to work on censorship of obscene photographs etc. for a long time.
  • the censors 1 to n are able to It can relieve the stimulus and reduce the mental burden on the censors 1 to n.
  • security measures may be taken for content, particularly images, and for example, at least one of the following processes (a) to (c) may be performed.
  • This security measure can suppress the outflow of original contents, and can prevent the contents from being identified even if tasks 1 to n are outflowed.
  • the censorship apparatus of the fourth embodiment subdivides the tasks 1 to n of the censors 1 to n selected by the task subdivision processing unit 31 into a plurality of steps 1 to m, respectively, and the task weighting processing unit 32 subdivides the tasks. Since the order of tasks is adjusted so that the censors 1 to n process in order from the step with the highest priority among the plurality of steps 1 to m, the censorship efficiency by human classification can be further improved. it can. Furthermore, by performing the color gradation correction of the content to be censored by the content processing unit 33, it is possible to reduce the mental burden on the censors 1 to n due to the long-time censorship.
  • the censorship device has the following effects over the conventional microtasking platform.
  • the microtasking platform categorizes censorship work into minimum units called microtasks, sets unit prices for each microtask, registers censors on the network in advance, and then censors Is a mechanism for selecting tasks.
  • the censor device can calculate the unit price per hour for the censor from actual statistical observations and present it as a reference value to the censor. Task selection by is easy.
  • the task unit price is the asking price by the orderer and tends to be set low, so there is a problem that the censorship's motivation is reduced and high censorship accuracy cannot be maintained. It was.
  • the orderer can designate “maximum budget” instead of the fixed unit price.
  • the “maximum budget” is the upper limit of consideration that the orderer can pay for the task.
  • the actual task unit price and processing priority can be determined by automatic competitive bidding with other orderers at the same time. For example, in a time zone when many tasks are ordered, it is possible to prevent the processing from being completed because the unit price must be increased. Also, as a censor, it is possible to expect more consideration by increasing the censorship accuracy and censorship speed, so the motivation of the censor can be kept high.
  • censorship device for example, online users all over the world can be inserted by inserting microtasks into the area where display advertisements and reward advertisements are displayed on general-purpose websites and applications.
  • a wide range of censors can be secured.
  • profiling, questionnaire surveys, monitor surveys, etc. can be performed on censors.
  • Any of the censorship devices of the first to fourth embodiments described above can be implemented in any combination.
  • FIG. 7 is a diagram illustrating a specific configuration example of the censor device 40 according to the fourth embodiment.
  • the censor device 40 includes a machine classifier 1 as a machine classifier, a censor indicator storage unit 2 and a task storage unit 8 as a database, a task generator 3 as a human computation gateway, a censor result acquisition unit 4, a censorship determination unit 5,
  • the automatic learning unit 6 and the censor time measuring unit 7 include a Result Aggregator.
  • Machine Classifiers, Human Computation Gateway, and Result Aggregator are all servers, and Database is a storage device.
  • the machine discriminator 1, the censor indicator storage unit 2, the task generator 3, the censor result acquisition unit 4, the censor determination unit 5, the automatic learning unit 6, the censor time measurement unit 7, and the task storage unit 8 are at least hardware or Each of them is constituted by any one of software (programs), and each of the processes described above is performed.
  • the content of Service A and the content of Service B are downloaded (acquired) to the censor device 40 via the Gateway (server).
  • the downloaded content is input to the Machine Classifiers, a plurality of tasks are generated by the Human Computation Gateway, and these tasks are distributed to a plurality of censors (Micro-task workers).
  • the Result Aggregator acquires each censor's censorship result, censoring accuracy, censorship time, and determination result, and reflects them in the index related to the censor who is stored in the Database. These indices are fed back for the next task generation of Machine Classifiers.
  • FIG. 8 is a flowchart of an example of the censor device 40 according to the fourth embodiment.
  • Content text, image, video, voice, music, etc.
  • the censor device 40 of the fourth embodiment first uses the Web API or the like to send these contents via Gateway. Download (acquire).
  • metadata Obj.Detector, OCR, Speech to TXT, Features, etc.
  • a score is calculated for each content classification using a multivariate analysis algorithm or the like (SVM, Deep Learning, Cache, Custom Filters, etc.).
  • SVM Ses Visual Component Analysis
  • OK or NG is determined for the content.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

人力分類による検閲の作業効率を向上させることができる検閲装置を提供する。複数のコンテンツを、複数の検閲者に検閲させる検閲装置(10)であって、複数のコンテンツの各々に対する指標として、少なくとも、コンテンツ分類及びコンテンツ分類毎のスコア、を出力する、機械判別器(1)と、複数の検閲者の各々についての指標として、少なくとも、コンテンツ分類毎の、検閲精度及び検閲速度、を記憶する、検閲者指標記憶部(2)と、コンテンツに関する指標、及び前記検閲者に関する指標に基づき、複数の検閲者の各々に検閲すべきコンテンツを分配する、タスク生成器(3)と、を備える。

Description

検閲装置
 本発明は、ネットワークで閲覧可能な種々のコンテンツから不適切なものを除去する検閲装置(コンテンツフィルタリング装置)に関し、より詳細には、機械学習と自動分類機を用いて人力によるコンテンツの監視を最適化する検閲装置に関する。
 インターネット上で閲覧可能なコンテンツデータから不適切なもの(例えば、個人情報、著作権に関わるデータ、公序良俗に反するデータ等)を抽出する方法には、コンピュータによる自動分類と人力による手動分類(以下、「人力分類」とする。)が知られている。
 近年は自動分類と人力分類を組み合わせた検閲システムとして、例えば、自動分類を補助的に用いて検閲者(ワーカー)の監視負担を軽減するシステムが検討されている(特許文献1、2等)。
特開2008-158735号公報 特開2010-266940号公報
 しかし、自動分類の検閲精度は種々のコンテンツを対象とするものに対しては未だ実用レベルになく、機械学習を用いた検閲装置の精度も実用レベルには程遠い。そのため、自動分類と人力分類を組み合わせた検閲においても、検閲精度の観点から未だ人力分類に比重を置いた検閲が行われており、大量の人材を投入して検閲する、いわゆる人海戦術による検閲が主流である。
 人海戦術による検閲システムでは、検閲作業をマイクロタスクと呼ばれる最小単位に分類し、各マイクロタスクごとに単価を定め、予めネットワーク上で検閲者を登録した上で、検閲者がタスクを選別する仕組み(マイクロタスキングプラットフォーム)を用いて検閲が行われているが、表示される目安の作業時間には検閲者の能力が反映されていなかった。そのため、検閲者の各々の能力を十分に活かすことができなかった。
 また、人的資産を用いる以上、検閲の品質及び検閲業務の持続性を確保するためには、検閲者のメンタルヘルスの維持や管理など人的負担が十分に考慮され、かつプライシングスキーム(価格決定の枠組み)が発注者及び検閲者の双方にとって合理的なものであることが好ましい。しかし、既存のマイクロタスキングプラットフォームは必ずしもこのようなニーズに応えるものではなかった。
 本発明は、上記に鑑みてなされたものであり、人力分類による検閲の作業効率を向上させることができる検閲装置を提供することを主な技術的課題とする。
 本発明による検閲装置は、複数のコンテンツを、複数の検閲者に検閲させる検閲装置であって、
  前記複数のコンテンツの各々に対する指標として、少なくとも、コンテンツ分類及び前記コンテンツ分類毎のスコア、を出力する、機械判別器と、
  前記複数の検閲者の各々についての指標として、少なくとも、前記コンテンツ分類毎の、検閲精度及び検閲速度、を記憶する、検閲者指標記憶部と、
  前記コンテンツに関する指標、及び前記検閲者に関する指標に基づき、
  前記複数の検閲者の各々に検閲すべきコンテンツを分配する、タスク生成器と、
 を備えることを特徴とする。
 上記の構成によれば、タスク生成器が、機械判別器1から入力されるコンテンツに関する指標と、検閲者指標記憶部2の検閲者1~nに関する指標、特に、検閲精度及び検閲速度とに基づき、検閲者1~nのタスク1~nを生成し、検閲者1~nの各々にそれらのタスク1~nを分配するものであるため、従来の人力分類を前提とした検閲装置よりも、人力分類による検閲の作業効率を向上させることができる。
第1の実施形態の検閲装置のフローチャート 第1の実施形態の検閲者指標記憶部のデータベースを示す図、(a)テーブルを示す図、(b)コンテンツ毎の複数のテーブルを示す図 第2の実施形態の検閲装置のフローチャート 第3の実施形態の検閲装置のフローチャート 第4の実施形態の検閲装置のフローチャートを示す図、(a)タスク細分化処理部及びタスク重付処理部を示す図、(b)コンテンツ加工部を示す図 第4の実施形態のタスク記憶部のデータベースを示す図、(a)テーブルを示す図、(b)コンテンツ毎の複数のテーブルを示す図 第4の実施形態の検閲装置の構成を示す図 第4の実施形態の検閲装置の実施例のフローチャート 第4の実施形態の検閲装置においてタスクの順番を示す概念図 従来の検閲手法を示す概念図 従来の検閲手法においてタスクの順番を示す概念図、(a)総当たりの場合を示す図、(b)分散処理の場合を示す図
 以下、図面を参照して本発明の実施形態について詳述する。但し、これらの実施形態はいずれも例示であり、本発明についての限定的解釈を与えるものではない。なお、図面において、同一の又は対応する部分については同一の符号を付すものとする。
(第1の実施形態)
 図1は、第1の実施形態の検閲装置のフローチャートである。第1の実施形態にかかる検閲装置10は、主に、機械判別器1と、検閲者指標記憶部2と、タスク生成器3と、を備える。
 検閲装置10は、主にネットワーク上の複数のコンテンツを複数の検閲者に検閲させる装置である。コンテンツとしては、主に、テキスト、画像、動画、及びこれらの複合データが挙げられる。検閲者は、目視によりコンテンツ内の検閲対象(個人情報、著作権に関わるデータ、公序良俗に反するデータ等)の有無を判別し、コンテンツに対してOK(検閲対象を含まない)又はNG(検閲対象を含む)といった分類を行う。
 機械判別器1は、主に1つ又は複数のコンテンツを自動分類するものである。機械判別器1にコンテンツが入力されると、機械判別器1は、そのコンテンツに対する指標(以下、「コンテンツに関する指標」という。)を出力する。コンテンツに関する指標には、少なくとも、コンテンツ分類及びコンテンツ分類毎のスコアが含まれる。
 ここで、コンテンツ分類とは、コンテンツの検閲対象毎のカテゴリーをいい、記憶装置等に保存されている。コンテンツ分類は、例えば、特定キャラクターを含んだ著作権に関するもの、性に関するもの、暴力に関するもの、などのように、数10種ほどを予め設定しておいてもよい。また、流行(トレンド)等に合わせて適宜追加・変更してもよく、さらには、検閲を希望するクライアントのニーズに合わせて追加・変更することもできる。コンテンツ分類毎のスコアとは、コンテンツの検閲対象毎の確からしさ(コンテンツ内の相対的確率)を表すものであり、例えば、数値である。このスコアをみることにより、コンテンツ内の検閲対象の有無の確からしさを知ることができる。
 機械判別器1は、以下(1)~(3)の処理を実施する。
(1)入力されたコンテンツから検閲対象を抽出するために有効な特徴部分を抽出する。この特徴部分は、既存の特徴点抽出手法によりコンテンツからメタデータをパラメータとして抽出することができる。
(2)(1)のパラメータの分布から検閲対象との近似性や関連性等を解析し、コンテンツ分類毎に数値化する。例えば、抽出したパラメータ群をSVM(Support Vector Machine)やK-Means法、K-NearestNeighbor法等で多変量解析することにより、検閲対象毎にコンテンツ内の相対的確率を算出する。なお、上記パラメータを含む検閲対象のデータを蓄積し、その蓄積されたデータに対してデータマイニングにより高頻度で発生する特徴的なパターンやパラメータの相関関係等を見つけ、それらを相対的確率の算出に反映するようにしてもよい。
(3)このコンテンツ分類毎に算出された数値をコンテンツ分類毎のスコアとして出力する。このコンテンツ分類毎のスコアは記憶装置等に保存してもよい。なお、特徴量は、例えばJPEGファイルのEXIF領域に記録されている写真の撮影条件や画像に関する各種パラメータに加え、画素情報から計算されるカラーヒストグラムやエントロピー、また深層学習ニューラルネットワークやSIFTのような特徴抽出アルゴリズムによって抽出することができる。
 機械判別器1において、コンテンツ分類毎のスコアが非常に高い又は低い場合、すなわち、コンテンツ内の検閲対象の有無が非常に高い確率で判別可能な場合は、検閲者による検閲(人力分類)をすることなく、機械判別器1によりOK又はNGの判定を行ってもよい。機械判別器1の判定によりコンテンツ内の検閲対象がなくなった場合、以後このコンテンツに関する指標をタスク生成器3へ出力しないようにしてもよい。このようにすれば、以後の人的作業が不要となり、タスク生成器3により生成されるタスクの数を減らすことができる。
 検閲者指標記憶部2は、主に複数の検閲者の各々についての指標(以下、「検閲者に関する指標」という。)を記憶するデータベースである。検閲者に関する指標には、少なくとも、複数の検閲者(1~n、nは2以上の整数)の各々に対する、コンテンツ分類毎の検閲精度及び検閲速度が含まれる。
 図2は、第1の実施形態の検閲者指標記憶部2のデータベースを示す図である。図2(a)はテーブルを示す図であり、図2(b)はコンテンツ分類毎の複数のテーブルを示す図である。テーブル2a~2cはコンテンツ分類毎のテーブルである。このデータベースでは、検閲者1~nに検閲者IDとして00001~0000nが各々割り当てられ、各テーブルには検閲者1~nに関する指標(検閲者ID、検閲精度、検閲速度、対応分類、単価、・・・)が登録されている。
 タスク生成器3は、複数の検閲者により人力分類する検閲対象コンテンツを生成し、それらを検閲者の各々に分配するものである。機械判別器1からタスク生成器3にコンテンツに関する指標が入力されると、タスク生成器3は、そのコンテンツに関する指標、及び検閲者指標記憶部2の検閲者に関する指標に基づき、検閲者1~nの各々が検閲すべき1つ又は複数のコンテンツ1~nを生成し、検閲者1~nの各々に対するタスク1~nとして分配する。
 タスク生成器3は、以下(1)~(3)の処理により、入力されたコンテンツに関する指標から、検閲者1~nに対する各々のタスク1~nを生成する。
(1)コンテンツに関する指標に基づき、人力分類するにあたって最適なコンテンツ分類毎のタスクを構成する。
なお、タスクを構成する際に、コンテンツを適宜加工してもよい。また、コンテンツに関する指標に基づき、タスク1~nに対して難易度情報を設定するようにしてもよい。
 コンテンツ加工を伴うタスクの構成方法として、例えば、以下の(a)~(c)が挙げられる。
(a)卑猥な写真の可能性が高い場合、画像にフィルターをかけ、類似の他のコンテンツと合わせて一括目視確認するタスクを構成する。
(b)子供の顔が写っている可能性が高い場合、画像中の顔が認識された領域をハイライトし、未成年かどうかの判定を目視確認するタスクを構成する。
(c)パーティー写真の可能性が高い場合、画像中に酒類が含まれていないかを目視確認するタスクを構成する。
(2)検閲者指標記憶部2の検閲者に関する指標に基づき、検閲者1~nを選定する。
この選定は、検閲者が対応可能なコンテンツ分類であることが前提条件となるが、特に、検閲者の検閲精度や検閲速度を重要視すれば、人力分類による検閲の作業効率の向上が見込まれる。
(3)(1)のタスクを検閲者1~nの各々に振り分けて、検閲者1~nに対する各々のタスク1~nを生成する。
 以上のように、第1の実施形態の検閲装置10は、タスク生成器3が、機械判別器1から入力されるコンテンツに関する指標と、検閲者指標記憶部2の検閲者1~nに関する指標、特に、検閲精度及び検閲速度とに基づき、検閲者1~nのタスク1~nを生成し、検閲者1~nの各々にそれらのタスク1~nを分配するものであるため、従来の人力分類を前提とした検閲装置よりも、人力分類による検閲の作業効率を向上させることができる。
(第2の実施形態)
 図3は、第2の実施形態の検閲装置20のフローチャートである。第2の実施形態にかかる検閲装置20は、主に、前述の第1の実施形態の検閲装置10の構成と、さらに、検閲結果取得部4と、検閲判定部5と、検閲精度に対する自動学習部6とを備える。
 検閲結果取得部4は、複数の検閲者1~n毎の検閲結果1~nを取得するものである。検閲結果取得部4は検閲者1~nの検閲結果1~nを取得すると、検閲結果取得部4はそれらの検閲結果1~nを検定判定部5及び自動学習部6へ各々出力する。取得された検閲結果1~nは、検閲結果取得部4内部の記憶装置又は外部記憶装置に保存するようにしてもよい。
 検閲判定部5は、複数の検閲結果1~nに基づき、検閲対象とすべきか否かを判定するものである。検閲結果取得部4から検閲判定部5に検閲結果1~nが入力されると、検閲判定部5は、コンテンツがOKかNGかを判定する。例えば、検閲判定部5の判定は、検閲結果1~nのOKの数とNGの数とを比較し、多数決の原理により判定結果を出してもよい。
 また、検閲判定部5の判定は、検閲結果1~nに対して、検閲者指標記憶部2の検閲者に関する指標、特に、検閲者1~nの検閲精度情報に基づいた重み付けをして判定結果を出してもよい。
 前述の判定後、検閲判定部5は、判定結果を自動学習部6へ出力する。自動学習部6は、検閲者1~nの検閲結果1~nと、検閲判定部5の判定結果と、の比較に基づき、検閲者指標記憶部2に記憶されている検閲者1~nの検閲精度情報を更新する。自動学習部6に検閲結果1~n及び判定結果が入力されると、自動学習部6は、それらを検閲者1~nの検閲精度情報にフィードバックし、以後タスク生成器3は更新された検閲者に関する指標に基づきタスク1~nを生成する。これにより、検閲者1~nの検閲精度情報に基づいた最適なタスク1~nを生成することができるため、検閲者による人力分類による検閲の作業効率を向上させることができる。
 検閲者1~nに関する指標は、自動学習部6によりフィードバックされる毎に、又は所定のタイミング毎に、検閲者指標記憶部2又は他の記憶装置に記憶させるようにしてもよい。これにより、検閲者1~nの実際の時間あたりの単価、検閲者1~n毎の検閲したタスク量、及び検閲者1~nのトータルコスト等を算出することができ、コストや検閲者の管理に有効な情報となるからである。
 第2の実施形態の検閲装置20は、自動学習部6が、検閲者1~nの検閲結果1~nと、検閲判定部5の判定結果との比較により検証された、検閲者1~nの検閲結果1~nの正誤情報に基づき、検閲者1~nに関する指標、特に、検閲精度を動的に更新し、タスク生成器3は、更新された検閲者1~nの検閲精度を基に検閲者1~nの最適なタスク1~nを生成するため、第1の実施形態の検閲装置よりもさらに人力分類による検閲の作業効率を向上させることができる。
 なお、上記にいう「動的に更新」とは、検閲者1~nのに関する指標をリアルタイムで更新することをいうものとするが、かかる更新は完全なリアルタイムでなくてもよく、所定周期毎に、若しくは、所定のイベント毎に更新してもよい。
(第3の実施形態)
 図4は、第3の実施形態の検閲装置30のフローチャートである。第3の実施形態にかかる検閲装置30は、主に、前述の第2の実施形態の検閲装置20の構成と、さらに、検閲時間測定部7と、検閲速度に対する自動学習部6とを備える。
 検閲時間測定部7は、検閲者1~nの各々について、タスク生成器3によりタスク1~nが分配されてから、検閲者1~nが検閲結果1~nを返すまでの時間を測定する。検閲時間測定部7は検閲者1~nの検閲時間1~nを測定すると、検閲時間測定部7はそれらの検閲時間1~nを自動学習部6へ各々出力する。測定された検閲結果1~nは、検閲時間測定部7内や外部の記憶装置に保存されるようにしてもよい。
 自動学習部6は、検閲測定部7の検閲時間1~nに基づき、検閲者指標記憶部2に記憶されている検閲者1~nの検閲速度情報を更新する。自動学習部6に検閲時間1~nが入力されると、自動学習部6は、それらを検閲者1~nの検閲速度情報にフィードバックして、以後タスク生成器3によるタスク1~nの生成に反映させる。これにより、検閲者1~nの検閲速度情報に基づいた最適なタスク1~nを生成することができ、検閲者による人力分類による検閲の作業効率を向上させることができる。
 従来の検閲装置では、各検閲者に対する1つのタスクあたりのコンテンツを、単純に検閲者の人数で均等に分配していた。例えば、図10のように、検閲者101(101a~101c)が3人の場合、各人が担当するコンテンツ(102a~102c)は全コンテンツ102を3等分したものであった。これは、3人の検閲者(101a~101c)の検閲精度及び検閲速度に差がなければ問題ないが、実際には能力の低い検閲者が人力分類の作業においてボトルネックとなり、作業効率に影響していた。
 一方、本実施形態におけるタスク生成器3は、検閲者1~nのタスク1~nに対して、検閲者指標記憶部2の動的に更新された検閲者に関する指標、特に、自動学習部6により動的に更新された検閲者1~nの検閲精度及び検閲速度に基づき、一度に処理すべきコンテンツ量を各々決定することが好ましい。このようにすると、検閲者1~nのより最適なタスク1~nを生成することができるため、検閲者による人力分類の作業効率を向上させることができる。
 第3の実施形態の検閲装置30は、自動学習部6が、検閲時間測定部7の測定時間に基づき、検閲者1~nに関する指標、特に、検閲速度を動的に更新し、タスク生成器3は、更新された検閲者1~nの検閲速度を基に検閲者1~nの最適なタスク1~nを生成するため、第2の実施形態の検閲装置よりもさらに人力分類による検閲の作業効率を向上させることができる。
 特に、タスク生成器3が、更新された検閲者1~nの検閲精度及び検閲速度に基づき、検閲者1~nの一度に処理すべきタスク量を決定していくことで、検閲者の各々の最新の検閲精度及び検閲速度を反映した人力分類を行うことができるため、人力分類による検閲の作業効率をより向上させることができる。
 従来の検閲装置では、検閲者は、事前登録等された、ある限られた対象を母集団とするものがほとんどであり、検閲者に関する指標が頻繁に変化することは想定されていなかった。一方、本実施形態で取り扱う検閲装置においては、世界中のオンラインユーザーを検閲者の母集団とすることができ、検閲者の入れ替わりが激しかったり、その情報が頻繁に更新されるようなことも想定されるが、そのような場合であっても、常に最新の検閲者に関する指標に基づきタスクを決定できるため、最適なタスク分配が可能となる。すなわち、本実施形態における検閲装置は、検閲者の流動性が高い環境においても適用できるものである。
(第4の実施形態)
 図5は、第4の実施形態の検閲装置のフローチャートである。図5(a)は主にタスク細分化処理部31及びタスク重付処理部32を示す図であり、図5(b)は主にコンテンツ加工部33を示す図である。第4の実施形態にかかる検閲装置は、前述の第1~3の実施形態の検閲装置のいずれか1つの構成と、さらに、タスク記憶部8を備える。タスク記憶部8は、コンテンツ分類毎に処理すべきタスクを記憶するものである。タスク生成器3は、コンテンツ分類に基づき、タスク記憶部8に記憶されたタスクを選択するようにしてもよい。このようにすることで、タスク生成器3は、より効率よく検閲者1~nのタスク1~nを生成することができる。
 図6は、第4の実施形態のタスク記憶部8のデータベースを示す図である。図6(a)はテーブルを示す図であり、図6(b)はコンテンツ毎の複数のテーブルを示す図である。テーブル8a~8cはコンテンツ分類毎のテーブルである。このデータベースでは、タスク1~nのタスクIDとして00001~0000nが各々割り当てられ、各テーブルにはタスクに関する指標(タスクID、内容、難易度、条件1、条件2、・・・)が登録されている。
 第4の実施形態にかかる検閲装置は、さらに、タスク細分化処理部31と、タスク重付処理部32とを備えてもよい。
 タスク細分化処理部31は、選択されたタスクを複数のステップ1~m(mは2以上の整数)に各々細分化する。機械判別器1からタスク細分化処理部31にコンテンツ分類及びコンテンツ分類毎のスコアが入力されると、タスク細分化処理部31は、タスク記憶部8のコンテンツ分類毎のタスクを選択し、それらのタスクを複数のステップ1~mに各々細分化してタスク重付処理部32へ各々出力する。
 タスク重付処理部32は、主に細分化された複数のステップ1~mのうち、優先度の高いステップから順に検閲者1~nに処理させるようタスクの順番を調整する。タスク細分化処理部31からタスク重付処理部32にステップ1~mが入力されると、タスク重付処理部32は、それらのステップ1~mを検閲すべきと判断される可能性の高い順に並び替えて検閲者1~nのタスク1~nを生成し、タスク1~nを各々出力する。
 ここで、「ステップ」とは、タスクよりもさらに細分化した1つ又は複数の検閲すべきコンテンツをいう。優先度の高さとしてはコンテンツ分類毎のスコアを用いるようにしてもよい。例えば、タスク重付処理部32は、コンテンツ分類毎のスコアが高い順にステップ1~mを並び替えてタスク1~nを生成してもよい。
 さらに、タスク重付処理部32は、少なくとも検閲者1~nの検閲精度、検閲速度、及びタスクの難易度のいずれか1つに基づき、ステップ1~mを優先度の高い順に並び替えて検閲者1~nのタスク1~nを生成するようにしてもよい。
 図11は、従来の検閲手法においてステップの順番を示す概念図である。図11(a)は総当たりの場合を示す図であり、図11(b)は分散処理の場合を示す図である。この図に示す従来の検閲手法では、検閲者は、概ね総当たり又は分散処理の2通りの方法で検閲対象を目視確認していた。
例えば、図11(a)に示すように、左から順に、コンテンツが検閲対象「Is scenery」、「Is violent」、「Is religious」、「Is copyrighted」、「Is human」、「Is naked」、及び「Is sexual」に該当するか否かを総当たりで目視確認していた。そして、全ての検閲対象に該当しない場合通過(pass)、又は検閲対象に該当した時点で、拒絶(decline)を判定していた。
また、図11(b)に示すように、コンテンツを、各々のタスク(検閲対象)毎で分散処理して、通過又は拒絶を判定していた。この場合、ステップ毎の優先順位は均等(図中では、すべて重み1)であった。
以上のような従来の検閲手法では、例えば、ステップ毎の優先順位が均等である場合、ステップの難易度や検閲者の検閲技能によって検閲結果、検閲精度及び検閲時間に大きな差が生じ、さらに、重要度の高いステップ及びに対しても優先順位が均等な対応となり、人力分類の効率が非常に悪かった。
 一方、図9は、第4の実施形態の検閲装置40においてステップの順番を示す概念図である。図9に示すように、検閲装置40では、各々のステップに対する重み付けによりステップの優先順位を決定する。具体的には、まず、重み付けが一番高いステップ(図中では重みが1のステップ)である、コンテンツが検閲対象「Is human」、「Is naked」、及び「Is sexual」であるか否かを検閲者に判定させる。コンテンツが検閲対象に該当しなかった場合、次に重み付けが高いステップ(図中では重みが0.6のステップ)である、コンテンツが検閲対象「Is violent」であるか否かを検閲者に判定させる。以後同様にして重み付けの降順に検閲者にステップを実施させる。検閲装置40では、このようなステップの順番に並べ替えたタスクを生成する。このようにして優先順位の高い順に検閲者に検閲させることにより、人力分類の効率をより向上させることができる。
 重み付けの高いステップとは、1つのタスクに対する複数のステップのうち、NGと判定される可能性が高いステップのことをいう。検閲者によるタスク処理において、コンテンツがNGと判断された時点で、その検閲者による検閲を終了させることができる。よって、NGと判定される可能性が高いステップ、すなわち、重み付けの高いステップから検閲を実行させることで早期にそのコンテンツがNGであると判定できれば、それ以降、かかるコンテンツに関するタスク(ステップ)を行う必要がなくなり、作業を短縮化できる。
 従来は、総当たり又は重み付けを考慮しない分散処理がなされていた。一方、本実施形態における検閲装置は、検閲者の作業効率が向上するようタスクを細分化し、かつ、NGと判定される可能性が高い、重み付けの高いステップから処理させるようにしたことで、検閲者の作業効率が向上するだけではなく、従来よりも検閲工程自体を短縮することが可能となり、全体としての作業効率を飛躍的に向上させることができる。
 第4の実施形態にかかる検閲装置は、さらに、コンテンツ加工部33を備えてもよい。コンテンツ加工部33は、種々の目的によって、検閲者に分配されるタスク中のコンテンツを加工修正するものである。
コンテンツ加工部33の一形態として、コンテンツ加工部33は、タスク重付処理部32から入力されたタスク1~n内のコンテンツに対し、色階調補正を行う。例えば、卑猥な写真に対して色階調を落として輪郭を強調したアニメ調の画像への変換を行う。そして、コンテンツ加工部33は、加工後のタスク1~nを検閲者1~nの各々に分配する。
 検閲者は卑猥な写真等の検閲に長時間従事し続けると精神的負荷が蓄積しやすいが、コンテンツ加工部33によってコンテンツの色階調補正を行うことにより、検閲中に検閲者1~nが受ける刺激を緩和でき、検閲者1~nの精神的負担を軽減させることができる。
 また、コンテンツ加工部33の別形態としては、コンテンツ、特に画像に対して、セキュリティ対策を行ってもよく、例えば以下(a)~(c)の処理を少なくとも1つを行ってもよい。
(a)画像に透かしを埋め込む。
(b)画像を複数に分割する。
(c)画像にフィルターをかけ、特徴を残しつつもオリジナルでない状態にする。
 このセキュリティ対策により、オリジナルのコンテンツの流出を抑えることができ、たとえタスク1~nが流出してもコンテンツが特定されることを抑えることができる。
 第4の実施形態の検閲装置は、タスク細分化処理部31が選択された検閲者1~nのタスク1~nを複数のステップ1~mに各々細分化し、タスク重付処理部32が細分化された複数のステップ1~mのうち、優先度の高いステップから順に検閲者1~nに処理させるようにタスクの順番を調整するため、人力分類による検閲の作業効率をより向上させることができる。さらに、コンテンツ加工部33が検閲すべきコンテンツの色階調補正を行うことにより、長時間の検閲による検閲者1~nの精神的負担を軽減することができる。
 さらに、第4の実施形態にかかる検閲装置は、従来のマイクロタスキングプラットフォームに対し、以下のような効果を有する。なお、マイクロタスキングプラットフォームとは、上述したように、検閲作業をマイクロタスクと呼ばれる最小単位に分類し、各マイクロタスクごとに単価を定め、予めネットワーク上で検閲者を登録した上で、検閲者がタスクを選別する仕組みである。
(1-1)従来のマイクロタスキングプラットフォームでは、タスク単価でリスト表示されるものの、実際にタスクにかかる時間や一時間あたりの見積もり額等は検閲者の能力が考慮されず、検閲者にとってタスクの選別が困難であった。
(1-2)一方、第4の実施形態にかかる検閲装置は、実際の統計的な観測から、検閲者における時間あたり単価を算出し、検閲者に対して参考値として提示できるため、検閲者によるタスク選択が容易となる。
(2-1)従来のマイクロタスキングプラットフォームでは、タスク単価が発注者による言い値であり、低く設定される傾向にあったため、検閲者のモチベーションが低下し、高い検閲精度を維持できないという問題があった。
(2-2)一方、第4の実施形態にかかる検閲装置では、発注者は固定単価の代わりに「最大予算」を指定することができる。「最大予算」とは、発注者がそのタスクに対して支払うことができる対価の上限額である。これにより、実際のタスク単価及び処理の優先度は、同時間における他の発注者との自動的な競争入札によって決定させることができる。例えば、多くのタスクが発注される時間帯においては単価を上げなければなかなか処理が完了しないようにすることができる。また、検閲者としても、検閲精度や検閲速度を上げることでより多くの対価が期待できるため、検閲者のモチベーションを高く維持できる。
(3-1)従来のマイクロタスキングプラットフォームでは、サービス上で検閲者として登録した上で作業を行うことが主流となっていた。しかし、検閲者は平均賃金の低い途上国からの登録が大半を占めるため、フェアトレードの観点からこのような仕組みが問題視されていた。
(3-2)一方、本実施形態にかかる検閲装置では、例えば、汎用的なWebサイトやアプリにおけるディスプレイ広告やリワード広告が表示される領域にマイクロタスクを挿入することにより、世界中のオンラインユーザーを対象として幅広く検閲者を確保することができる。さらに、検閲者に対してプロファイリング、アンケート調査、又はモニター調査等を実施することができる。
 以上説明した第1乃至第4の実施形態の検閲装置はいずれも任意に組み合わせて実施することができる。
(実施例)
 図7は、第4の実施形態の検閲装置40の具体的な構成例を示す図である。検閲装置40は、機械判別器1としてMachine Classifiersと、検閲者指標記憶部2及びタスク記憶部8としてDatabaseと、タスク生成器3としてHuman Computation Gatewayと、検閲結果取得部4、検閲判定部5、自動学習部6、及び検閲時間測定部7としてResult Aggregatorと、を備える。例えば、Machine Classifiers、Human Computation Gateway、Result Aggregatorはいずれもサーバであり、Databaseは記憶装置である。
 機械判別器1、検閲者指標記憶部2、タスク生成器3、検閲結果取得部4、検閲判定部5、自動学習部6、検閲時間測定部7、及びタスク記憶部8は、少なくともハードウェア又はソフトウェア(プログラム)のいずれかにより各々構成され、前述の処理が各々実施される。
 ServiceAのコンテンツ及びServiceBのコンテンツは、Gateway(サーバ)を介して検閲装置40にダウンロード(取得)される。ダウンロードされたコンテンツは、Machine Classifiersに入力され、Human Computation Gatewayにより複数のタスクが生成され、それらのタスクが複数の検閲者(Micro-task workers)に分配される。Result Aggregatorは、検閲者の各々の検閲結果、検閲精度、検閲時間、及び判定結果を取得して、それらをDatabaseに記憶された検閲者に関する指標に反映する。そして、それらの指標がMachine Classifiersの次のタスク生成のためにフィードバックされる。
 図8は、第4の実施形態の検閲装置40の実施例のフローチャートである。以下、このフローチャートの概要を説明する。コンテンツ(テキスト、画像、動画、音声、音楽等)は、Application Serverに集約されており、第4の実施形態の検閲装置40は、まず、それらのコンテンツをWeb API等を用いてGatewayを介してダウンロード(取得)する。次に、ダウンロードされたコンテンツを既存の様々な手法によりコンテンツ分類毎にメタデータ(Obj.Detector、OCR、Speech to Txt、Features等)を抽出する。次に、多変量解析のアルゴリズム等(SVM、Deep Learning、Cache、Custom Filters等)を用いてコンテンツ分類毎にスコアを算出する。このとき、検閲対象の有無を判別できる(Almost Certain)場合は、コンテンツに対してOK又はNGを判定する。
 次に、それ以外の(検閲対象の有無の確からしさがない、Less Sure)のコンテンツに対して複数の検閲者(Worker)各々に最適なタスクを生成し、それらを複数の検閲者に分配する。次に、少なくとも検閲者の検閲結果、検閲精度、検閲速度、及び判定結果の1つを取得し、それらをフィードバックして次のタスク生成に反映させる。
 以上のような検閲装置40を構成し、手書きによるアニメーション画像を組み合わせたコンテンツからの肌の露出のあるヒトの画像の検閲を検証した結果、人力分類において60~90%のコストを削減することができた。
 なお、上記検証結果の詳細は以下のとおりである。以下のワークフローにより、平均的に約27%の時間で検閲を実施できた。
・前処理によって重複フレームを省くことで平均30%程度フレームを削減できた。
・卑猥なコンテンツを絞り込むために、「ヒトが写っているかどうか(81%)」、「肌の露出があるか(67%)」という2つの分類器を実装した。
・上記分類結果に基づいてヒトが写っていない可能性の高い画像と写っていない画像に分け、複数枚をまとめてそれぞれ「ヒトの写っていない画像を選択」、「ヒトの写っている画像を選択」というタスクを構成した。
・上記タスクにより、ヒトの写っていない画像を検閲対象から効率的に除外することができ、全体の約60%の画像を、ランダムに1枚ずつ目視するときに比べて4倍の効率で検閲できた。また、この時、ページ上に36枚の画像を一度に表示した場合が平均的に最も効率が高く、検閲者によっては54枚まで同じ時間内に処理することができた。
・残りの40%の画像に対しても同様に、分類結果に基いてグループ分けを行い、「肌の露出のある画像を選ぶ」、「肌の露出のない画像を選ぶ」というタスクを適用したところ、約3倍の効率で検閲できた。
1 機械判別器
2 検閲者指標記憶部
3 タスク生成器
4 検閲結果取得部
5 検閲判定部
6 自動学習部
7 検閲時間測定部
8 タスク記憶部
10、20、30、40 検閲装置
31 タスク細分化処理部
32 タスク重付処理部
33 コンテンツ加工部

Claims (8)

  1.  複数のコンテンツを、複数の検閲者に検閲させる検閲装置であって、
      前記複数のコンテンツの各々に対する指標として、少なくとも、コンテンツ分類及び前記コンテンツ分類毎のスコア、を出力する、機械判別器と、
      前記複数の検閲者の各々についての指標として、少なくとも、前記コンテンツ分類毎の、検閲精度及び検閲速度、を記憶する、検閲者指標記憶部と、
      前記コンテンツに関する指標、及び前記検閲者に関する指標に基づき、
      前記複数の検閲者の各々に検閲すべきコンテンツを分配する、タスク生成器と、
     を備える、検閲装置。
  2.  前記検閲装置は、さらに、
      前記複数の検閲者毎の検閲結果を取得する、検閲結果取得部と、
      前記複数の検閲結果に基づき、検閲対象とすべきか否かを判定する検閲判定部と、
      前記検閲者の検閲結果と、前記検閲判定部の判定結果と、の比較に基づき、
      前記検閲者指標記憶部に記憶されている検閲精度情報を更新する、検閲精度自動学習部と、を備える
     ことを特徴とする請求項1記載の検閲装置。
  3.  前記検閲判定部は、
     前記検閲者指標記憶部に記憶されている検閲者毎の検閲精度情報に基づいた重み付けをして検閲判定を行う
     ことを特徴とする請求項1又は2記載の検閲装置。
  4.  前記検閲装置は、
      前記複数の検閲者の各々について、前記タスク生成器によりタスクが分配されてから、前記検閲者が検閲結果を返すまでの時間を測定する、検閲時間測定部と、
      前記測定された検閲時間に基づき、前記検閲者指標記憶部に記憶されている検閲速度情報を更新する、検閲速度自動学習部と、を備える
     ことを特徴とする請求項1乃至3のいずれか1項に記載の検閲装置。
  5.  前記検閲装置は、さらに、
      コンテンツ分類毎に処理すべきタスクを記憶するタスク記憶部を備え、
     前記タスク生成器は、
      コンテンツ分類に基づき、前記タスク記憶部に記憶されたタスクを選択する
     ことを特徴とする請求項1乃至4のいずれか1項に記載の検閲装置。
  6.  前記タスク生成器は、さらに
      前記選択されたタスクを複数のステップに細分化する、タスク細分化処理部と、
      前記細分化された複数のステップのうち、優先度の高いステップから順に検閲者に処理させるようタスクの順番を調整する、タスク重付処理部と、を備える
     ことを特徴とする請求項1乃至5のいずれか1項に記載の検閲装置。
  7.  前記タスク生成器は、さらに
      コンテンツの色階調補正を行うコンテンツ加工部を備える
     ことを特徴とする請求項1乃至6のいずれか1項に記載の検閲装置。
  8.  前記タスク生成器は、
      前記検閲者指標記憶部に記憶された検閲者の検閲精度及び検閲速度に基づき、一度に処理すべきコンテンツ量を決定する
     ことを特徴とする請求項1乃至7のいずれか1項に記載の検閲装置。
PCT/JP2015/059048 2014-03-27 2015-03-25 検閲装置 WO2015147029A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016507939A JP5975503B2 (ja) 2014-03-27 2015-03-25 検閲装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-066783 2014-03-27
JP2014066783 2014-03-27

Publications (1)

Publication Number Publication Date
WO2015147029A1 true WO2015147029A1 (ja) 2015-10-01

Family

ID=54195541

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/059048 WO2015147029A1 (ja) 2014-03-27 2015-03-25 検閲装置

Country Status (2)

Country Link
JP (1) JP5975503B2 (ja)
WO (1) WO2015147029A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212956A1 (ja) * 2016-06-09 2017-12-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288076A (ja) * 2001-03-26 2002-10-04 Atr Media Integration & Communications Res Lab 公衆向け情報表示装置およびその表示制御方法
JP2003084818A (ja) * 2001-09-07 2003-03-19 Tokio Marine & Fire Insurance Co Ltd 作業配分方法及び装置
JP2006268303A (ja) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd 投稿データ評価装置
JP2007058438A (ja) * 2005-08-23 2007-03-08 Nec Infrontia Corp 画像情報表示方法及び情報受信装置
JP2009194491A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> 動画検閲装置、動画検閲方法、動画検閲プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010266940A (ja) * 2009-05-12 2010-11-25 Kaisen Baitai Kenkyusho:Kk 情報検閲システム、情報公開サーバ、情報検閲装置、情報検閲方法、及び情報検閲プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288076A (ja) * 2001-03-26 2002-10-04 Atr Media Integration & Communications Res Lab 公衆向け情報表示装置およびその表示制御方法
JP2003084818A (ja) * 2001-09-07 2003-03-19 Tokio Marine & Fire Insurance Co Ltd 作業配分方法及び装置
JP2006268303A (ja) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd 投稿データ評価装置
JP2007058438A (ja) * 2005-08-23 2007-03-08 Nec Infrontia Corp 画像情報表示方法及び情報受信装置
JP2009194491A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> 動画検閲装置、動画検閲方法、動画検閲プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010266940A (ja) * 2009-05-12 2010-11-25 Kaisen Baitai Kenkyusho:Kk 情報検閲システム、情報公開サーバ、情報検閲装置、情報検閲方法、及び情報検閲プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212956A1 (ja) * 2016-06-09 2017-12-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JPWO2017212956A1 (ja) * 2016-06-09 2019-04-04 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Also Published As

Publication number Publication date
JP5975503B2 (ja) 2016-08-23
JPWO2015147029A1 (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
CN110309388B (zh) 数据对象信息违法风险识别方法、装置以及计算机系统
Chester et al. The role of digital marketing in political campaigns
JP5829662B2 (ja) 処理方法、コンピュータプログラム及び処理装置
JP5509753B2 (ja) 認識結果を生成するためのシステム及び方法
US9245252B2 (en) Method and system for determining on-line influence in social media
CN107483982B (zh) 一种主播推荐方法与装置
US20150003692A1 (en) Liveness detection
JP6501855B1 (ja) 抽出装置、抽出方法、抽出プログラム及びモデル
EP2567335A2 (en) System and method for directing content to users of a social networking engine
JP5577385B2 (ja) コンテンツ配信装置
JP2017027480A (ja) アイテム推薦システム及びアイテム推薦方法
CN105046630A (zh) 图像标签添加系统
CN105183739A (zh) 图像处理方法
WO2016203652A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
JP6570978B2 (ja) クラスタ選択装置
CN109101574B (zh) 一种数据防泄漏系统的任务审批方法和系统
US20230063311A1 (en) Information processing apparatus, information processing method, and program
JP5975503B2 (ja) 検閲装置
JP5028128B2 (ja) 属性判定装置、属性判定方法及びコンピュータプログラム
CN112651790A (zh) 基于快消行业用户触达的ocpx自适应学习方法和系统
US20210304238A1 (en) Self-learning valuation
JP2020154824A (ja) 決定装置、決定方法および決定プログラム
US20210319876A1 (en) Computer implemented method, a system and computer program for determining personalilzed parameters for a user
US20210173823A1 (en) Network-based content submission and contest management
Arturas et al. Risk assessment models in the tourism sector

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15770088

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016507939

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15770088

Country of ref document: EP

Kind code of ref document: A1