WO2023238412A1 - 分類装置、分類方法、及び分類プログラム - Google Patents

分類装置、分類方法、及び分類プログラム Download PDF

Info

Publication number
WO2023238412A1
WO2023238412A1 PCT/JP2022/023547 JP2022023547W WO2023238412A1 WO 2023238412 A1 WO2023238412 A1 WO 2023238412A1 JP 2022023547 W JP2022023547 W JP 2022023547W WO 2023238412 A1 WO2023238412 A1 WO 2023238412A1
Authority
WO
WIPO (PCT)
Prior art keywords
operations
classification
similarity
occurrence
processing device
Prior art date
Application number
PCT/JP2022/023547
Other languages
English (en)
French (fr)
Inventor
諒 内田
晴夫 大石
公雄 土川
泰輔 若杉
史拓 横瀬
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/023547 priority Critical patent/WO2023238412A1/ja
Publication of WO2023238412A1 publication Critical patent/WO2023238412A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Definitions

  • the present invention relates to a classification device, a classification method, and a classification program.
  • a person in charge of a business carries out multiple tasks every day using an information terminal such as a PC or a tablet, and the tasks performed via the information terminal consist of a plurality of tasks.
  • the work performed on a PC refers to, for example, a series of information input operations (inputting into a text box, clicking a button, etc.) necessary to perform a job.
  • the operating procedures vary depending on various factors such as the person in charge and the contents of the order.
  • the operating procedures are basically prescribed by the manual, but there may be deviations from the manual because the work content has changed since the manual was first created or the person in charge carries out the work using their own method. There are cases.
  • Non-Patent Document 4 the similarity between operations is not considered, so if the URL and window style change, the operation of "pressing the decision button" may be classified as a different task.
  • the terminal device 20 may be any type of information processing device including client devices such as smartphones, desktop PCs, notebook PCs, tablet PCs, and the like.
  • the terminal device 20 acquires the user's operation log. For example, the terminal device 20 acquires an operation log including the operation date and time, operation location, operation position, etc. at the timing when an operation event occurs. The terminal device 20 transmits the acquired operation log to the classification device 10.
  • the classification device 10 includes a communication section 11, a storage section 12, and a control section 13.
  • the communication unit 11 is realized by a NIC (Network Interface Card) or the like, and controls communication with external devices via telecommunication lines such as a LAN (Local Area Network) and the Internet. For example, the communication unit 11 receives an operation log from the terminal device 20.
  • NIC Network Interface Card
  • LAN Local Area Network
  • the operation log storage unit 121 stores the operation log acquired from the terminal device 20.
  • the classification device 10 receives the operation log from the terminal device 20 and stores the received operation log in the operation log storage section 121. Note that the classification device 10 may receive the operation log at any timing. For example, the classification device 10 may receive operation logs at regular time intervals, or may receive operation logs every time a new operation log occurs.
  • the control unit 13 has an internal memory for storing programs defining various processing procedures and required data, and executes various processes using these.
  • control unit 13 includes a collection unit 131, a specification unit 132, a creation unit 133, and a classification unit 134.
  • the identifying unit 132 identifies the operation corresponding to the operation log. For example, the specifying unit 132 reads the operation log table shown in FIG. 2 from the operation log storage unit 121 and adds a column called operation content.
  • the identification unit 132 adds information that combines window information and operation locations to the operation content column, and stores it in the operation log storage unit 121.
  • the specifying unit 132 adds information such as "web page 1 + button e" and "web page 1 + text box b" to the operation content column.
  • the creation unit 133 has a co-occurrence matrix that has the same number of rows and columns as the number of operations on the terminal device 20, and has the co-occurrence frequency between operations as an element, and has the same number of rows and columns as the number of operations, Create a similarity matrix whose elements are similarities between operations.
  • FIG. 3 is a diagram showing an example of a co-occurrence matrix.
  • the creation unit 133 reads operations from the operation log storage unit 121 in chronological order (in descending order of operation date and time), counts n (where n is an integer greater than or equal to 1) operations before and after each operation, and creates the operation. Create a co-occurrence matrix for each. Note that each row of the operation log storage unit 121 corresponds to an operation.
  • Each component of the similarity matrix is the degree of similarity between operations. Similarity is a continuous value from 0 to 1. In the embodiment, by considering the degree of similarity, operations can be performed more appropriately by considering the degree of similarity, compared to the case where the relationship between operations is expressed as a binary value (1 (identical) or 0 (non-identical)). Classification can be performed.
  • the co-occurrence matrix C is expressed as in equation (1).
  • c ij is the co-occurrence frequency of operation i and operation j.
  • the creation unit 133 can create a co-occurrence matrix using the method described in Non-Patent Document 4.
  • the similarity matrix S is expressed as in equation (2).
  • s ij is the similarity between operation i and operation j.
  • the operation vector of operation a is [0.4, 1.6, 2, 0.7].
  • the creation unit 133 may use a dimension reduction method such as SVD (Single Value Decomposition) to reduce the dimension of each operation vector. For example, the creation unit 133 compresses a 1000-dimensional operation vector into 50 dimensions using SVD.
  • SVD Single Value Decomposition
  • the classification unit 134 classifies operations on the terminal device 20 into classes using information representing co-occurrence frequency and information representing similarity. For example, the classification unit 134 uses the co-occurrence matrix and the similarity matrix to classify operations on the terminal device 20 into classes.
  • the classification unit 134 arranges the operations in chronological order.
  • the sequence obtained here is called the operation sequence.
  • each operation in the operation series is identified by a number (for example, operation 1, operation i, operation n).
  • the classification unit 134 sets operation i, which is the i-th operation in the operation series, as the target operation for division determination (division point), and divides the m operation series up to operation i (operation (im), operation (i- m+1), . . . , operation i) and a sequence of m operations after operation i (operation (i+1), operation (i+2), . . . , operation (i+m+1)) are acquired.
  • the classification unit 134 obtains the operation vectors of each operation included in the operation series A, and calculates the centroid vector of the obtained operation vectors.
  • FIG. 6 is a diagram showing an example of an operation sequence. In the example of FIG. 6, it is assumed that a dividing point is determined between the operation series bdefg (operation series A) and the operation series opqrs (operation series B).
  • the classification unit 134 calculates the center of gravity of the operation sequence B (center of gravity vector B) as shown in equation (5).
  • the classification unit 134 calculates the similarity between the calculated centroid vectors as shown in equation (6), and stores the calculated similarity in the similarity storage unit 122.
  • is the number of dimensions of the centroid vector.
  • the classification unit 134 calculates the degree of similarity between the centroid vectors for each division point of the operation sequence.
  • the similarity may be a cosine similarity shown in equation (6), a Euclidean distance, or the like.
  • FIG. 7 is a diagram illustrating changes in similarity between centroids.
  • the lines in FIG. 7 represent changes in the degree of similarity between the centroid vectors for each division point.
  • the classification unit 134 divides the operation series at division points where the difference in similarity is greater than or equal to a threshold.
  • the arrows in FIG. 7 represent monotonous decrease and monotonous increase.
  • the classification unit 134 determines that if (similarity of start position of monotonous decrease - similarity of minimum point) + (similarity of end position of monotonous increase - similarity of minimum point) is equal to or greater than a threshold value, the point corresponds to the minimum point. Divide the operation sequence at the dividing point.
  • the classification unit 134 obtains an operation sequence abcdefg, an operation sequence opqrstuvwxyz, and an operation sequence hijklmn through the division.
  • the sequence of operations obtained by division in this way is called an operation set.
  • the classification unit 134 classifies the operation set into classes. First, the classification unit 134 performs classification in descending order of the types of operations involved.
  • FIGS. 8 and 9 are diagrams showing examples of classification results.
  • the operation set can be divided according to the number of types of operations included, as shown in FIG.
  • the classification unit 134 classifies the operation set abcdefgabcdefefg that includes the largest number of types of operations into class 1.
  • the operation set opqrssutxwxyz that includes the second largest number of types of operations has 0 operations in common with the classified operation set abcdefgabcdefefg, which is less than or equal to the threshold (for example, 5), so the classification unit 134 selects the operation Classify the set opqrssutxwxyz into a new class, class 2.
  • the operation set abcdefg has five operations in common with the classified operation set abcdefgabcdefefg, which is greater than or equal to the threshold, so the classification unit 134 classifies the operation set abcdefg into class 1.
  • FIG. 10 is a flowchart showing the flow of processing for collecting operation logs.
  • the classification device 10 acquires operation logs from the PC terminal until the user of the PC terminal (terminal device 20) stops processing or drops the PC terminal (step S101, No). (Step S102).
  • the classification device 10 ends the process of collecting operation logs.
  • FIG. 11 is a flowchart showing the flow of processing for creating a similarity matrix.
  • the classification device 10 assigns the inter-operation similarity to each component of the similarity matrix (Step S202) until the similarity is assigned to all the components of the similarity matrix (Step S201, No).
  • step S201 If the classification device 10 has finished assigning the similarity degrees to all the components of the similarity matrix (step S201, Yes), it ends the process of creating the similarity matrix.
  • the classification device 10 completes reflecting the co-occurrence matrix for all operations (step S301, Yes).
  • the classification device 10 ends the process of creating the co-occurrence matrix.
  • FIG. 13 is a flowchart showing the flow of processing for creating a similarity co-occurrence matrix.
  • the classification device 10 creates a similar co-occurrence matrix from the similarity matrix and the co-occurrence matrix (step S402) until all the components of the co-occurrence matrix are targeted (step S401, No).
  • the classification device 10 If the classification device 10 has targeted all the components of the co-occurrence matrix (Step S401, Yes), it generates an operation vector for each operation from the similar co-occurrence matrix (Step S403).
  • FIG. 14 is a flowchart showing the flow of processing for calculating the similarity of centroid vectors.
  • the classification device 10 targets operations in chronological order until all operations are targeted (step S501, No), and generates centroid vectors of the previous m operations including the target operation. (Step S502).
  • the classification device 10 generates centroid vectors of m operations from the operation following the target operation (step S503). Then, the similarity between the two centroid vectors is calculated and stored in the similarity storage unit 122 (step S504).
  • step S605, Yes If the calculated depth is greater than or equal to the threshold (step S605, Yes), the classification device 10 divides the target operation and the next operation (step S606). If the calculated depth is not equal to or greater than the threshold (step S605, No), the classification device 10 returns to step S601.
  • step S601 If the classification device 10 has targeted all operations (step S601, Yes), it ends the process of dividing the operation series.
  • Step S703 If there is a classified operation series (Step S703, Yes), the classification device 10 calculates the number of common operation types between the target operation series and the operation series in each class (Step S704).
  • the classification device 10 classifies the target operation sequence into a class that satisfies the conditions (step S706). ).
  • step S701 If the classification device 10 has targeted all the operation series (step S701, Yes), it ends the process of dividing the operation series.
  • the classification device 10 of the embodiment includes a collection section 131, a creation section 133, and a classification section 134.
  • the collection unit 131 collects operation logs of the terminal device 20.
  • the creation unit 133 creates information representing the frequency of co-occurrence between operations on the terminal device 20 based on the operation log.
  • the classification unit 134 classifies operations on the terminal device 20 into classes using information representing co-occurrence frequency and information representing similarity.
  • the creation unit 133 can create information representing the degree of similarity based on the items or operation positions included in the operation log.
  • the classification device 10 can classify tasks by considering the similarity between operations. As a result, it becomes possible to classify tasks in a manner closer to the actual state of work.
  • the creation unit 133 has a co-occurrence matrix that has the same number of rows and columns as the number of operations on the terminal device 20 and has the co-occurrence frequency between operations as an element, and a co-occurrence matrix that has the same number of rows and columns as the number of operations, Create a similarity matrix whose elements are similarities between operations.
  • the classification unit 134 classifies operations on the terminal device 20 into classes using the co-occurrence matrix and the similarity matrix. For example, the classification unit 134 classifies operations on the terminal device 20 into classes using a similarity co-occurrence matrix obtained by adding the product of the co-occurrence matrix and the similarity matrix to the co-occurrence matrix.
  • the classification unit 134 also obtains each row of the similar co-occurrence matrix as an operation vector, sets division points in the sequence of operations based on the operation log, and divides the centroids of the operation vectors of the plurality of operations before and after the division point in the sequence. A set of operations divided at dividing points is classified into classes based on changes in similarity.
  • Each component of the classification device 10 shown in FIG. 1 is functionally conceptual, and does not necessarily need to be physically configured as shown.
  • the specific form of distributing and integrating the functions of the classification device 10 is not limited to what is shown in the diagram, and all or part of them can be functionally or physically distributed in arbitrary units depending on various loads, usage conditions, etc. It can be configured by being distributed or integrated.
  • each process performed in the classification device 10 may be implemented in whole or in part by a CPU and a program that is analyzed and executed by the CPU. Moreover, each process performed in the classification device 10 may be realized as hardware using wired logic.
  • FIG. 17 is a diagram showing an example of a computer that executes a classification program.
  • Computer 1000 includes, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090.
  • Disk drive interface 1040 is connected to disk drive 1100.
  • Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120.
  • Video adapter 1060 is connected to display 1130, for example.
  • the setting data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
  • the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network
  • classification device 11 communication unit 12 storage unit 13 control unit 20 terminal device 121 operation log storage unit 122 similarity storage unit 131 collection unit 132 identification unit 133 creation unit 134 classification unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

実施形態の分類装置(10)は、端末装置(20)の操作ログを収集する。分類装置(10)は、操作ログを基に、端末装置(20)に対する操作間の共起頻度を表す情報を作成する。分類装置(10)は、共起頻度を表す情報と操作間の類似度を表す情報とを用いて、端末装置(20)に対する操作をクラスに分類する。

Description

分類装置、分類方法、及び分類プログラム
 本発明は、分類装置、分類方法、及び分類プログラムに関する。
 企業等で効果的な業務改善を実現するためには、対象となる業務を正確に把握することが重要である。業務を行う担当者は、日々、複数の業務を、PC、タブレット等の情報端末を用いて実施しており、情報端末を介して行われた業務は、複数の作業で構成されている。PCで行われる作業は、例えば、業務を遂行するために必要な一連の情報入力操作(テキストボックスへの入力、ボタンのクリック、等)を指す。
 実業務では、担当者やオーダの内容等様々な要因で操作手順が多様である。操作手順は、基本的にはマニュアルにより規定されているが、マニュアル作成当初から作業内容に変更があったり、担当者が独自の方法で作業を実施していたりするため、マニュアルと乖離が発生する場合がある。
 業務分析者は、業務改善策検討の前提として、どのような作業にどれくらいの時間やどのような手順(操作)で実施されているのかを把握する必要がある。例えば、RPA(Robotic Process Automation)を導入し、改善効果を高めるためには、業務で行われる作業の種別と量を把握し、作業量の多い作業種別からRPAを導入することで効率よく業務改善を実現することができる。
特開2020-95574号公報
横瀬、卜部、八木、土川、増田、大石、DX推進に貢献する業務可視化技術, NTT技術ジャーナル, vol. 32, no. 2, 2020年2月 卜部、八木、土川、増田、操作ログを入力とした業務プロセス可視化手法の検討、信学技報, vol. 118, no. 483, ICM2018-64, pp. 83-88, 2019年3月 卜部、小笠原、土川、八木、大石、業務マニュアルを利用した操作ログの業務分類手法の検討、信学技報、vol. 120, no. 259, ICM2020-22, pp. 23-28, 2020年11月 Y. Urabe, S. Yagi, K. Tsuchikawa, and H. Oishi, "Task Clustering Method Using User Interaction Logs to Plan RPA Introduction", In Business Process Management - 19th International Conference (BPM 2021), Aug. 2021
 しかしながら、従来の技術では、操作間の類似度を考慮して作業の分類を行うことが難しい場合がある。
 例えば、非特許文献4には、操作ログを操作種別ごとに分類した後、操作の共起性に着目し操作ログをセグメントに分割し、分割されたセグメントを凝集型クラスタリングを用いて作業の単位に分類する方法が記載されている。
 ここで、案件によってURL及びウィンドウスタイルが変わるシステムを考える。このとき、例えば「決定ボタンを押す」という操作は、URL及びウィンドウスタイルが変わったとしても同じ作業に分類されることが望ましい。
 一方で、非特許文献4の方法では、操作間の類似度が考慮されないため、URL及びウィンドウスタイルが変わった場合、「決定ボタンを押す」という操作が異なる作業に分類されることがある。
 上述した課題を解決し、目的を達成するために、本発明の分類装置は、情報処理装置の操作ログを収集する収集部と、前記操作ログを基に、前記情報処理装置に対する操作間の共起頻度を表す情報を作成する作成部と、前記共起頻度を表す情報と前記操作間の類似度を表す情報とを用いて、前記情報処理装置に対する操作をクラスに分類する分類部と、を有することを特徴とする。
 本発明によれば、操作間の類似度を考慮して作業の分類を行うことができる。
図1は、分類装置の構成の一例を示すブロック図である。 図2は、操作ログの一例を示す図である。 図3は、共起行列の一例を示す図である。 図4は、類似行列の一例を示す図である。 図5は、類似共起行列の作成方法を説明する図である。 図6は、操作系列の一例を示す図である。 図7は、重心間の類似度の変化を説明する図である。 図8は、分類結果の一例を示す図である。 図9は、分類結果の一例を示す図である。 図10は、操作ログを収集する処理の流れを示すフローチャートである。 図11は、類似行列を作成する処理の流れを示すフローチャートである。 図12は、共起行列を作成する処理の流れを示すフローチャートである。 図13は、類似共起行列を作成する処理の流れを示すフローチャートである。 図14は、重心ベクトルの類似度を算出する処理の流れを示すフローチャートである。 図15は、操作系列を分割する処理の流れを示すフローチャートである。 図16は、操作をクラスに分類する処理の流れを示すフローチャートである。 図17は、分類プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る分類装置、分類方法、及び分類プログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。
[分類装置の構成]
 図1は、分類装置の構成の一例を示すブロック図である。図1に示すように、分類装置10は、端末装置20とネットワークを介して接続されている。
 端末装置20は、ユーザによって使用される情報処理装置である。ユーザは、例えば、業務担当者である。業務担当者は、例えば、端末装置20上で、業務システム及び汎用的なアプリケーション等の、各種ソフトウェアを使用する。
 なお、端末装置20は、スマートフォン、デスクトップ型PC、ノート型PC、タブレット型PC等のクライアント装置を含む、任意のタイプの情報処理装置であってよい。
 また、図1の例では、分類装置10と端末装置20とを別々の装置としているが、端末装置20が分類装置10の一部又は全ての機能を有していてもよい。
 端末装置20は、ユーザの操作ログを取得する。例えば、端末装置20は、操作イベントが発生したタイミングで、操作日時、操作箇所、操作位置等を含む操作ログを取得する。端末装置20は、取得した操作ログを分類装置10に送信する。
 分類装置10は、通信部11、記憶部12及び制御部13を有する。
 通信部11は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)及びインターネット等の電気通信回線を介した外部の装置との通信を制御する。例えば、通信部11は、端末装置20から操作ログを受信する。
 記憶部12は、制御部13による各種処理に必要なデータ及びプログラムを格納し、操作ログ記憶部121及び類似度記憶部122を有する。例えば、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置等である。
 操作ログ記憶部121は、端末装置20から取得した操作ログを記憶する。
 図2は、操作ログの一例を示す図である。図2に示すように、操作ログ記憶部121に記憶される操作ログには、操作日時、操作を行ったユーザを識別する情報であるユーザ情報、操作対象のアプリケーションを識別する情報であるアプリケーション情報、操作対象のウィンドウに関する情報であるウィンドウ情報、操作箇所(ボタン、テキストボックス、セル等のオブジェクト)、操作が行われたときの画面のキャプチャ画像、及び操作位置(画面内での座標)が含まれる。
 分類装置10は、端末装置20から操作ログを受信し、受信した操作ログを、操作ログ記憶部121に格納する。なお、分類装置10が操作ログを受信するタイミングはどのようなタイミングであってもよい。例えば、分類装置10は、一定の時間間隔で操作ログを受信してもよいし、新たな操作ログが生じるたびに操作ログを受信してもよい。
 類似度記憶部122は、後述する重心ベクトル間の類似度を記憶する。重心ベクトル及び類似度については後述する。
 制御部13は、各種の処理手順等を規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。
 例えば、制御部13は、収集部131、特定部132、作成部133及び分類部134を有する。
 また、制御部13は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路である。
 収集部131は、端末装置20の操作ログを収集する。端末装置20は、情報処理装置の一例である。
 特定部132は、操作ログに対応する操作を特定する。例えば、特定部132は、操作ログ記憶部121から、図2に示す操作ログのテーブルを読み出し、操作内容というカラムを追加する。
 特定部132は、操作内容のカラムに、ウィンドウ情報及び操作箇所を組み合わせた情報を追加し、操作ログ記憶部121に格納する。
 例えば、特定部132は、操作内容のカラムに、「ウェブページ1+ボタンe」、「ウェブページ1+テキストボックスb」といった情報を追加する。
 さらに、特定部132は、操作内容が同じ操作については、同一の操作であると特定する。特定部132は、操作の種類を特定するということができる。
 具体例を挙げて説明すると、特定部12は、操作内容が「ウェブページ1+ボタンa」である操作が複数ある場合には、それらの操作を同一の操作であると特定する。
 作成部133は、操作ログを基に、端末装置20に対する操作間の共起頻度を表す情報、及び操作間の類似度を表す情報を作成する。
 例えば、作成部133は、端末装置20に対する操作の数と同数の行と列を持ち、操作間の共起頻度を要素とする共起行列、及び操作の数と同数の行と列を持ち、操作間の類似度を要素とする類似行列を作成する。
 図3は、共起行列の一例を示す図である。作成部133は、操作ログ記憶部121から操作を時系列順(操作日時が早い順)に読み込み、各操作の前後n(ただし、nは1以上の整数)個の操作をカウントして、操作ごとの共起行列を作成する。なお、操作ログ記憶部121の各行が操作に対応している。
 このとき、作成部133は、前後の操作が同一ウィンドウ内(ウェブページ、ファイルが共通)で発生する場合は、重みをつけてカウントしてもよい。例えば、作成部133は、異なるウェブページの操作は1個とカウントし、同じウェブページの操作は、0.5個とカウントする。
 図4は、類似行列の一例を示す図である。ここでは、a、b、c、d、eのそれぞれは、特定部132によって同一であることが特定された操作である。
 このため、例えば各操作(例えば操作a)に対応する操作ログは、操作ログ記憶部121に複数存在していてもよい。
 図4に示すように、類似行列は、各操作を行及び列に対応させた正方行列として表される。
 類似行列の各成分は操作間の類似度である。類似度は、0から1までの連続値である。実施形態ではこのような類似度を考慮することで、操作間の関係を二値(1(同一)又は0(非同一))で表す場合と比べ、類似度を考慮してより適切に操作の分類を行うことができる。
 なお、類似度が大きいほど操作が類似していることを意味し、2つの操作の類似度が1であれば、当該2つの操作は同一とみなされる。
 操作間の類似度は、事前に管理者等により与えられていてもよい。また、類似度は、操作ログ記憶部121の各項目の類似度を基に作成部133が算出してもよい。
 例えば、作成部133は、同じ値の項目が多いほどの類似度を大きくしてもよい。また、例えば、作成部133は、操作位置が近いほど類似度を大きくしてもよい。
 さらに、作成部133は、共起行列と類似行列から、類似共起行列を作成する。
 ここで、共起行列Cは(1)式のように表される。例えば、cijは、操作iと操作jの共起頻度である。なお、作成部133は、非特許文献4に記載の方法で共起行列を作成することができる。
Figure JPOXMLDOC01-appb-M000001
 また、類似行列Sは(2)式のように表される。例えば、sijは、操作iと操作jの類似度である。
Figure JPOXMLDOC01-appb-M000002
 この場合、nは操作の種類の数である。そして、作成部133は、(3)式により類似共起行列の成分を計算する。ただし、i、j、kは行列の成分を特定するためのインデックスである。
Figure JPOXMLDOC01-appb-M000003
 図5は、類似共起行列の作成方法を説明する図である。作成部133は、(3)式の方法を図3の共起行列及び図4の類似行列に適用し、図5のように操作aに対応する行の成分を計算する。
 図5の例では、操作aの操作ベクトルは、[0.4, 1.6, 2, 0.7]となる。
 このように、作成部133は、類似共起行列により各操作の操作ベクトルを作成する。
 操作ベクトルの長さは操作の種類数と等しいため、操作の種類数が多いほど計算コストが高くなる。このため、作成部133は、SVD(Single Value Decomposition)等の次元削減手法を利用し、各操作ベクトルの次元削減を行ってもよい。例えば、作成部133は、SVDにより、1000次元の操作ベクトルを50次元に圧縮する。
 分類部134は、共起頻度を表す情報と類似度を表す情報とを用いて、端末装置20に対する操作をクラスに分類する。例えば、分類部134は、共起行列と類似行列とを用いて、端末装置20に対する操作をクラスに分類する。
 また、分類部134は、共起行列に、共起行列と類似行列との積を加えた類似共起行列を用いて、端末装置20に対する操作をクラスに分類する。
 具体的には、分類部134は、類似共起行列の各行を操作ベクトルとして取得し、操作ログに基づく操作の系列に分割点を定め、系列における分割点の前後の複数の操作の操作ベクトルの重心間の類似度の変化を基に、分割点で分割した操作の集合をクラスに分類する。
 まず、分類部134は、操作を時系列順に並べる。ここで得られる系列を操作系列と呼ぶ。また、操作系列における各操作は番号によって識別される(例えば、操作1、操作i、操作n)。
 そして、分類部134は、操作系列のi番目の操作である操作iを分割判断対象操作(分割点)とし、操作iまでのm個の操作系列(操作(i-m), 操作(i-m+1),…,操作i)と、操作iより後のm個の操作系列(操作(i+1), 操作(i+2),…,操作(i+m+1))と、を取得する。
 操作iまでのm個の操作系列を操作系列Aとする。また、操作iより後のm個の操作系列を操作系列Bとする。
 分類部134は、操作系列Aに含まれる各操作の操作ベクトルを取得し、取得した操作ベクトルの重心ベクトルを計算する。
 図6は、操作系列の一例を示す図である。図6の例では、操作系列bdefg(操作系列A)と操作系列opqrs(操作系列B)の間に分割点が定められているものとする。
 このとき、分類部134は、操作系列Aの重心(重心ベクトルA)を(4)式のように計算する。
Figure JPOXMLDOC01-appb-M000004
 また、分類部134は、操作系列Bの重心(重心ベクトルB)を(5)式のように計算する。
Figure JPOXMLDOC01-appb-M000005
 ただし、mは操作ベクトルの数であり、(4)式及び(5)式の例ではm=5である。なお、分類部134は、重心ベクトルの代わりに和ベクトルを計算してもよい。
 さらに、分類部134は、計算した重心ベクトル間の類似度を(6)式のように計算し、計算した類似度を類似度記憶部122に格納する。ただし、|V|は重心ベクトルの次元数である。
Figure JPOXMLDOC01-appb-M000006
 同様に、分類部134は操作系列の各分割点について重心ベクトル間の類似度を計算する。なお、類似度は(6)式に示すコサイン類似度であってもよいし、ユークリッド距離等であってもよい。
 図7は、重心間の類似度の変化を説明する図である。図7の線は、分割点ごとの重心ベクトル間の類似度の変化を表している。
 分類部134は、類似度の差が閾値以上である分割点で、操作系列を分割する。図7の矢印は、単調減少と単調増加を表している。分類部134は、(単調減少の開始位置の類似度-極小点の類似度)+(単調増加の終了位置の類似度-極小点の類似度)が閾値以上であれば、当該極小点に相当する分割点で操作系列を分割する。
 図7の例では、分類部134は、分割により、操作系列abcdefg、操作系列opqrstuvwxyz、及び操作系列hijklmnを得る。このように、分割によって得られた操作系列を操作集合と呼ぶ。
 分類部134は、操作集合をクラスに分類する。まず、分類部134は、含まれる操作の種類が多い順に分類を行う。
 図8及び図9は、分類結果の一例を示す図である。図8の例では、図9に示すように、操作集合は、含まれる操作の種類数ごとに分けることができる。
 まず、分類部134は、含まれる操作の種類が最も多い操作集合abcdefgabcdefefgをクラス1に分類する。
 そして、含まれる操作の種類が2番目に多い操作集合opqrssutxwxyzは、分類済みの操作集合abcdefgabcdefefgと共通する操作の数が0であり、閾値(例えば5)以下であるため、分類部134は、操作集合opqrssutxwxyzを新しいクラスであるクラス2に分類する。
 また、操作集合abcdefgは、分類済みの操作集合abcdefgabcdefefgと共通する操作の数が5であり、閾値以上であるため、分類部134は、操作集合abcdefgをクラス1に分類する。
[分類装置の処理手順]
 フローチャートを用いて、分類装置10による各処理の流れを説明する。
 図10は、操作ログを収集する処理の流れを示すフローチャートである。図10に示すように、分類装置10は、PC端末(端末装置20)のユーザが、処理を停止するか、PC端末を落とすまでの間(ステップS101、No)、PC端末から操作ログを取得する(ステップS102)。
 また、分類装置10は、PC端末のユーザが、処理を停止するか、PC端末を落とした場合(ステップS101、Yes)、操作ログを収集する処理を終了する。
 図11は、類似行列を作成する処理の流れを示すフローチャートである。図11に示すように、分類装置10は、類似行列の全ての成分に類似度を代入するまで(ステップS201、No)、操作間類似度を類似行列の各成分に代入する(ステップS202)。
 分類装置10は、類似行列の全ての成分に類似度を代入し終わった場合(ステップS201、Yes)、類似行列を作成する処理を終了する。
 図12は、共起行列を作成する処理の流れを示すフローチャートである。図12に示すように、分類装置10は、全ての操作を対象とするまで(ステップS301、No)、時系列順に操作を対象とし、前後n個の操作をカウントし、共起行列に反映する(ステップS302)。
 分類装置10は、全ての操作を対象として共起行列の反映が完了した場合(ステップS301、Yes)、共起行列を作成する処理を終了する。
 図13は、類似共起行列を作成する処理の流れを示すフローチャートである。図13に示すように、分類装置10は、共起行列の全ての成分を対象とするまで(ステップS401、No)、類似行列と共起行列から類似共起行列を作成する(ステップS402)。
 分類装置10は、共起行列の全ての成分を対象とし終わった場合(ステップS401、Yes)、類似共起行列から各操作の操作ベクトルを生成する(ステップS403)。
 図14は、重心ベクトルの類似度を算出する処理の流れを示すフローチャートである。図14に示すように、分類装置10は、全ての操作を対象とするまで(ステップS501、No)、時系列順に操作を対象とし、対象操作を含む前m個の操作の、重心ベクトルを生成する(ステップS502)。
 続いて、分類装置10は、対象操作の次の操作からm個の操作の重心ベクトルを生成する(ステップS503)。そして、上記2つの重心ベクトルの類似度を算出し、類似度記憶部122に蓄積する(ステップS504)。
 分類装置10は、全ての操作を対象とし終わった場合(ステップS501、Yes)、重心ベクトルの類似度を算出する処理を終了する。
 図15は、操作系列を分割する処理の流れを示すフローチャートである。図15に示すように、分類装置10は、全ての操作を対象とするまで(ステップS601、No)、時系列に並べた重心ベクトル間の類似度の下がり始めを検知する(ステップS602)。
 ここで、分類装置10は、類似度の下がり始めから、次の下がり始め(=上がり終わり)及びその間の極小点を検知する(ステップS603)。
 分類装置10は、深さ(d)=類似度の下がり始めから極小点の差分+極小点と上がり終わりの差分を算出する(ステップS604)。
 算出した深さが閾値以上である場合(ステップS605、Yes)、分類装置10は、対象の操作と次の操作の間を分割する(ステップS606)。算出した深さが閾値以上でない場合(ステップS605、No)、分類装置10はステップS601に戻る。
 分類装置10は、全ての操作を対象とし終わった場合(ステップS601、Yes)、操作系列を分割する処理を終了する。
 図16は、操作をクラスに分類する処理の流れを示すフローチャートである。図16に示すように、分類装置10は、全ての操作系列を対象とするまで(ステップS701、No)、対象の操作系列を決定する(ステップS702)。
 ここで、分類済みの操作系列がなければ(ステップS703、No)、分類装置10は、対象の操作系列を新しいクラスに分類する(ステップS707)。
 分類済みの操作系列がある場合は(ステップS703、Yes)、分類装置10は、対象の操作系列と各クラス内の操作系列との共通操作種類数を算出する(ステップS704)。
 そして、分類装置10は、共通操作種類数が閾値以上、かつ、共通操作種類数が最も多いクラスがある場合(ステップS705、Yes)、対象の操作系列を条件を満たすクラスに分類する(ステップS706)。
 分類装置10は、共通操作種類数が閾値以上、かつ、共通操作種類数が最も多いクラスがない場合(ステップS705、No)、対象の操作系列を条件を新しいクラスに分類する(ステップS707)。
 分類装置10は、全ての操作系列を対象とし終わった場合(ステップS701、Yes)、操作系列を分割する処理を終了する。
[実施形態の効果]
 これまで説明してきたように、実施形態の分類装置10は、収集部131と、作成部133と、分類部134と、を有する。収集部131は、端末装置20の操作ログを収集する。作成部133は、操作ログを基に、端末装置20に対する操作間の共起頻度を表す情報を作成する。分類部134は、共起頻度を表す情報と類似度を表す情報とを用いて、端末装置20に対する操作をクラスに分類する。作成部133は、操作ログに含まれる項目又は操作位置を基に類似度を表す情報を作成することができる。
 このように、分類装置10は、操作間の類似度を考慮して作業の分類を行うことができる。その結果、より業務の実態に近い形で作業を分類することができるようになる。
 また、作成部133は、端末装置20に対する操作の数と同数の行と列を持ち、操作間の共起頻度を要素とする共起行列、及び操作の数と同数の行と列を持ち、操作間の類似度を要素とする類似行列を作成する。分類部134は、共起行列と類似行列とを用いて、端末装置20に対する操作をクラスに分類する。例えば、分類部134は、共起行列に、共起行列と類似行列との積を加えた類似共起行列を用いて、端末装置20に対する操作をクラスに分類する。
 これにより、操作間の共起頻度と類似度の両方を考慮した分類を行うことが可能になる。
 また、分類部134は、類似共起行列の各行を操作ベクトルとして取得し、操作ログに基づく操作の系列に分割点を定め、系列における分割点の前後の複数の操作の操作ベクトルの重心間の類似度の変化を基に、分割点で分割した操作の集合をクラスに分類する。
 これにより、操作間の類似度を操作系列の分割にも反映させることができる。
[実施形態のシステム構成について]
 図1に示した分類装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、分類装置10の機能の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。
 また、分類装置10において行われる各処理は、全部又は任意の一部が、CPU及びCPUにより解析実行されるプログラムにて実現されてもよい。また、分類装置10において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図17は、分類プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、分類装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、分類装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等はすべて本発明の範疇に含まれる。
 10 分類装置
 11 通信部
 12 記憶部
 13 制御部
 20 端末装置
 121 操作ログ記憶部
 122 類似度記憶部
 131 収集部
 132 特定部
 133 作成部
 134 分類部

Claims (7)

  1.  情報処理装置の操作ログを収集する収集部と、
     前記操作ログを基に、前記情報処理装置に対する操作間の共起頻度を表す情報を作成する作成部と、
     前記共起頻度を表す情報と前記操作間の類似度を表す情報とを用いて、前記情報処理装置に対する操作をクラスに分類する分類部と、
     を有することを特徴とする分類装置。
  2.  前記作成部は、前記情報処理装置に対する操作の数と同数の行と列を持ち、前記操作間の共起頻度を成分とする共起行列、及び前記操作の数と同数の行と列を持ち、前記操作間の類似度を成分とする類似行列を作成し、
     前記分類部は、前記共起行列と前記類似行列とを用いて、前記情報処理装置に対する操作をクラスに分類することを特徴とする請求項1に記載の分類装置。
  3.  前記分類部は、前記共起行列に、前記共起行列と前記類似行列との積を加えた類似共起行列を用いて、前記情報処理装置に対する操作をクラスに分類することを特徴とする請求項2に記載の分類装置。
  4.  前記分類部は、前記類似共起行列の各行を操作ベクトルとして取得し、前記操作ログに基づく操作の系列に分割点を定め、前記系列における前記分割点の前後の複数の操作の前記操作ベクトルの重心間の類似度の変化を基に、前記分割点で分割した操作の集合をクラスに分類することを特徴とする請求項3に記載の分類装置。
  5.  前記作成部は、前記操作ログに含まれる項目又は操作位置を基に前記類似度を表す情報を作成することを特徴とする請求項1に記載の分類装置。
  6.  分類装置によって実行される分類方法であって、
     情報処理装置の操作ログを収集する収集工程と、
     前記操作ログを基に、前記情報処理装置に対する操作間の共起頻度を表す情報を作成する作成工程と、
     前記共起頻度を表す情報と前記操作間の類似度を表す情報とを用いて、前記情報処理装置に対する操作をクラスに分類する分類工程と、
     を含むことを特徴とする分類方法。
  7.  情報処理装置の操作ログを収集する収集ステップと、
     前記操作ログを基に、前記情報処理装置に対する操作間の共起頻度を表す情報を作成する作成ステップと、
     前記共起頻度を表す情報と前記操作間の類似度を表す情報とを用いて、前記情報処理装置に対する操作をクラスに分類する分類ステップと、
     をコンピュータに実行させることを特徴とする分類プログラム。
PCT/JP2022/023547 2022-06-10 2022-06-10 分類装置、分類方法、及び分類プログラム WO2023238412A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023547 WO2023238412A1 (ja) 2022-06-10 2022-06-10 分類装置、分類方法、及び分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/023547 WO2023238412A1 (ja) 2022-06-10 2022-06-10 分類装置、分類方法、及び分類プログラム

Publications (1)

Publication Number Publication Date
WO2023238412A1 true WO2023238412A1 (ja) 2023-12-14

Family

ID=89117852

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023547 WO2023238412A1 (ja) 2022-06-10 2022-06-10 分類装置、分類方法、及び分類プログラム

Country Status (1)

Country Link
WO (1) WO2023238412A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体
JP2015106340A (ja) * 2013-12-02 2015-06-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017045080A (ja) * 2015-08-24 2017-03-02 株式会社日立製作所 業務フロー仕様再生方法
WO2020204144A1 (ja) * 2019-04-02 2020-10-08 株式会社サザンウィッシュ 業務分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031931A (ja) * 2007-07-25 2009-02-12 Univ Waseda 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体
JP2015106340A (ja) * 2013-12-02 2015-06-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017045080A (ja) * 2015-08-24 2017-03-02 株式会社日立製作所 業務フロー仕様再生方法
WO2020204144A1 (ja) * 2019-04-02 2020-10-08 株式会社サザンウィッシュ 業務分析方法

Similar Documents

Publication Publication Date Title
US11068510B2 (en) Method and system for implementing efficient classification and exploration of data
Chi et al. Splitting methods for convex clustering
US10656979B2 (en) Structural and temporal semantics heterogeneous information network (HIN) for process trace clustering
Maugis et al. Variable selection for clustering with Gaussian mixture models
US20170192872A1 (en) Interactive detection of system anomalies
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
Guo et al. Machine learning predictions for underestimation of job runtime on HPC system
US20180052933A1 (en) Control of Document Similarity Determinations by Respective Nodes of a Plurality of Computing Devices
US11068328B1 (en) Controlling operation of microservices utilizing association rules determined from microservices runtime call pattern data
Attar et al. Classification of complex networks based on similarity of topological network features
Petri et al. Networks and cycles: a persistent homology approach to complex networks
Ren et al. Projection-based outlier detection in functional data
Antão et al. Kolmogorov complexity as a data similarity metric: application in mitochondrial DNA
Solaimani et al. Real-time anomaly detection over VMware performance data using storm
CN111316191A (zh) 用于多级模式发现和视觉分析推荐的预测引擎
WO2023238412A1 (ja) 分類装置、分類方法、及び分類プログラム
WO2023238414A1 (ja) 分類装置、分類方法、及び分類プログラム
WO2023238413A1 (ja) 分類装置、分類方法、及び分類プログラム
US20200302022A1 (en) Process extraction apparatus and non-transitory computer readable medium
JP6213665B2 (ja) 情報処理装置、及び、クラスタリング方法
JP7491459B2 (ja) 分類装置、分類方法、および、分類プログラム
Beavers et al. Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure
Gandhi et al. Analysis and implementation of modified K-medoids algorithm to increase scalability and efficiency for large dataset
Ghuli et al. A comprehensive survey on centroid selection strategies for distributed K-means clustering algorithm
US20220366272A1 (en) Learning device, prediction device, learning method, prediction method, learning program, and prediction program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22945910

Country of ref document: EP

Kind code of ref document: A1