WO2024047819A1 - 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム - Google Patents

抽出装置、情報抽出装置、抽出方法、および、抽出プログラム Download PDF

Info

Publication number
WO2024047819A1
WO2024047819A1 PCT/JP2022/032869 JP2022032869W WO2024047819A1 WO 2024047819 A1 WO2024047819 A1 WO 2024047819A1 JP 2022032869 W JP2022032869 W JP 2022032869W WO 2024047819 A1 WO2024047819 A1 WO 2024047819A1
Authority
WO
WIPO (PCT)
Prior art keywords
folder
name
file
charge
person
Prior art date
Application number
PCT/JP2022/032869
Other languages
English (en)
French (fr)
Inventor
和哉 松尾
肇 能登
篤 深山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/032869 priority Critical patent/WO2024047819A1/ja
Publication of WO2024047819A1 publication Critical patent/WO2024047819A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • the present invention relates to an extraction device, an information extraction device, an extraction method, and an extraction program regarding the identification name of a task that a person in charge is in charge of.
  • productivity can be improved if a human DT can perform tasks on behalf of the person in question.
  • Example 1 A human DT responds to questions from superiors/subordinates on behalf of the individual.
  • Example 2 A human DT gathers information by discussing with other people on behalf of the person himself/herself.
  • the information required to represent a PT varies depending on the work the PT performs, so it is important to extract information that can identify the work itself. Additionally, the information necessary to act on behalf of the PT may be known only to the PT. Therefore, it is necessary to extract information from data that can only be obtained from the PT (for example, materials created by the PT, materials obtained by the PT, statements made by the PT, statements obtained by the PT, etc.).
  • a natural language processing model is used by machine learning of labeled words (e.g., the name of a person given the label "Person", the name of a company given the label “Company”, etc.). It is also possible to construct a model and use the constructed model to estimate specific words in the input text. Furthermore, a technique has been proposed for extracting a person's name or project name from a folder name or file name (see Non-Patent Document 1).
  • an object of the present invention is to solve the above-mentioned problems and reduce the effort required to extract information for identifying the work that a PT (person in charge) is responsible for.
  • the present invention provides an acquisition section that acquires a folder path indicating the structure of a folder that stores files used by a person in charge for work, and a text acquisition section that acquires text from files stored in the folder.
  • the acquisition unit determines that the text acquired from the file has a folder name of a folder that stores the file or a folder name of an ancestor folder of the folder, based on the configuration of the folder indicated by the acquisition unit and the folder path;
  • the present invention is characterized by comprising a task identification name extracting unit that extracts the folder name as an identification name of a task that the person in charge is in charge of and outputs the extracted name.
  • FIG. 1 is a diagram for explaining the outline of an extraction device.
  • FIG. 2 is a diagram showing an example of the configuration of the extraction device.
  • FIG. 3 is a diagram for explaining the functions of the control section shown in FIG. 2.
  • FIG. 4 is a diagram for explaining an example of processing executed by the business identification name extraction unit shown in FIG. 2.
  • FIG. 5 is a diagram for explaining an example of processing executed by the business identification name extraction unit shown in FIG. 2.
  • FIG. 6 is a diagram for explaining an example of processing executed by the person-in-charge identification unit shown in FIG. 2.
  • FIG. 7 is a diagram for explaining an example of processing executed by the person-in-charge identification unit shown in FIG. 2.
  • FIG. 8 is a flowchart illustrating an example of a processing procedure executed by the extraction device.
  • FIG. 8 is a flowchart illustrating an example of a processing procedure executed by the extraction device.
  • FIG. 9 is a diagram showing a configuration example of an identification device.
  • FIG. 10 is a diagram for explaining graphing of the identification name of a business and the identification name of the person in charge of the business.
  • FIG. 11 is a diagram for explaining graphing of the identification name of a business and the identification name of the person in charge of the business.
  • FIG. 12 is a diagram for explaining graphing of the identification name of a business and the identification name of the person in charge of the business.
  • FIG. 13 is a diagram illustrating an example of graphing the identification name of a business and the identification name of the person in charge of the business.
  • FIG. 14 is a diagram illustrating an example of graphing the identification name of a business and the identification name of the person in charge of the business.
  • FIG. 15 is a diagram showing a configuration example of an information extraction device.
  • FIG. 16 is a diagram showing a computer that executes the extraction program.
  • the extraction device of this embodiment acquires the folder path (for example, folder path 101) of the folder that the PT uses for business, and identifies the business that the PT is responsible for from the folder name and file name indicated in the folder path. Extract the name.
  • folder path 101 for example, folder path 101
  • the extraction device first extracts the folder name/file name shown in the folder path 101 as a candidate for the identification name of the work that the PT (for example, A) is in charge of ((1)).
  • the extracted business identification name candidates may contain noise (for example, "reference”, “past material”, “temp”, “image”, etc.). Therefore, the extraction device extracts only the business identification name of the PT (for example, A) by analyzing the text properties of each file indicated in the folder path 101, and removes noise ((2)).
  • noise for example, "reference”, "past material”, “temp”, “image”, etc.
  • the extraction device extracts the folder name as the business identification name, but the extraction device extracts the folder name as the business identification name. If the folder name is not included, the folder name is not extracted as the business identification name. For example, if the creator or last updater of the file indicated in the file property information is PT (for example, A), the extraction device extracts the identification name of the business indicated by the file, but PT ( For example, if it is a person other than A), the identification name of the business indicated by the file will not be extracted.
  • PT for example, A
  • the extraction device performing the above processing, for example, among the business identification name candidates extracted in (1), "past materials" that are not business names and people other than PT (A) (PT (B))
  • the ⁇ Human DT Dialogue Protocol'' which is in charge of ⁇ Human DT Dialogue Protocol'', is not subject to extraction.
  • the extraction device extracts, for example, the identification name of the business that PT (A) is in charge of (for example, DTC, A-Me, A-Me platform, etc.) from the folder name and file name shown in the folder path 101. be able to.
  • the extraction device 10 includes, for example, an input/output section 11, a storage section 12, and a control section 13.
  • the input/output unit 11 is an interface that controls input/output of various data.
  • the input/output unit 11 accepts input of a folder path indicating the configuration of a folder in which files used by a person in charge for business are stored. Further, the input/output unit 11 outputs, for example, a list of combinations of the identification name of the business extracted by the control unit 13 and the name of the person in charge of the business.
  • the storage unit 12 stores data, programs, etc. that are referenced when the control unit 13 executes various processes.
  • the storage unit 12 is realized by a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the control unit 13 controls the entire extraction device 10.
  • the control unit 13 realizes the functions of each unit illustrated in FIG. 2 by, for example, a CPU (Central Processing Unit) executing a program stored in the storage unit 12.
  • a CPU Central Processing Unit
  • the control unit 13 includes a folder path acquisition unit 131, a folder name/file name acquisition unit 132, a file acquisition unit 133, a text acquisition unit 134, a property acquisition unit 135, a business identification name extraction unit 136, and a person in charge. and an identification section 137.
  • a folder path acquisition unit 131 a folder name/file name acquisition unit 132, a file acquisition unit 133, a text acquisition unit 134, a property acquisition unit 135, a business identification name extraction unit 136, and a person in charge. and an identification section 137.
  • the folder path acquisition unit 131 acquires the above folder path.
  • the folder name/file name acquisition unit 132 acquires a folder name and a file name from the folder path acquired by the folder path acquisition unit 131.
  • the file acquisition unit 133 acquires files stored in each folder based on the folder path acquired by the folder path acquisition unit 131.
  • the text acquisition unit 134 acquires text from the file acquired by the file acquisition unit 133.
  • the property acquisition unit 135 acquires property information of the file acquired by the file acquisition unit 133 (for example, file creator, file updater, creation date and time, update time, number of revisions, etc.).
  • the business identification name extraction unit 136 extracts the business identification name from the folder name and file name acquired by the folder name/file name acquisition unit 132 and outputs it.
  • the business identification name extraction unit 136 extracts the file name acquired by the folder name/file name acquisition unit 132 as the business identification name. Further, the business identification name extraction unit 136 extracts the business identification name from the folder name acquired by the folder name/file name acquisition unit 132 in the following manner.
  • the business identification name extraction unit 136 analyzes the text of the file acquired by the text acquisition unit 134, and determines whether the text of the file includes the folder name of the folder that stores the file. Here, if the business identification name extraction unit 136 determines that the text of the file includes the folder name of the folder in which the file is stored, the folder name is extracted as the business identification name.
  • the business identification name extraction unit 136 adds the folder name (DTC, A-Me, A-Me Platform) of the folder storing the file to the text in the file "Infrastructure Introduction.pptx" shown in FIG. Determine whether it exists or not.
  • the folder that stores the file includes the folder that stores the file and its ancestor folders (DTC, A-Me).
  • the file text contains the folder name (DTC, A-Me, A-Me platform) of the folder that stores the file, enter the folder name (DTC, A-Me, A-Me platform) It is determined to be the identification name of and extracted.
  • the folder name is converted into a word-by-word n-gram, for example, as shown in FIG. It is possible to divide the text and check the presence or absence of the word in the text in descending order of n, and if the word is present, the folder name may be determined to be the business identification name and extracted.
  • the business identification name extraction unit 136 determines that the folder name "Stored data automatic construction" is the business identification name, and extracts it.
  • the person in charge identification unit 137 identifies the person in charge of the business based on the property information of the file that the business identification name extraction unit 136 uses as the basis for extracting the business identification name.
  • the person in charge identification unit 137 identifies the person in charge of the task based on the file creator or last updater indicated in the property information of the file. Then, the person in charge identification unit 137 outputs the identification result of the person in charge of the task. For example, the person in charge identification unit 137 extracts the file creator or the last updater indicated in the property information of the file as the identification name of the person in charge of the task indicated by the file, and the information associated with the identification name of the task. Output.
  • the creator and last updater of the file shown in the property information (file properties) of the file "Basic Introduction.pptx" shown in FIG. 6 are "User". Therefore, the person in charge identification unit 137 identifies the person in charge of the tasks "DTC", “A-Me", and “A-Me Platform” indicated by the file as “User”. Then, the person in charge identification unit 137 outputs the above identification result. For example, the person in charge identification unit 137 outputs information that associates the business identification names "DTC", “A-Me", and "A-Me Platform” with the business identification name "User”. .
  • the person in charge identification unit 137 may determine when the person in charge was in charge of the task based on the creation date and update date of the file included in the file property information.
  • the update date of the file shown in the file properties shown in FIG. 6 is "2022-06-03". Therefore, the person in charge identification unit 137 determines that “DTC,” “A-Me,” and “A-Me infrastructure” are the tasks that “User” is currently in charge of (in fiscal year 2022). The person in charge identification unit 137 then identifies the business identification names “DTC,” “A-Me,” and “A-Me Platform,” the identification name “User” of the person in charge of the business, and the person in charge of the business. Outputs information that correlates with the period when the person was in charge (“Now (FY2022)”).
  • the file creator and last updated person are “Taro Tanaka", and the file creation date is "2021-05-30”.
  • the updated date is "2021-12-17”. Therefore, the person in charge identification unit 137 determines that the "human DT dialogue protocol” is a task that "Taro Tanaka (a person other than himself)" was in charge of "in the past (2021)”.
  • the person in charge identification unit 137 identifies the identification name of the task “Human DT Dialogue Protocol,” the identification name of the person in charge of the task “Taro Tanaka,” and the period when the person in charge of the task was in charge of the task “A long time ago (2021 Outputs information that associates the year) with the year).
  • the folder path acquisition unit 131 of the extraction device 10 acquires a folder path via the input/output unit 11 (S1).
  • the folder name/file name acquisition unit 132 acquires the folder name of each folder and the file name stored in each folder from the folder path acquired in S1 (S2).
  • the file acquisition unit 133 acquires files stored in each folder based on the folder path acquired in S1 (S3). Then, the text acquisition unit 134 acquires the text included in the file acquired in S3 (S4). Further, the property acquisition unit 135 acquires property information of the file acquired in S3 (S5).
  • the business identification name extraction unit 136 extracts the business identification name based on the folder name and file name acquired in S2 and the text of the file acquired in S4 (S6). Thereafter, the person in charge identification unit 137 extracts the identification name of the person in charge of the business extracted in S6 based on the property information of the file acquired in S5 (S7: identification of person in charge). Then, the person in charge identification unit 137 outputs a list of combinations of the identification name of the task extracted in S6 and the identification name of the person in charge of the task extracted in S7 (S8).
  • the extraction device 10 executes the above process, it is possible to output a list showing combinations of the identification name of the task that the person in charge is in charge of and the identification name of the person in charge of the task. Then, by using the above list, the identification device can identify the work of each person in charge included in the input data for each person in charge and for each job. Thereby, the identification device can extract information on the specified work of the specified person in charge (for example, PT (A)) from the input data.
  • PT (A) the specified work of the specified person in charge
  • the person in charge identification unit 137 extracts a person's name by performing named entity extraction on the file name or text included in the file. Then, the person in charge identifying unit 137 sets the extracted person name as the person in charge or related person of the business extracted from the file name and the business extracted based on the text of the file with the file name.
  • the person in charge identification unit 137 may identify the person in charge of the business from the file in the following manner. For example, for the text extracted from a file, the creator of the file prepares a dataset that assigns "1" if the file was created by him/herself, and "0" if the file was created by someone other than himself. do. Then, a natural language processing model (for example, BERT, etc.) is fine-tuned using the data set as training data. Then, the person in charge identification unit 137 inputs the text extracted from the file into the fine-tuned natural language processing model, and estimates the creator (person in charge) of the file. Then, the person in charge identification unit 137 sets the estimated person in charge as the person in charge of the task extracted based on the file.
  • a natural language processing model for example, BERT, etc.
  • the person in charge identification unit 137 can identify the person in charge of the task even if the property information of the file does not include information on the creator or updater of the file.
  • the extraction device 10 is configured to both extract the identification name of a business and identify the person in charge of the business, the extraction device 10 is not limited to this. For example, if it is known that the folder path received by the extraction device 10 is a folder path of a file handled only by a certain person in charge, only the identification name of the task is extracted and the identification name of the person in charge of the task is extracted. It is also possible not to do so.
  • the extraction device 10 described above if the person in charge is not identified, or if learning data is not required for person identification, the identification name of the business can be extracted without learning data. As a result, even identification names of operations in relatively minor industries can be extracted without preparing learning data. Furthermore, the present invention is applicable not only to business but also to any scene that uses folders or files.
  • the extraction device 10 extracts business identification names using not only folder names and file names, but also analysis results of text within files. etc.), it can be automatically removed.
  • the extraction device 10 analyzes the property information of the file, it is possible to identify who is in charge of the job with the extracted job identification name (job name). Thereby, for example, even if files of other persons in charge are mixed in the file group indicated by the folder path, the extraction device 10 can identify this.
  • the identification device 100 includes, for example, an input/output section 110, a storage section 120, and a control section 130.
  • the input/output unit 110 is an interface that controls input/output of various data.
  • the input/output unit 110 accepts input of a list of business identification names. Further, for example, the input/output unit 110 outputs the task identification result by the control unit 130.
  • the storage unit 120 is realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk, and stores data, programs, etc. that are referred to when the control unit 130 executes various processes. .
  • the storage unit 120 stores a list of business identification names received by the input/output unit 110.
  • the control unit 130 controls the entire identification device 100.
  • the control unit 130 realizes the function of the identification unit 138 illustrated in FIG. 9 by, for example, a CPU executing a program stored in the storage unit 120.
  • the identification unit 138 identifies the task of the person in charge included in the input data based on the list of task identification names, and outputs the task identification result.
  • the identification device 100 identifies the task and the person in charge of the task using the list of combinations of the identification name of the task and the identification name of the person in charge of the task, which is output from the extraction device 10. It's okay.
  • the identification device 100 may create a graph showing the identification name of the task and the identification name of the person in charge of the task, using the above list and the folder structure of the files used by each person in charge. . An embodiment in this case will be described using FIGS. 10 to 12.
  • the identification device 100 constructs a graph in which each folder and each file name is used as a node, and parent-child relationships in the folder structure are indicated by edges. .
  • the identification device 100 adds the node of the person in charge to the graph constructed in FIG. Then, the identification device 100 adds an edge to the node of the identification name of the business that the person in charge is in charge of.
  • the identification device 100 identifies the nodes of the people in charge as an edge called "work_with". Connect with.
  • the identification device 100 determines that, among the nodes in the graph constructed in FIG. Delete and re-establish edges between remaining nodes.
  • the identification device 100 performing the above processing, it is possible to create a graph expressing the relationship between tasks, the relationship between tasks and the person in charge, and the relationship between the persons in charge.
  • FIGS. 13 and 14 are graphs created from actual folders drawn using an application called Neo4j (https://neo4j.com/).
  • names business identification names that cannot fit in the nodes are omitted with ".".
  • the identification device 100 can also handle a case where, for example, a person in charge identifies a task using a combination of multiple folder names. For example, if a folder called “Notification of Reasons for Rejection” is stored in a folder called “Reference Number: 521061", as shown in FIG. A graph is created in which the business node "Reference number...(Reference number: 521061)" is connected. As a result, even tasks identified by a combination of multiple folder names, such as "Reference number: 521061” and "Notification of reasons for refusal," can be represented on the graph.
  • graphs created as described above may be integrated. For example, graphs created from each team member's work folder may be combined into one graph. This makes it possible to use the integrated graph to search for people involved in multiple jobs, such as jobs A, B, and C, for example.
  • the identification device 100 may use a list of business identification names to sort and organize text and materials input into a communication tool such as Slack (registered trademark) for each business.
  • a communication tool such as Slack (registered trademark) for each business.
  • the extraction device 10 extracts the identification name of the work that the person is in charge of from the work folder of the superior or subordinate and stores it in the database. Then, the identification device 100 may refer to the above-mentioned database and output information about the work that the person (supervisor/subordinate) is currently in charge of. This makes it easier to check the operation of superiors and manage the operation of departments.
  • the information extraction device 200 includes, for example, an input/output section 210, a storage section 220, and a control section 230.
  • the input/output unit 210 is an interface that controls input/output of various data.
  • the input/output unit 210 receives input of the identification name of the business and the name of the person in charge extracted by the extraction device 10. Further, for example, the input/output unit 210 outputs information regarding the business extracted by the control unit 230.
  • the storage unit 220 is realized by a semiconductor memory device such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk, and stores data, programs, etc. that are referred to when the control unit 230 executes various processes. .
  • the storage unit 220 stores the identification name and the name of the person in charge of the task received by the input/output unit 210.
  • the control unit 230 controls the entire information extraction device 200.
  • the control unit 230 realizes the function of the information extraction unit 231 illustrated in FIG. 15 by, for example, a CPU executing a program stored in the storage unit 220.
  • the information extraction unit 231 extracts information regarding the business from the input data based on the business identification name (business name) and the name of the person in charge stored in the storage unit 220. Then, the information extraction unit 231 outputs the extracted information regarding the business.
  • an information extraction device 200 based on the identification name of the task of the person in charge extracted by the extraction device 10, information regarding the task can be extracted from the input data.
  • the information extraction device 200 uses the list of combinations of the identification name of the task and the identification name of the person in charge of the task, which is output from the extraction device 10, to obtain information on the specified task of the specified person in charge. may be extracted from the input data.
  • each component of each part shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
  • the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads, usage conditions, etc. Can be integrated and configured.
  • all or any part of each processing function performed by each device can be realized by a CPU and a program executed by the CPU, or can be realized as hardware using wired logic.
  • the extraction device 10 described above can be implemented by installing a program (extraction program) in a desired computer as packaged software or online software. For example, by causing the information processing device to execute the above program, the information processing device can be made to function as the extraction device 10.
  • the information processing device referred to here includes mobile communication terminals such as smartphones, mobile phones, and PHSs (Personal Handyphone Systems), as well as terminals such as PDAs (Personal Digital Assistants).
  • FIG. 16 is a diagram showing an example of a computer that executes the extraction program.
  • Computer 1000 includes, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090.
  • Disk drive interface 1040 is connected to disk drive 1100.
  • Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process executed by the extraction device 10 described above is implemented as a program module 1093 in which code executable by a computer is written.
  • Program module 1093 is stored in hard disk drive 1090, for example.
  • a program module 1093 for executing processing similar to the functional configuration of the extraction device 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
  • the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

抽出装置は、担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する。そして、抽出装置は、フォルダパスに示されるファイル名を業務の識別名として抽出する。また、抽出装置は、フォルダパスに示される各フォルダに格納されるファイル内のテキストを解析し、当該テキストに当該ファイルを格納するフォルダのフォルダ名があればそのフォルダ名を業務の識別名として抽出する。さらに、抽出装置は、ファイルのプロパティ情報から、当該ファイルの示す業務の担当者の識別名を抽出する。そして、抽出装置は、抽出した業務の識別名と当該業務の担当者の識別名との組み合わせのリストを出力する。

Description

抽出装置、情報抽出装置、抽出方法、および、抽出プログラム
 本発明は、担当者が担当する業務の識別名に関する、抽出装置、情報抽出装置、抽出方法、および、抽出プログラムに関する。
 従来、世界とサイバー空間とを結びつけるデジタルツインが、ICT技術の進展により実現され、注目されている。このデジタルツインを人間に適用し、人間の外見・内面・記憶をデジタル上で再現したヒトデジタルツイン(ヒトDT)が近年注目されている。
 例えば、ヒトDTが、本人の業務の代理をできるようになれば生産性を向上できる。
例1:ヒトDTが本人の代わりに上司/部下からの質問に対応する。
例2:ヒトDTが本人の代わりに他の人と議論して情報収集する。
 ヒトDTに、本人の業務の代理をさせるためには、本人(フィジカルツイン:PT)の業務に関する記憶をデジタル上で再現することが必要である。
 PTの業務を代理をする上で必要な情報は、PTが行う業務によって異なるため、業務そのものを識別できる情報の抽出が重要である。また、PTを代理する上で必要な情報は、PTしか知りえない可能性がある。そのため、PTからしか取得できないデータ(例えば、PTが作成した資料、PTが取得した資料、PTの発言、PTが取得した発言等)から情報を抽出する必要がある。
 ここで、業務を識別できる情報を抽出するため、ラベル付きの単語(例:「Person」のラベルを付与した人名、「Company」のラベルを付与した企業名等)の機械学習により自然言語処理モデルを構築し、構築したモデルを用いて入力されたテキストの特定の単語を推定することも考えられる。また、フォルダ名やファイル名から、人名やプロジェクト名を抽出する技術も提案されている(非特許文献1参照)。
Markus Schroder, et al., A Human-in-the-Loop Approach for Personal Knowledge Graph Construction from File Names,[online],[2022年8月15日検索],インターネット<URL:https://openreview.net/pdf?id=HgbGN3MHLZc>
 しかし、業務の識別名は市中に学習データが存在しない場合が多い。そのため、上記の自然言語処理モデルを構築するためは、ラベルを付けた業務の識別名を学習データとして用意する必要がある。また、フォルダ名やファイル名から、人名やプロジェクト名を抽出する技術は、ノイズ(例えば、業務に関連のない単語)の除去や、特定の人物が担当する業務の情報のみの抽出には、人手での修正が繰り返し必要である。
 そこで、本発明は、前記した問題を解決し、PT(担当者)が担当する業務を識別するための情報を抽出する際の手間を軽減することを課題とする。
 前記した課題を解決するため、本発明は、担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する取得部と、前記フォルダに格納されるファイルからテキストを取得するテキスト取得部と、前記フォルダパスに示されるフォルダの構成に基づき、前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名または前記フォルダの先祖フォルダのフォルダ名があると判定した場合、前記フォルダ名を前記担当者が担当する業務の識別名として抽出し、出力する業務識別名抽出部とを備えることを特徴とする。
 本発明によれば、PT(担当者)が担当する業務を識別するための情報を抽出する際の手間を軽減することができる。
図1は、抽出装置の概要を説明するための図である。 図2は、抽出装置の構成例を示す図である。 図3は、図2に示す制御部の機能を説明するための図である。 図4は、図2に示す業務識別名抽出部が実行する処理の例を説明するための図である。 図5は、図2に示す業務識別名抽出部が実行する処理の例を説明するための図である。 図6は、図2に示す担当者識別部が実行する処理の例を説明するための図である。 図7は、図2に示す担当者識別部が実行する処理の例を説明するための図である。 図8は、抽出装置が実行する処理手順の例を示すフローチャートである。 図9は、識別装置の構成例を示す図である。 図10は、業務の識別名と当該業務の担当者の識別名のグラフ化を説明するための図である。 図11は、業務の識別名と当該業務の担当者の識別名のグラフ化を説明するための図である。 図12は、業務の識別名と当該業務の担当者の識別名のグラフ化を説明するための図である。 図13は、業務の識別名と当該業務の担当者の識別名のグラフ化の例を示す図である。 図14は、業務の識別名と当該業務の担当者の識別名のグラフ化の例を示す図である。 図15は、情報抽出装置の構成例を示す図である。 図16は、抽出プログラムを実行するコンピュータを示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
[概要]
 まず、図1を用いて、本実施形態の抽出装置の概要を説明する。一般的に、PTが業務のために作成したファイルのファイル名やフォルダ名には、そのPT特有の業務の識別名が含まれている可能性が高いと考えられる。そこで、本実施形態の抽出装置は、PTが業務で利用するフォルダのフォルダパス(例えば、フォルダパス101)を取得し、フォルダパスに示されるフォルダ名・ファイル名から、PTが担当する業務の識別名を抽出する。
 例えば、抽出装置は、まず、フォルダパス101に示されるフォルダ名・ファイル名を、PT(例えば、A)が担当する業務の識別名候補として抽出する((1))。
 ここで、抽出した業務の識別名候補には、ノイズ(例えば、「参考」「過去資料」「temp」「image」等)が含まれる可能性がある。そこで、抽出装置は、フォルダパス101に示される各ファイルのテキスト・プロパティを解析することにより、PT(例えば、A)の業務の識別名のみを抽出し、ノイズを除去する((2))。
 例えば、抽出装置は、図4に示すように、ファイル内のテキストに、当該ファイルの先祖フォルダ名が含まれていれば、当該フォルダ名を業務の識別名として抽出するが、当該ファイルの先祖フォルダ名が含まれていなければ、当該フォルダ名を業務の識別名として抽出しない。また、例えば、抽出装置は、ファイルのプロパティ情報に示されるファイルの作成者または最終更新者が、PT(例えば、A)であれば、当該ファイルの示す業務の識別名を抽出するが、PT(例えば、A)以外の人物であれば、当該ファイルの示す業務の識別名を抽出しない。
 抽出装置が上記の処理を行うことで、例えば、(1)で抽出した業務の識別名候補のうち、業務名ではない「過去資料」と、PT(A)以外の人物(PT(B))が担当する「ヒトDT対話プロトコル」は抽出の対象外となる。これにより抽出装置は、例えば、フォルダパス101に示されるフォルダ名・ファイル名から、PT(A)が担当する業務の識別名(例えば、DTC、A-Me、A-Me基盤等)を抽出することができる。
[構成例]
 次に、図2を用いて、抽出装置10の構成例を説明する。抽出装置10は、例えば、入出力部11、記憶部12、および、制御部13を備える。
 入出力部11は、各種データの入出力を司るインタフェースである。例えば、入出力部11は、担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスの入力を受け付ける。また、入出力部11は、例えば、制御部13により抽出された業務の識別名と当該業務の担当者名との組み合わせのリストを出力する。
 記憶部12は、制御部13が各種処理を実行する際に参照されるデータ、プログラム等を記憶する。記憶部12は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
 制御部13は、抽出装置10全体の制御を司る。制御部13は、例えば、CPU(Central Processing Unit)が、記憶部12に記憶されるプログラムを実行することにより、図2に例示する、各部の機能を実現する。
 制御部13は、フォルダパス取得部131と、フォルダ名・ファイル名取得部132と、ファイル取得部133と、テキスト取得部134と、プロパティ取得部135と、業務識別名抽出部136と、担当者識別部137とを備える。適宜、図3を参照しながら、上記の各部を説明する。
 フォルダパス取得部131は、上記のフォルダパスを取得する。フォルダ名・ファイル名取得部132は、フォルダパス取得部131により取得されたフォルダパスからフォルダ名とファイル名を取得する。
 ファイル取得部133は、フォルダパス取得部131により取得されたフォルダパスに基づき、各フォルダに格納されるファイルを取得する。
 テキスト取得部134は、ファイル取得部133により取得されたファイルからテキストを取得する。プロパティ取得部135は、ファイル取得部133により取得されたファイルのプロパティ情報(例えば、ファイル作成者、ファイル更新者、作成日時、更新時期、リビジョン数等)を取得する。
 業務識別名抽出部136は、フォルダ名・ファイル名取得部132により取得されたフォルダ名とファイル名から、業務の識別名を抽出し、出力する。
 例えば、業務識別名抽出部136は、フォルダ名・ファイル名取得部132により取得されたファイル名を業務の識別名として抽出する。また、業務識別名抽出部136は、フォルダ名・ファイル名取得部132により取得されたフォルダ名から、以下のようにして業務の識別名を抽出する。
 まず、業務識別名抽出部136は、テキスト取得部134により取得されたファイルのテキストを解析し、当該ファイルのテキストに、当該ファイルを格納するフォルダのフォルダ名が含まれるか否かを判定する。ここで、業務識別名抽出部136が当該ファイルのテキストに、当該ファイルを格納するフォルダのフォルダ名が含まれると判定した場合、当該フォルダ名を業務の識別名として抽出する。
 例えば、フォルダパス取得部131により取得されたフォルダパスが示すフォルダの構成が、図4に示す構成である場合を考える。この場合、業務識別名抽出部136は、図4に示す「基盤紹介.pptx」というファイル内のテキストに、当該ファイルを格納するフォルダのフォルダ名(DTC、A-Me、A-Me基盤)があるか否かを判定する。なお、ファイルを格納するフォルダは、当該ファイルを格納するフォルダとその先祖フォルダ(DTC、A-Me)を含むものとする。ここで、ファイルのテキスト内に当該ファイルを格納するフォルダのフォルダ名(DTC、A-Me、A-Me基盤)がある場合、当該フォルダ名(DTC、A-Me、A-Me基盤)を業務の識別名と判断し、抽出する。
 また、業務識別名抽出部136は、当該テキスト内に当該ファイルを格納するフォルダのフォルダ名がないと判定した場合、例えば、図5に示すように、当該フォルダ名を単語単位のn-gramに分割し、nが大きい順にテキスト内における当該単語の有無を確認し、当該単語があれば当該フォルダ名を業務の識別名と判断し、抽出してもよい。
 例えば、図5に示す例の場合、「PKG構築.pptx」というファイル内のテキストに「記憶データ自動構築」という単語そのものはないが、2-gramの「記憶データ」という単語はある。よって、業務識別名抽出部136は、「記憶データ自動構築」というフォルダ名を業務の識別名と判断し、抽出する。
 図2の説明に戻る。担当者識別部137は、業務識別名抽出部136が業務の識別名の抽出の根拠としたファイルのプロパティ情報に基づき、当該業務の担当者を識別する。
 例えば、担当者識別部137は、当該ファイルのプロパティ情報に示されるファイル作成者または最終更新者に基づき、当該業務の担当者を識別する。そして、担当者識別部137は、業務の担当者の識別結果を出力する。例えば、担当者識別部137は、当該ファイルのプロパティ情報に示されるファイル作成者または最終更新者を当該ファイルの示す業務の担当者の識別名として抽出し、当該業務の識別名と対応付けた情報を出力する。
 例えば、図6に示す「基盤紹介.pptx」というファイルのプロパティ情報(ファイルプロパティ)に示されるファイルの作成者、最終更新者は「User」である。よって、担当者識別部137は、当該ファイルの示す業務「DTC」、「A-Me」、「A-Me基盤」の担当者を「User」と識別する。そして、担当者識別部137は、上記の識別結果を出力する。例えば、担当者識別部137は、業務の識別名「DTC」、「A-Me」、「A-Me基盤」と、業務の担当者の識別名「User」とを対応付けた情報を出力する。
 なお、担当者識別部137は、ファイルのプロパティ情報に含まれるファイルの作成日、更新日に基づき、当該担当者が当該業務を担当していた時期を判断してもよい。
 例えば、図6に示すファイルプロパティに示されるファイルの更新日は「2022-06-03」である。よって、担当者識別部137は、「DTC」、「A-Me」、「A-Me基盤」を、「User(本人)」が「今(2022年度)」担当している業務と判断する。そして、担当者識別部137は、業務の識別名「DTC」、「A-Me」、「A-Me基盤」と、業務の担当者の識別名「User」と、当該担当者が当該業務を担当していた時期(「今(2022年度)」)とを対応付けた情報を出力する。
 また、例えば、図7に示す「ヒトDT対話プロトコル.pptx」というファイルのファイルプロパティにおけるファイルの作成者、最終更新者は「田中太郎」であり、ファイルの作成日は「2021-05-30」、更新日は「2021-12-17」である。よって、担当者識別部137は、「ヒトDT対話プロトコル」を、「田中太郎(本人以外の人物)」が「昔(2021年度)」担当していた業務と判断する。そして、担当者識別部137は、業務の識別名「ヒトDT対話プロトコル」と、業務の担当者の識別名「田中太郎」と、当該担当者が当該業務を担当していた時期「昔(2021年度)」)とを対応付けた情報を出力する。
[処理手順の例]
 次に、図8を用いて抽出装置10の処理手順の例を説明する。まず、抽出装置10のフォルダパス取得部131は、入出力部11経由でフォルダパスを取得する(S1)。次に、フォルダ名・ファイル名取得部132は、S1で取得されたフォルダパスから、各フォルダのフォルダ名と、各フォルダに格納されるファイル名とを取得する(S2)。
 また、ファイル取得部133は、S1で取得されたフォルダパスに基づき、各フォルダに格納されるファイルを取得する(S3)。そして、テキスト取得部134は、S3で取得されたファイルに含まれるテキストを取得する(S4)。また、プロパティ取得部135は、S3で取得されたファイルのプロパティ情報を取得する(S5)。
 また、業務識別名抽出部136は、S2で取得されたフォルダ名およびファイル名と、S4で取得されたファイルのテキストとに基づき、業務の識別名を抽出する(S6)。その後、担当者識別部137は、S5で取得されたファイルのプロパティ情報に基づき、S6で抽出された業務の担当者の識別名を抽出する(S7:担当者の識別)。そして、担当者識別部137は、S6で抽出された業務の識別名とS7で抽出された当該業務の担当者の識別名との組み合わせのリストを出力する(S8)。
 抽出装置10が上記の処理を実行することで、担当者が担当する業務の識別名と当該業務の担当者の識別名との組み合わせを示したリストを出力することができる。そして、識別装置は、上記のリストを用いることで、入力データに含まれる各担当者の業務を、担当者ごと、業務ごとに識別することができる。これにより、識別装置は、入力データから、指定された担当者(例えば、PT(A))の指定された業務の情報を抽出することができる。
[担当者識別部の変形例]
 なお、担当者識別部137は、ファイルのプロパティ情報に基づき業務の担当者を識別することとしたがこれに限定されない。
 例えば、担当者識別部137は、ファイル名またはファイルに含まれるテキストに対し、固有表現抽出を行うことで人名を抽出する。そして、担当者識別部137は、抽出した人名を、ファイル名から抽出された業務、および、当該ファイル名のファイルのテキストに基づき抽出した業務の担当者または関係者とする。
 また、担当者識別部137は、以下のようにしてファイルから業務の担当者を識別してもよい。例えば、ファイルから抽出したテキストに対し、当該ファイルの作成者が、自分が作成したファイルであれば「1」、自分以外の人物が作成したファイルであれば「0」を付与したデータセットを用意する。そして、当該データセットを教師データとして、自然言語処理モデル(例えば、BERT等)をファインチューニングしておく。そして、担当者識別部137は、上記のファインチューニングされた自然言語処理モデルに、ファイルから抽出したテキストを入力し、当該ファイルの作成者(担当者)を推定する。そして、担当者識別部137は、推定された担当者を、当該ファイルに基づき抽出した業務の担当者とする。
 このようにすることで、担当者識別部137は、ファイルのプロパティ情報にファイルの作成者や更新者の情報が含まれていない場合でも、業務の担当者を識別することができる。
 なお、抽出装置10は、業務の識別名の抽出と当該業務の担当者の識別の両方を行うこととしたが、これに限定されない。例えば、抽出装置10が受け付けたフォルダパスが、ある一人の担当者のみが扱うファイルのフォルダパスであることが分かっている場合、業務の識別名の抽出のみを行い、当該業務の担当者の識別は行わないこととしてもよい。
 以上説明した抽出装置10によれば、担当者識別を行わない場合、あるいは担当者識別に学習データが不要の場合、学習データなしで業務の識別名を抽出することができる。その結果、比較的マイナーな業種の業務の識別名であっても学習データの準備なしで抽出することができる。また、フォルダやファイルを用いるシーンであれば、業務に限らず適用可能である。
 また、抽出装置10は、フォルダ名、ファイル名だけでなく、ファイル内のテキストの解析結果を用いて、業務の識別名を抽出するので、フォルダ名、ファイル名にノイズ(業務名ではない文字列等)が含まれていても、これを自動で除去することができる。
 さらに、抽出装置10は、ファイルのプロパティ情報の解析を行うので、抽出した業務の識別名(業務名)の業務を誰が担当しているかを識別することができる。これにより、例えば、フォルダパスに示されるファイル群に、他の担当者のファイルが混在している場合でも、抽出装置10は、これを識別することができる。
[識別装置]
 次に、抽出装置10により抽出された業務の識別名のリストを用いて、入力データに含まれる担当者の業務を識別する識別装置100の構成例を説明する。識別装置100は、例えば、入出力部110、記憶部120、および、制御部130を備える。
 入出力部110は、各種データの入出力を司るインタフェースである。例えば、入出力部110は、業務の識別名のリストの入力を受け付ける。また、例えば、入出力部110は、制御部130による業務の識別結果を出力する。
 記憶部120は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、制御部130が各種処理を実行する際に参照されるデータ、プログラム等が記憶される。例えば、記憶部120は、入出力部110で受け付けた業務の識別名のリストを記憶する。
 制御部130は、識別装置100全体の制御を司る。制御部130は、例えば、CPUが、記憶部120に記憶されたプログラムを実行することにより、図9に例示する、識別部138の機能を実現する。
 識別部138は、上記の業務の識別名のリストに基づき、入力データに含まれる担当者の業務を識別し、業務の識別結果を出力する。
 なお、識別装置100は、抽出装置10から出力された、業務の識別名と当該業務の担当者の識別名との組み合わせのリストを用いて、業務の識別と当該業務の担当者の識別を行ってもよい。
 また、識別装置100は、上記のリストと、各担当者が利用するファイルのフォルダの構成とを用いて、業務の識別名と当該業務の担当者の識別名を示すグラフを作成してもよい。この場合の実施形態を図10~図12を用いて説明する。
 まず、識別装置100は、図10に示すように、入力された、フォルダの構成に基づき、各フォルダ、各ファイル名をノードとし、フォルダの構成上の親子関係をエッジで示したグラフを構築する。
 次に、識別装置100は、図11に示すように、図10で構築したグラフに担当者のノードを追加する。そして、識別装置100は、担当者が担当する業務の識別名のノードにエッジを追加する。なお、図11において、グラフに複数の担当者が登場する場合、その担当者同士は業務において連携していると推定されるので、識別装置100は、担当者のノード同士を「work_with」というエッジで接続する。
 次に、識別装置100は、図12に示すように、図11で構築したグラフのノードのうち、上記のリストに載っていないノードを業務の識別名のノードではないと判断し、当該ノードを削除し、残っているノード間にエッジを再設定する。
 識別装置100が上記の処理を行うことで、業務間の関係性、業務と担当者間の関係性、担当者間の関係性を表現したグラフを作成することができる。
 なお、図13、図14は、実際のフォルダから作成されたグラフをNeo4j(https://neo4j.com/)というアプリケーションを用いて描画したものである。図13、図14において、ノードに入りきらない名前(業務の識別名)は「…」で省略されている。
 なお、識別装置100が、上記のようなグラフを作成することで、例えば、担当者が複数のフォルダ名の組み合わせで業務を識別する場合にも対応可能である。例えば、「整理番号:521061」というフォルダの中に「拒絶理由通知」というフォルダが格納されている場合、図14に示すように、「拒絶理…(拒絶理由通知)」という業務のノードと、「整理番…(整理番号:521061)」という業務のノードとが接続されたグラフが作成される。これにより、「整理番号:521061」と「拒絶理由通知」等、複数のフォルダ名の組み合わせにより識別される業務についても、グラフ上に表現することができる。
 なお、上記のようにして作成された複数のグラフを統合してもよい。例えば、チームメンバーそれぞれの作業フォルダから作成されたグラフを1つのグラフに統合する。これにより、統合されたグラフを用いて、例えば、業務A,B,C等の複数の業務に関わった人物を検索することができる。
 また、識別装置100は、業務の識別名のリストを用いて、Slack(登録商標)等のコミュニケーションツールに入力されたテキストや資料を、業務ごとに振り分け、整理してもよい。
 また、抽出装置10は、上司または部下の作業フォルダから、当該人物が担当している業務の識別名を抽出し、データベースに蓄積しておく。そして、識別装置100は、上記のデータベースを参照し、当該人物(上司/部下)が、いま担当している業務の情報を出力してもよい。これにより、上司の稼働確認や、部課の稼働の管理等を行いやすくなる。
[情報抽出装置]
 次に、抽出装置10により抽出された業務の識別名と担当者の識別名(担当者名)を用いて、入力データから業務に関する情報を抽出する情報抽出装置200の構成例を説明する。情報抽出装置200は、例えば、入出力部210、記憶部220、および、制御部230を備える。
 入出力部210は、各種データの入出力を司るインタフェースである。例えば、入出力部210は、抽出装置10により抽出された業務の識別名と担当者名の入力を受け付ける。また、例えば、入出力部210は、制御部230により抽出された業務に関する情報を出力する。
 記憶部220は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、制御部230が各種処理を実行する際に参照されるデータ、プログラム等が記憶される。例えば、記憶部220は、入出力部210で受け付けた業務の識別名と担当者名を記憶する。
 制御部230は、情報抽出装置200全体の制御を司る。制御部230は、例えば、CPUが、記憶部220に記憶されたプログラムを実行することにより、図15に例示する、情報抽出部231の機能を実現する。
 情報抽出部231は、記憶部220に記憶された業務の識別名(業務名)と担当者名に基づき、入力データから、前記業務に関する情報を抽出する。そして、情報抽出部231は、抽出した前記業務に関する情報を出力する。
 このような情報抽出装置200によれば、抽出装置10により抽出された担当者の業務の識別名に基づき、入力データから、当該業務に関する情報を抽出することができる。
 また、情報抽出装置200は、抽出装置10から出力された、業務の識別名と当該業務の担当者の識別名との組み合わせのリストを用いて、指定された担当者の指定された業務の情報を入力データから抽出してもよい。
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した抽出装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム(抽出プログラム)を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を抽出装置10として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
 図16は、抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の抽出装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、抽出装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 抽出装置
 11,110,210 入出力部
 12,120,220 記憶部
 13,130,230 制御部
 100 識別装置
 131 フォルダパス取得部
 132 フォルダ名・ファイル名取得部
 133 ファイル取得部
 134 テキスト取得部
 135 プロパティ取得部
 136 業務識別名抽出部
 137 担当者識別部
 138 識別部
 200 情報抽出装置
 231 情報抽出部

Claims (8)

  1.  担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する取得部と、
     前記フォルダに格納されるファイルからテキストを取得するテキスト取得部と、
     前記フォルダパスに示されるフォルダの構成に基づき、前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名または前記フォルダの先祖フォルダのフォルダ名があると判定した場合、前記フォルダ名を前記担当者が担当する業務の識別名として抽出し、出力する業務識別名抽出部と
     を備えることを特徴とする抽出装置。
  2.  前記業務識別名抽出部は、さらに、
     前記ファイルのファイル名を、前記担当者が担当する業務の識別名として抽出し、出力する
     ことを特徴とする請求項1に記載の抽出装置。
  3.  前記抽出装置は、さらに、
     前記ファイルのプロパティ情報に含まれる前記ファイルの作成者に基づき、当該ファイルの示す業務の担当者を識別する担当者識別部を備える
     ことを特徴とする請求項1に記載の抽出装置。
  4.  前記担当者識別部は、
     前記ファイルのプロパティ情報に含まれる前記ファイルの作成者を当該ファイルの示す業務の担当者の識別名として抽出し、抽出した前記業務の担当者の識別名を、前記業務識別名抽出部により抽出された、当該業務の識別名と対応付けた情報を出力する
     ことを特徴とする請求項3に記載の抽出装置。
  5.  前記業務識別名抽出部は、
     前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名を構成する単語があると判定した場合、当該ファイルを格納するフォルダのフォルダ名を前記業務の識別名として抽出する
     ことを特徴とする請求項1に記載の抽出装置。
  6.  請求項1に記載の抽出装置によって抽出された業務の識別名と担当者名を記憶する記憶部と、
     前記記憶部に記憶されている前記業務の識別名と担当者名を用いて、入力データに含まれる情報から前記業務に関する情報を抽出する業務情報抽出部と、
     前記業務情報抽出部により抽出された業務の情報を出力する出力部と
     を備えることを特徴とする情報抽出装置。
  7.  抽出装置により実行される抽出方法であって、
     担当者が業務で利用するファイルを格納するフォルダの構成を示すフォルダパスを取得する工程と、
     前記フォルダに格納されるファイルからテキストを取得する工程と、
     前記フォルダパスに示されるフォルダの構成に基づき、前記ファイルから取得されたテキストに、当該ファイルを格納するフォルダのフォルダ名または前記フォルダの先祖フォルダのフォルダ名があると判定した場合、前記フォルダ名を前記担当者が担当する業務の識別名として抽出し、出力する工程と
     を含むことを特徴とする抽出方法。
  8.  コンピュータを、請求項1から請求項5のいずれか1項に記載の抽出装置として機能させるための抽出プログラム。
PCT/JP2022/032869 2022-08-31 2022-08-31 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム WO2024047819A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032869 WO2024047819A1 (ja) 2022-08-31 2022-08-31 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032869 WO2024047819A1 (ja) 2022-08-31 2022-08-31 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム

Publications (1)

Publication Number Publication Date
WO2024047819A1 true WO2024047819A1 (ja) 2024-03-07

Family

ID=90098980

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032869 WO2024047819A1 (ja) 2022-08-31 2022-08-31 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム

Country Status (1)

Country Link
WO (1) WO2024047819A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009181479A (ja) * 2008-01-31 2009-08-13 Japan Digital Laboratory Co Ltd データ管理システムおよび方法並びにプログラム
JP2010157183A (ja) * 2009-01-05 2010-07-15 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2013206275A (ja) * 2012-03-29 2013-10-07 Oki Data Corp ファイル管理装置、及び、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009181479A (ja) * 2008-01-31 2009-08-13 Japan Digital Laboratory Co Ltd データ管理システムおよび方法並びにプログラム
JP2010157183A (ja) * 2009-01-05 2010-07-15 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2013206275A (ja) * 2012-03-29 2013-10-07 Oki Data Corp ファイル管理装置、及び、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUTAKA TAKITA; YOSHIKATSU TADA: "Expanding File Name Space Using Full-text Search Engine", COMPUTER SYSTEMS SYMPOSIUM PROCEEDINGS, JP, vol. 2005, no. 18, 29 November 2005 (2005-11-29), JP, pages 73 - 82, XP009552939, ISSN: 1882-7829 *

Similar Documents

Publication Publication Date Title
Kalmegh Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news
US10185478B2 (en) Creating a filter for filtering a list of objects
US20180341667A1 (en) Data curation system with version control for workflow states and provenance
US11783254B2 (en) Method and system for implementing an adaptive data governance system
Hompes et al. A generic framework for context-aware process performance analysis
US20110313932A1 (en) Model-based project network
US9268842B2 (en) Information processing apparatus, control method for the same, and computer-readable recording medium
JP3310116B2 (ja) 知識ベースシステム
US20160034706A1 (en) Device and method of analyzing masked task log
CN101452443B (zh) 逻辑结构模型创建辅助设备和方法
JP2001265768A (ja) 文書統合管理装置および文書統合管理方法
Wautelet et al. Evaluating the impact of user stories quality on the ability to understand and structure requirements
CN112199951A (zh) 一种事件信息生成的方法及装置
US20090157759A1 (en) Apparatus and method for document management
WO2024047819A1 (ja) 抽出装置、情報抽出装置、抽出方法、および、抽出プログラム
JP4630691B2 (ja) データベース装置とその処理方法
Upadhyaya et al. Lists
US20160224918A1 (en) Business influenced part extraction method and business influenced part extraction device based on business variation
JP2023031669A (ja) 業務管理システム、業務管理支援方法、および、プログラム
CN107636652A (zh) Rdb系统
JP6770813B2 (ja) 情報管理装置、情報管理方法、及び情報管理プログラム。
JP6985322B2 (ja) 文書作成支援装置、文書作成支援方法及びプログラム
Alekseyeva Development of the decision support system for choosing Web project management strategy under conditions of uncertainty
JP7131827B2 (ja) データ処理方法、データ処理システム、データ処理プログラム及びデータ構造
Tippapharat et al. Test case impact analysis for BPMN input changes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957416

Country of ref document: EP

Kind code of ref document: A1