WO2023218594A1 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- WO2023218594A1 WO2023218594A1 PCT/JP2022/020049 JP2022020049W WO2023218594A1 WO 2023218594 A1 WO2023218594 A1 WO 2023218594A1 JP 2022020049 W JP2022020049 W JP 2022020049W WO 2023218594 A1 WO2023218594 A1 WO 2023218594A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- content
- unit
- search
- user
- tag
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 28
- 238000013461 design Methods 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 101100480513 Caenorhabditis elegans tag-52 gene Proteins 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Definitions
- the present disclosure relates to an information processing device.
- Patent Documents 1, 2, and 3 a technique has been disclosed in which a user specifies the range of confidential information and sets viewing restrictions for the user.
- a technique has been disclosed in which components determined to be undisclosed are replaced with pre-registered replacement information and output (for example, see Patent Document 4).
- a method for calculating the importance of words in a document has been disclosed (see, for example, Patent Document 5).
- design assets The amount of past system software assets (hereinafter referred to as "design assets") accumulated within an organization is enormous, making it difficult to utilize design assets when developing new systems.
- design assets When system developers encounter obstacles that impede development progress, they search the design assets for useful information.
- obstacles that impede the progress of development include, for example, not knowing why the existing component you are trying to reuse has such specifications, or not knowing the cause of a problem that occurred in the part you are reusing. can be mentioned.
- useful information is not the final conclusion that such specifications were adopted (or the final design was adopted), but rather information about the background, study process, and design rationale that led to the conclusion. ” is often the case.
- Patent Documents 1 to 3 disclose that such content can be excluded from search and search targets, but if such content is excluded from search targets, the search results will be limited to only a partial range rather than the entire range. , the risk of overlooking important information increases.
- Patent Documents 1 to 3 disclose techniques for identifying and blacking out (masking) portions that cannot be disclosed for content whose disclosure range is restricted. This technology masks portions that cannot be disclosed based on morphological analysis of a document, censorship using a blacklist for each word extracted through the morphological analysis, and word metadata. However, there is no guarantee that the blacklist and metadata are complete, and it is difficult for the device alone to guarantee that there are no masking omissions. If some masking is omitted and information that should not have been disclosed is disclosed, this is a serious security incident and will require compliance with organizational, contractual, and legal requirements. There is a huge risk involved as it will be assumed that you have not done so.
- the present disclosure has been made to solve such problems, and aims to provide an information processing device that can efficiently search for necessary information from design assets.
- an information processing device includes a tag extraction unit that extracts keywords as search query tags from a search query input by a user, and a tag extraction unit that extracts keywords from content included in design assets and links them to the content.
- a content tag database that manages content tags that are attached tags
- a similar content search unit that searches for content based on the search query tag extracted by the tag extraction unit and content tags managed in the content tag database as similar content
- a similarity calculation unit that calculates the degree of similarity between the search query and the similar content searched by the similar content search unit
- a similar content search unit that calculates the similarity between the search query and the similar content searched by the similar content search unit
- a viewing authority determination unit that determines whether a user can view similar content searched by the user, similar content searched by the similar content search unit, similarity calculated by the similarity calculation unit, and determination by the viewing authority determination unit.
- a search result generation unit that generates search results for the search query input by the user based on the search results.
- FIG. 1 is a block diagram illustrating an example of the configuration of an information processing device according to an embodiment.
- FIG. 3 is a diagram illustrating an example of the configuration of a search query according to an embodiment.
- FIG. 2 is a diagram illustrating an example of a configuration of design assets according to an embodiment.
- FIG. 2 is a diagram illustrating an example of a configuration of a content tag database according to an embodiment.
- 5 is a flowchart illustrating an example of operations of a similar content search unit and a similarity calculation unit according to the embodiment.
- 7 is a flowchart illustrating an example of the operation of the viewing authority determination unit according to the embodiment.
- FIG. 2 is a diagram illustrating an example of a configuration of a user management database according to an embodiment.
- FIG. 3 is a diagram for explaining the operation of the unviewable content converter according to the embodiment.
- FIG. 3 is a diagram illustrating an example of displaying search results according to an embodiment.
- FIG. 3 is a diagram illustrating an example of displaying search results according to an embodiment.
- FIG. 1 is a diagram illustrating an example of a hardware configuration of an information processing device according to an embodiment.
- FIG. 1 is a diagram illustrating an example of a hardware configuration of an information processing device according to an embodiment.
- the information processing device 1 analyzes the content on the user's behalf and based on the analysis results. It is possible to guide the user to content that is judged to be highly relevant and stored in another corpus. Searches for other content related to such content whose disclosure scope is limited can be conducted in a chain. In addition, by reconfiguring content whose disclosure scope is restricted and making it viewable using words included in a group of related contents that are viewable without restriction, it is possible to improve the organization's ability to limit the scope of disclosure. , while complying with contractual and legal requirements, it is possible to understand content whose disclosure scope is restricted without damaging it.
- the information processing device 1 analyzes content and dynamically configures links to related content in order to search for design assets (or corpus) that include content whose disclosure scope is restricted and that is owned by an organization. do.
- design assets or corpus
- FIG. 1 is a block diagram showing an example of the configuration of an information processing device 1 according to an embodiment.
- the information processing device 1 includes a user interface unit 2, a tag extraction unit 3, a design asset 4, a content tag database 5, a similar content search unit 6, a similarity calculation unit 7, a viewing authority determination unit 9, It includes a user management database 10 and a search result generation section 11.
- the user interface unit 2 acquires the search query 12 that has been input by the user, and outputs the acquired search query 12 to the tag extraction unit 3. Further, the user interface section 2 displays the search results 14 generated by the search result generation section 11. Details of the search query 12 will be described later.
- the tag extraction unit 3 extracts keywords based on word frequency, co-occurrence, and word weight as tags from the content or search queries 12 stored in the design assets 4.
- the tag extraction unit 3 outputs the tag 13 (search query tag) extracted from the search query 12 to the similar content search unit 6 together with the search query 12.
- the tag extraction unit 3 outputs tags (content tags) extracted from the content stored in the design assets 4 to the content tag database 5 in association with the content from which they are extracted.
- the design assets 4 accumulate contents such as documents including specifications and design documents, tickets in a project management tool, and information in an in-house Wiki tool. Details of the design asset 4 will be described later.
- the content tag database 5 manages the tags extracted by the tag extraction unit 3 by linking them to the content from which they are extracted. Details of the content tag database 5 will be described later.
- the similar content search unit 6 acquires the search query 12 and tag 13 from the tag extraction unit 3, and searches for similar content by filtering using the tag 13 in order to improve search efficiency. Then, the similar content search unit 6 outputs a list of similar content to the similarity calculation unit 7.
- the similarity calculation unit 7 calculates the similarity between the similar content document and the search query 12, and outputs a list of highly similar content as the search result 8. Details of the similarity calculation unit 7 will be described later.
- the viewing authority determination unit 9 determines whether the user can view the search results 8 according to the user access authority managed in the user management database 10. Details of the viewing authority determination unit 9 will be described later.
- the user management database 10 manages user access privileges including user privilege information (ID, password, job title, etc.). Details of the user management database 10 will be described later.
- the search result generation unit 11 generates search results 14. Then, the search result generation unit 11 outputs the generated search result 14 to the user interface unit 2. Details of the search result generation unit 11 will be described later.
- FIG. 2 is a diagram showing an example of the configuration of the search query 12.
- the search query 12 includes natural language 121 arbitrarily input by the user and search source content 122 presented by the user.
- the search source content 122 includes chapters, sections, and sentences in the search source content 122.
- search sentence 123 When using natural language 121 as search query 12, the user can input any search sentence 123. At this time, in order to narrow down the search content, it is possible to specify the type of the search sentence 123 using metadata 124 related to the search sentence 123 or a hashtag 125. Metadata 124 includes author, creation date, update date, date range, and the like. Types of search sentences 123 using hashtags 125 include specifications, design documents, defect information, tips, and the like.
- the search location 126 can be a chapter or section of the content that is desired to be searched. At this time, in order to narrow down the search content, it is possible to specify the metadata 127 of the search source content 122. Metadata 127 is similar to metadata 124 described above.
- FIG. 3 is a diagram showing an example of the configuration of the design asset 4. As shown in FIG.
- Design Asset 4 includes information on the "background, review process, and design rationale” by which content useful to developers was created, including “multiple documents, chapters, and sections,” “tickets from project management tools,” and “internal wikis.”
- the structure is designed to take into account the fact that they are distributed among various devices such as “Tools”.
- the design assets 4 include a file server 41, a project management tool 42, and a Wiki tool 43.
- the file server 41 manages documents such as specifications and design documents.
- the project management tool 42 is a tool that has project ticket management, such as Redmine (registered trademark) or JIRA (registered trademark).
- the Wiki tool 43 is a tool for sharing know-how with others.
- FIG. 3 shows a case where the design asset 4 includes the file server 41, the project management tool 42, and the Wiki tool 43, it may also include information other than these. That is, the design assets 4 are a data group that includes information necessary to trace the "backstory, study process, and design basis" of content creation.
- FIG. 4 is a diagram showing an example of the configuration of the content tag database 5. As shown in FIG. 4
- the content tag database 5 stores a data group in which the content 51 of the design asset 4 and the tag 52 of the content extracted by the tag extraction unit 3 are linked.
- the tag 52 includes a content name 53, a content storage location 54, a keyword 55, and metadata 56.
- the content name 53 is the name of the content 51.
- the content storage location 54 is a storage location of the content 51 in the design asset 4.
- the keyword 55 is a keyword extracted from the content 51 by the tag extraction unit 3.
- the metadata 56 is properties of the content 51, such as the author of the content 51, the date of creation, and the document type (specifications, design documents, defect information, tips, etc.).
- the tag extracted by the tag extraction unit 3 is linked to the content and stored in the content tag database 5.
- FIG. 5 is a flowchart showing an example of the operations of the similar content search section 6 and the similarity calculation section 7.
- steps S101 to S104 correspond to the operations of the similar content search section 6
- step S105 corresponds to the operations of the similarity degree calculation section 7.
- step S101 the similar content search unit 6 obtains the search query 12 and tag 13 from the tag extraction unit 3.
- step S102 the similar content search unit 6 obtains the tag 52 linked to the content 51 from the content tag database 5.
- step S103 the tag-based filtering 61 of the similar content search unit 6 filters the tags 52 that match the tags 13 in the content tag database 5 to narrow down the content to be searched.
- step S104 the similar content search unit 6 lists similar content that is the search target content after filtering.
- step S105 the similarity calculation unit 7 calculates the similarity between the search query 12 and the similar content, and calculates the similarity between the search query 12 and the similar content, information on the similar content arranged in descending order of similarity, tags associated with the similar content, and the search query 12 and the similar content.
- a list including the similarity of is output as search result 8.
- the similarity calculation unit 7 has a full-text search function using Elastic Search (registered trademark) or an AI (Artificial Intelligence) language learning model. Since the similarity calculation unit 7 can access all contents in the design assets 4, it is possible to perform a comprehensive search without omissions or omissions.
- Elastic Search registered trademark
- AI Artificial Intelligence
- FIG. 6 is a flowchart illustrating an example of the operation of the viewing authority determination unit 9.
- step S201 the viewing authority determination unit 9 acquires the user name.
- step S202 the viewing authority determination unit 9 obtains the search result 8 from the similarity calculation unit 7.
- step S203 the viewing authority determination unit 9 queries the user management database 10 based on the user name acquired in step S201, and acquires the user access authority 101 from the user management database 10.
- the viewing authority determining unit 9 performs a process of determining whether the user can access similar content included in the search results 8.
- step S205 the viewing authority determination unit 9 determines whether the user can access similar content based on the user access authority 101 acquired in step S203. If the user can access similar content, the process moves to step S206. On the other hand, if the user cannot access similar content, the process moves to step S207.
- the viewing authority determination unit 9 instructs the user to input access information in step S206. request. Then, the viewing authority determining unit 9 determines whether access to similar content is possible using the access information input by the user. If the access information input by the user allows access to similar content, the process moves to step S207. On the other hand, if the access information input by the user does not allow access to similar content, the process moves to step S208.
- step S207 the viewing authority determination unit 9 registers the access information input by the user in the user management database 10 as user access authority.
- step S208 the viewing authority determination unit 9 registers similar content that cannot be accessed by the user in the unbrowsable list as unbrowsable content.
- step S209 the viewing authority determining unit 9 determines whether there is similar content that should be determined whether the user can access it. If there is similar content that should be determined whether the user can access it, the process returns to step S205. On the other hand, if there is no similar content to be determined whether the user can access it, the process moves to step S210.
- step S210 the viewing authority determination unit 9 finishes determining whether the user can access similar content.
- FIG. 7 is a diagram showing an example of the configuration of the user management database 10.
- the user management database 10 manages information regarding user access authority 101.
- User access authority 101 is linked to user name 100 and includes file system access information 102, project management tool access information 103, and Wiki tool access information 104.
- the file system access information 102 is access information to the file system.
- the project management tool access information 103 is access information to the project management tool.
- Wiki tool access information 104 is access information to Wiki tools.
- the user management database 10 accumulates the access information input by the user in step S207 of FIG.
- FIG. 7 shows a case where the user access authority 101 includes file system access information 102, project management tool access information 103, and Wiki tool access information 104
- the user access authority 101 includes access information to the content of the design asset 4. For example, information other than these may be included.
- FIG. 8 is a flowchart illustrating an example of the operation of the snippet generation unit 111.
- step S301 the snippet generation unit 111 obtains search result 8.
- step S302 the snippet generation unit 111 performs a process of generating a snippet from similar content.
- step S303 the snippet generation unit 111 determines whether a keyword matching the tag 13 of the search query 12 exists in the similar content. If the keyword matching the tag 13 is present in the similar content, the process moves to step S304. On the other hand, if the keyword matching the tag 13 is not found in the similar content, the process moves to step S306.
- step S304 the snippet generation unit 111 identifies the appearance location of the keyword that matches the tag 13 in the similar content.
- step S305 the snippet generation unit 111 generates a sentence containing the keyword as a snippet, and associates the generated snippet with similar content.
- step S306 the snippet generation unit 111 generates the beginning part of the document in the similar content as a snippet, and links the generated snippet to the similar content.
- step S307 the snippet generation unit 111 determines whether there is any similar content for which no snippet has been generated. If there is similar content for which no snippet has been generated, the process returns to step S303. On the other hand, if there is no similar content for which no snippet has been generated, the process moves to step S308.
- step S308 the snippet generation unit 111 ends the snippet generation.
- FIG. 9 is a flowchart showing an example of the operation of the display information control unit 112.
- step S401 the display information control unit 112 obtains the search result 8.
- step S402 the display information control unit 112 obtains the viewing disabled list from the viewing authority determining unit 9.
- step S403 the display information control unit 112 controls the display content.
- step S404 the display information control unit 112 determines whether the similar content included in the search result 8 is viewable content. If the similar content is viewable content, the process moves to step S405. On the other hand, if the similar content is not viewable content, the process moves to step S406.
- step S405 the display information control unit 112 performs control to display similar content. Specifically, the display information control unit 112 controls displaying snippets of similar content.
- step S406 the display information control unit 112 performs an unviewable display process on the unviewable content, and performs control to select and display displayable tags.
- the tags that can be displayed are the search query 12 input by the user, or some metadata (creator, creation date and time, update date and time, document type).
- step S405 and step S406 the display information control unit 112 performs control to display candidate information of the "background, design basis, and study process" for which the content was created in a tree format.
- the information displayed in this tree format corresponds to the search result 14.
- the display information control unit 112 classifies viewable information and non-viewable information by color (see FIGS. 12 and 13 described below). Note that 10 pieces of content (similar content) displayed in a tree format may be displayed in descending order of similarity to the search query 12. The number of contents to be displayed may be set arbitrarily by the user.
- step S407 the display information control unit 112 determines whether there is any content to be displayed. If there is content to be displayed, the process returns to step S404. On the other hand, if there is no content to be displayed, the process moves to step S408.
- step S408 the display information control unit 112 ends the control of the display content.
- FIG. 10 is a flowchart showing an example of the operation of the unviewable content conversion unit 113.
- FIG. 11 is a diagram for explaining the operation of the unviewable content converter. Note that in FIG. 11, the corresponding processes (S501 to S504) in FIG. 10 are also shown.
- step S501 the unbrowsable content conversion unit 113 obtains the original text of the unbrowsable content.
- the non-browsable content corresponds to the content determined to be non-browsable in step S404 of FIG.
- the unbrowsable content conversion unit 113 extracts the sentence structure from the unbrowsable content. Specifically, the unviewable content conversion unit 113 performs morphological analysis on the original text of the unviewable content, and extracts the structure of the sentence by extracting items other than nouns.
- the unviewable content conversion unit 113 extracts nouns that have a high degree of similarity to nouns included in the original text of the unviewable content from the viewable similar content.
- the degree of similarity can be calculated, for example, from the word frequency and the weight of the word using the TF-IDF (Term Frequency-Inverse Document Frequency) method, or by obtaining a distributed representation of the word using Word2vec. be.
- step S504 the unviewable content conversion unit 113 replaces the noun included in the unviewable content with the extracted noun with a high degree of similarity and reconstructs the sentence.
- ⁇ Display example of user interface section 2> 12 and 13 are diagrams showing an example of displaying the search results 14 on the user interface unit 2.
- search UI search UI
- the user interface section 2 displays a search query and tags extracted from the search query.
- the content of the design assets 4 is filtered by the selected tag, and the similarity is calculated after narrowing down the content to be searched.
- similar contents that are candidates for the search query's "background, study process, and design rationale" are displayed in a tree format on the right side of the diagram in descending order of similarity.
- the displayed tree-format content list is a link list, and when the user selects a content, the user can access the system in which the selected content is stored (see FIG. 13).
- content that cannot be viewed is displayed in red, for example, and only information that can be viewed is disclosed to the user.
- Viewable content is displayed with snippets, similarities, and links to access the content.
- accessible similar documents are displayed on the right side of the diagram.
- Each function of the user interface unit 2, tag extraction unit 3, similar content search unit 6, similarity calculation unit 7, viewing authority determination unit 9, and search result generation unit 11 in the information processing device 1 shown in FIG. This is realized by That is, the information processing device 1 acquires the search query 12 that has received the user's input, displays the search result 14, extracts the tag 13 (search query tag) from the search query 12, and stores it in the design assets 4. Extract tags (content tags) from content, search for similar content by filtering using tags 13, calculate the degree of similarity between similar content documents and search query 12, and search results 8 for users according to user access privileges. It includes a processing circuit for determining whether browsing is possible or not and generating display information of search results.
- a processing circuit is dedicated hardware, a processor (CPU (Central Processing Unit), central processing unit, processing unit, arithmetic unit, microprocessor, microcomputer, DSP (Digital It may also be a signal processor (also referred to as a signal processor).
- CPU Central Processing Unit
- processing unit processing unit
- arithmetic unit microprocessor
- microcomputer DSP (Digital It may also be a signal processor (also referred to as a signal processor).
- DSP Digital It may also be a signal processor (also referred to as a signal processor).
- the processing circuit 20 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application Specific Integrated Circuit). , FPGA (Field Programmable Gate Array), or a combination of these.
- the functions of the user interface unit 2, tag extraction unit 3, similar content search unit 6, similarity calculation unit 7, viewing authority determination unit 9, and search result generation unit 11 may be realized by the processing circuit 20. may be realized collectively by the processing circuit 20.
- the processing circuit 20 When the processing circuit 20 is the processor 21 shown in FIG. Functions are realized by software, firmware, or a combination of software and firmware. Software or firmware is written as a program and stored in memory 22. The processor 21 implements each function by reading and executing programs recorded in the memory 22. That is, the information processing device 1 acquires the search query 12 that has received user input, displays the search results 14, extracts the tag 13 (search query tag) from the search query 12, and accumulates it in the design assets 4. a step of extracting a tag (content tag) from the content that is being searched for, a step of searching for similar content by filtering using the tag 13, a step of calculating the degree of similarity between a similar content document and the search query 12, according to user access authority.
- a memory 22 is provided for storing a program that ultimately executes the step of determining whether the search results 8 can be viewed by the user and the step of generating display information of the search results. These programs also cause the computer to execute the procedures or methods of the user interface section 2, tag extraction section 3, similar content search section 6, similarity calculation section 7, viewing authority determination section 9, and search result generation section 11. It can be said that it is a thing.
- memory refers to nonvolatile or volatile memory such as RAM (Random Access Memory), ROM (Read Only Memory), flash memory, EPROM (Erasable Programmable Read Only Memory), and EEPROM (Electrically Erasable Programmable Read Only Memory).
- the storage medium may be a flexible semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a DVD (Digital Versatile Disc), or any storage medium that will be used in the future.
- search result generation unit 11 Some of the functions of the user interface unit 2, tag extraction unit 3, similar content search unit 6, similarity calculation unit 7, viewing authority determination unit 9, and search result generation unit 11 are realized by dedicated hardware. However, part of it may be realized by software or firmware.
- the processing circuit can realize each of the above functions using hardware, software, firmware, or a combination thereof.
- 1 Information processing device 2 User interface unit, 3 Tag extraction unit, 4 Design assets, 5 Content tag database, 6 Similar content search unit, 7 Similarity calculation unit, 8 Search results, 9 Viewing authority determination unit, 10 User management database , 11 Search result generation unit, 12 Search query, 13 Tag, 14 Search result, 20 Processing circuit, 21 Processor, 22 Memory, 41 File server, 42 Project management tool, 43 Wiki tool, 51 Content, 52 Tag, 53 Content name , 54 Content storage location, 55 Keyword, 56 Metadata, 61 Tag-based filtering, 100 User name, 101 User access authority, 102 File system access information, 103 Project management tool access information, 104 Wiki tool access information, 111 Snippet generation section , 112 Display information control unit, 113 Unviewable content conversion unit, 121 Natural language, 122 Search source content, 123 Search sentence, 124 Metadata, 125 Hashtag, 126 Search location, 127 Metadata.
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本開示は、設計資産から必要な情報を効率的に探索することが可能な情報処理装置を提供することを目的とする。本開示による情報処理装置は、ユーザが入力した検索クエリから検索クエリタグを抽出するタグ抽出部と、設計資産に含まれるコンテンツから抽出されたコンテンツタグを管理するコンテンツタグデータベースと、検索クエリタグとコンテンツタグとに基づくコンテンツを類似コンテンツとして探索する類似コンテンツ探索部と、検索クエリと類似コンテンツとの類似度を算出する類似度算出部と、ユーザアクセス権限に基づいて、類似コンテンツをユーザが閲覧可能か否かを判定する閲覧権限判定部と、類似コンテンツと、類似度と、閲覧権限判定部による判定結果とに基づいて、ユーザが入力した検索クエリに対する探索結果を生成する探索結果生成部とを備える。
Description
本開示は、情報処理装置に関する。
従来、文書中の秘匿対象の領域(テキスト、図面、画像など)に対して、ユーザのアクセス権限に応じてマスク処理を行い、当該マスク処理を施した文書をユーザ端末に出力する技術が開示されている(例えば、特許文献1,2,3参照)。具体的には、自然言語解析によって、予め指定されたカテゴリの単語、語句、および文章を文書中から抽出して分類し、ユーザのアクセス権限に応じて該当部分をマスクし、マスクした文書を出力する。あるいは、文書内の機密情報(テキスト、図面、画像など)に対して、ユーザのアクセス権限に応じてマスクして出力する。
また、機密情報の範囲の指定、およびユーザの閲覧制限の設定をユーザが行う技術が開示されている(例えば、特許文献1,2,3参照)。開示不能と判定された構成要素については、予め登録した置換情報に置き換えて出力する技術が開示されている(例えば、特許文献4参照)。文書中の単語の重要度を計算する手法が開示されている(例えば、特許文献5参照)。
組織内部に蓄積された過去のシステムソフトウェア資産(以下、「設計資産」という)は膨大であり、新たなシステム開発の際に設計資産を活用することが難しくなっている。システムの開発者は、開発の進行を妨げるような障害に直面すると、設計資産の中に有用な情報がないか探索する。ここで、開発の進行を妨げるような障害としては、例えば、流用しようとしている既存のコンポーネントがなぜこのような仕様であるのかが分からない、あるいは、流用部で発生した不具合の原因が分からないなどが挙げられる。また、有用な情報とは、最終的にこのような仕様とした(または、最終的にこのような設計にした)とする結論ではなく、むしろ結論に至るまでの「経緯、検討過程、設計根拠」であることが多い。
しかし、「経緯、検討過程、設計根拠」は、「複数の文書、章、および節」、「プロジェクト管理ツールのチケット」、および「社内Wikiツール」などに分散して存在していることが多く、膨大な設計資産の中から関連する情報を拾い集める作業が必要となる。また、あるコンテンツで関連情報を見つけると、その関連情報から別のコンテンツを辿るといったような芋づる式に探索を進めなければならず、探索コストが膨大となる。
また、「経緯、検討過程、設計根拠」を辿る過程では、開示範囲の制限が大きな障害となる。「経緯、検討過程、設計根拠」が含まれているコンテンツの中には、顧客名および売り上げなど、契約上、関係者以外に開示できない一部仕様の情報などが記載されていることがあり、このようなコンテンツは開示範囲が著しく制限される。特許文献1~3の中には、このようなコンテンツを検索および探索の対象から外すことが開示されているが、検索対象から外した場合の調査結果は全体ではなく部分的な範囲に留まるため、重要な情報を見落とすリスクが高まる。
また、ユーザによっては開示範囲が制限され、途中で文書の内容(それが現在調べているトピックに関連するか否か)を確認することができなくなるため、それ以上の情報の追跡が困難になり、調査を諦めざるを得ない場合がある。従来の解決策として、予め登録した置換情報に置き換えてコンテンツを表示する技術(例えば、特許文献4参照)があるが、コンテンツの意味を損なって表示してしまうリスクがある。
特許文献1~3では、開示範囲が制限されているコンテンツに対して、開示できない箇所を特定して黒塗り(マスキング)する技術が開示されている。当該技術では、文書の形態素解析、それによって抽出した各単語のブラックリストによる検閲、および単語のメタデータを根拠として、開示できない箇所をマスキングしている。しかし、ブラックリストおよびメタデータが必ずしも完全であるという保証はなく、マスキングの漏れがないことを装置側だけで保証することは困難である。仮に、一部にマスキングの漏れが発生して本来開示してはならない情報を開示してしまった場合、それはセキュリティ上の重大な事故であり、組織上、契約上、および法律上の要請に準拠していないとみなされるため、大きなリスクが伴う。
このように、従来では、設計資産から必要な情報を効率的に探索することについて改善の余地があった。
本開示は、このような問題を解決するためになされたものであり、設計資産から必要な情報を効率的に探索することが可能な情報処理装置を提供することを目的とする。
上記の課題を解決するために、本開示による情報処理装置は、ユーザが入力した検索クエリからキーワードを検索クエリタグとして抽出するタグ抽出部と、設計資産に含まれるコンテンツから抽出されて当該コンテンツと紐づけられたタグであるコンテンツタグを管理するコンテンツタグデータベースと、タグ抽出部が抽出した検索クエリタグと、コンテンツタグデータベースで管理されているコンテンツタグとに基づくコンテンツを類似コンテンツとして探索する類似コンテンツ探索部と、検索クエリと、類似コンテンツ探索部が探索した類似コンテンツとの類似度を算出する類似度算出部と、ユーザがコンテンツにアクセス可能であることを示すユーザアクセス権限に基づいて、類似コンテンツ探索部が探索した類似コンテンツをユーザが閲覧可能か否かを判定する閲覧権限判定部と、類似コンテンツ探索部が探索した類似コンテンツと、類似度算出部が算出した類似度と、閲覧権限判定部による判定結果とに基づいて、ユーザが入力した検索クエリに対する探索結果を生成する探索結果生成部とを備える。
本開示によれば、設計資産から必要な情報を効率的に探索することが可能となる。
本開示の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
<実施の形態>
以下で説明する実施の形態では、組織、プロジェクト、あるいは何らかのカテゴリごとに設計資産を蓄積したコーパス群があり、当該コーパス群の一部にセキュリティ上の開示範囲が制限されている環境を想定する。開示範囲は、ユーザが所属する組織、職制、およびアサインされているプロジェクトなどによって決定される。ユーザが探索の過程で開示範囲が制限されたコーパスに格納されたコンテンツに遭遇すると、後述する図1に示す情報処理装置1によって、当該コンテンツの情報をユーザに開示することができるか否かが確認される。当該コンテンツを開示することができる場合、ユーザは、当該コンテンツの情報を自ら確認することができる。
以下で説明する実施の形態では、組織、プロジェクト、あるいは何らかのカテゴリごとに設計資産を蓄積したコーパス群があり、当該コーパス群の一部にセキュリティ上の開示範囲が制限されている環境を想定する。開示範囲は、ユーザが所属する組織、職制、およびアサインされているプロジェクトなどによって決定される。ユーザが探索の過程で開示範囲が制限されたコーパスに格納されたコンテンツに遭遇すると、後述する図1に示す情報処理装置1によって、当該コンテンツの情報をユーザに開示することができるか否かが確認される。当該コンテンツを開示することができる場合、ユーザは、当該コンテンツの情報を自ら確認することができる。
一方、当該コンテンツを開示することはできないが、ユーザが当該コンテンツを跨いでさらなる調査および探索を続行したいと考える場合、情報処理装置1によって、ユーザに代わって当該コンテンツを分析し、分析結果に基づいて別のコーパスに格納された関連性が高いと判断されるコンテンツにユーザを誘導することができる。このような開示範囲が制限されたコンテンツに関連する別のコンテンツの調査の代行は、数珠つなぎに連鎖して行うことができる。また、開示範囲が制限されたコンテンツを、開示範囲が制限されていない閲覧可能な関連するコンテンツ群に含まれる単語を用いて再構成して閲覧可能とすることによって、開示範囲の制限という組織上、契約上、および法律上の要請を遵守しながら、開示範囲が制限されたコンテンツの内容を損なわずに把握することができる。
まとめると、情報処理装置1は、組織が保有する開示範囲が制限されたコンテンツを含む設計資産(あるいはコーパス)を探索するために、コンテンツを分析し、関連するコンテンツへのリンクを動的に構成する。これにより、ユーザは、開示範囲の制限という制約を乗り越えて、組織が保有する設計資産を対象に、必要とする情報、主に経緯、検討過程、および設計根拠の探索を実施することができるようになる。すなわち、実施の形態による情報処理装置1によれば、設計資産から必要な情報を効率的に探索することが可能となる。
以下、実施の形態による情報処理装置1の構成および動作について説明する。
<情報処理装置1の構成>
図1は、実施の形態による情報処理装置1の構成の一例を示すブロック図である。
図1は、実施の形態による情報処理装置1の構成の一例を示すブロック図である。
情報処理装置1は、ユーザインタフェース部2と、タグ抽出部3と、設計資産4と、コンテンツタグデータベース5と、類似コンテンツ探索部6と、類似度算出部7と、閲覧権限判定部9と、ユーザ管理データベース10と、探索結果生成部11とを備えている。
ユーザインタフェース部2は、ユーザの入力を受け付けた検索クエリ12を取得し、取得した検索クエリ12をタグ抽出部3に出力する。また、ユーザインタフェース部2は、探索結果生成部11が生成した探索結果14を表示する。検索クエリ12の詳細は後述する。
タグ抽出部3は、設計資産4に蓄積されているコンテンツまたは検索クエリ12から、単語の出現頻度、共起、および単語の重みに基づくキーワードをタグとして抽出する。タグ抽出部3は、検索クエリ12から抽出されたタグ13(検索クエリタグ)を、検索クエリ12とともに類似コンテンツ探索部6に出力する。また、タグ抽出部3は、設計資産4に蓄積されているコンテンツから抽出したタグ(コンテンツタグ)を、抽出元のコンテンツに紐づけてコンテンツタグデータベース5に出力する。
設計資産4は、仕様書および設計書などを含む文書、プロジェクト管理ツールにおけるチケット、および社内Wikiツールにおける情報などのコンテンツを蓄積している。設計資産4の詳細は後述する。
コンテンツタグデータベース5は、タグ抽出部3が抽出したタグを抽出元のコンテンツに紐づけて管理する。コンテンツタグデータベース5の詳細は後述する。
類似コンテンツ探索部6は、タグ抽出部3から検索クエリ12およびタグ13を取得し、検索の効率化のために、タグ13を用いたフィルタリングによって類似コンテンツを探索する。そして、類似コンテンツ探索部6は、類似コンテンツのリストを類似度算出部7に出力する。
類似度算出部7は、類似コンテンツの文書と検索クエリ12との類似度を算出し、類似度の高いコンテンツのリストを検索結果8として出力する。類似度算出部7の詳細は後述する。
閲覧権限判定部9は、ユーザ管理データベース10で管理されているユーザアクセス権限に従って、検索結果8をユーザが閲覧可能か否かを判定する。閲覧権限判定部9の詳細は後述する。
ユーザ管理データベース10は、ユーザの権限情報(ID、パスワード、職制など)を含むユーザアクセス権限を管理している。ユーザ管理データベース10の詳細は後述する。
探索結果生成部11は、探索結果14を生成する。そして、探索結果生成部11は、生成した探索結果14をユーザインタフェース部2に出力する。探索結果生成部11の詳細は後述する。
<検索クエリ12の構成>
図2は、検索クエリ12の構成の一例を示す図である。
図2は、検索クエリ12の構成の一例を示す図である。
検索クエリ12は、ユーザが任意に入力した自然言語121と、ユーザが提示した検索元コンテンツ122とを含む。検索元コンテンツ122は、検索元コンテンツ122における章、節、および文を含む。
自然言語121を検索クエリ12とする場合、ユーザは任意の検索文123を入力することができる。このとき、検索内容を絞り込むために、検索文123に関連するメタデータ124、またはハッシュタグ125を用いた検索文123のタイプの指定が可能である。メタデータ124は、作者、作成日、更新日、日付範囲などを含む。ハッシュタグ125を用いた検索文123のタイプは、仕様書、設計書、不具合情報、Tipsなどを含む。
また、検索元コンテンツ122を検索クエリ12とする場合、コンテンツの中で検索したい章または節などを検索箇所126とすることができる。このとき、検索内容を絞り込むために、検索元コンテンツ122のメタデータ127の指定が可能である。メタデータ127は、上記で説明したメタデータ124と同様である。
<設計資産4の構成>
図3は、設計資産4の構成の一例を示す図である。
図3は、設計資産4の構成の一例を示す図である。
設計資産4は、開発者にとって有用であるコンテンツが作成された「経緯、検討過程、設計根拠」が、「複数の文書、章、および節」、「プロジェクト管理ツールのチケット」、および「社内Wikiツール」などに分散して存在していることを考慮した構成となっている。
具体的には、設計資産4は、ファイルサーバ41、プロジェクト管理ツール42、およびWikiツール43を含む。
ファイルサーバ41は、仕様書および設計書などのドキュメントを管理する。プロジェクト管理ツール42は、Redmine(登録商標)またはJIRA(登録商標)のようなプロジェクトのチケット管理を有するツールである。Wikiツール43は、他者とノウハウを共有するためのツールである。
なお、図3では、設計資産4がファイルサーバ41、プロジェクト管理ツール42、およびWikiツール43を含む場合を示しているが、これら以外の情報を含んでもよい。すなわち、設計資産4は、コンテンツが作成された「経緯、検討過程、設計根拠」を追うために必要な情報を含むデータ群である。
<コンテンツタグデータベース5の構成>
図4は、コンテンツタグデータベース5の構成の一例を示す図である。
図4は、コンテンツタグデータベース5の構成の一例を示す図である。
コンテンツタグデータベース5は、設計資産4のコンテンツ51と、タグ抽出部3が抽出したコンテンツのタグ52とを紐づけたデータ群を格納している。タグ52は、コンテンツ名53、コンテンツ格納場所54、キーワード55、およびメタデータ56を含む。
コンテンツ名53は、コンテンツ51の名称である。コンテンツ格納場所54は、設計資産4におけるコンテンツ51の格納場所である。キーワード55は、タグ抽出部3がコンテンツ51から抽出したキーワードである。メタデータ56は、コンテンツ51の作者、作成日、文書タイプ(仕様書、設計書、不具合情報、Tipsなど)などのコンテンツ51のプロパティである。
設計資産4に新たなコンテンツが登録される度に、タグ抽出部3が抽出したタグがコンテンツに紐づけられて、コンテンツタグデータベース5に蓄積される。
<類似コンテンツ探索部6および類似度算出部7>
図5は、類似コンテンツ探索部6および類似度算出部7の動作の一例を示すフローチャートである。図5において、ステップS101~ステップS104は類似コンテンツ探索部6の動作に相当し、ステップS105は類似度算出部7の動作に相当する。
図5は、類似コンテンツ探索部6および類似度算出部7の動作の一例を示すフローチャートである。図5において、ステップS101~ステップS104は類似コンテンツ探索部6の動作に相当し、ステップS105は類似度算出部7の動作に相当する。
ステップS101において、類似コンテンツ探索部6は、タグ抽出部3から検索クエリ12およびタグ13を取得する。
ステップS102において、類似コンテンツ探索部6は、コンテンツタグデータベース5からコンテンツ51に紐づけられたタグ52を取得する。
ステップS103において、類似コンテンツ探索部6のタグベースフィルタリング61は、コンテンツタグデータベース5内でタグ13と一致するタグ52をフィルタリングし、検索対象のコンテンツを絞り込む。
ステップS104において、類似コンテンツ探索部6は、フィルタリング後の検索対象コンテンツである類似コンテンツをリスト化する。
ステップS105において、類似度算出部7は、検索クエリ12と類似コンテンツとの類似度を算出し、類似度が高い順に並べられた類似コンテンツの情報、類似コンテンツに紐づくタグ、および検索クエリ12との類似度を含むリストを検索結果8として出力する。
類似度算出部7は、Elastic Search(登録商標)、またはAI(Artificial Intelligence)言語学習モデルなどによる全文検索の機能を有する。類似度算出部7は設計資産4における全てのコンテンツにアクセス可能であるため、抜けまたは漏れのない網羅的な検索を実施することができる。
<閲覧権限判定部9の動作>
図6は、閲覧権限判定部9の動作の一例を示すフローチャートである。
図6は、閲覧権限判定部9の動作の一例を示すフローチャートである。
ステップS201において、閲覧権限判定部9は、ユーザ名を取得する。
ステップS202において、閲覧権限判定部9は、類似度算出部7から検索結果8を取得する。
ステップS203において、閲覧権限判定部9は、ステップS201で取得したユーザ名に基づいてユーザ管理データベース10に問い合わせ、ユーザ管理データベース10からユーザアクセス権限101を取得する。
ステップS204以降、閲覧権限判定部9は、ユーザが検索結果8に含まれる類似コンテンツにアクセス可能か否かを判断する処理を行う。
ステップS205において、閲覧権限判定部9は、ステップS203で取得したユーザアクセス権限101に基づいて、ユーザが類似コンテンツにアクセス可能か否かを判断する。ユーザが類似コンテンツにアクセス可能である場合は、ステップS206に移行する。一方、ユーザが類似コンテンツにアクセス可能でない場合は、ステップS207に移行する。
アクセス情報がユーザ管理データベース10にないシステムへのアクセスが必要である場合(ステップS205で「No」の場合)、ステップS206において、閲覧権限判定部9は、ユーザに対してアクセス情報を入力するように要求する。そして、閲覧権限判定部9は、ユーザが入力したアクセス情報で類似コンテンツへのアクセスが可能か否かを判断する。ユーザが入力したアクセス情報で類似コンテンツへのアクセスが可能である場合は、ステップS207に移行する。一方、ユーザが入力したアクセス情報で類似コンテンツへのアクセスが可能でない場合は、ステップS208に移行する。
ステップS207において、閲覧権限判定部9は、ユーザが入力したアクセス情報をユーザアクセス権限としてユーザ管理データベース10に登録する。
ステップS208において、閲覧権限判定部9は、ユーザがアクセスできない類似コンテンツを閲覧不能コンテンツとして閲覧不能リストに登録する。
ステップS209において、閲覧権限判定部9は、ユーザがアクセス可能か否かを判断すべき類似コンテンツがあるか否かを判断する。ユーザがアクセス可能か否かを判断すべき類似コンテンツがある場合は、ステップS205に戻る。一方、ユーザがアクセス可能か否かを判断すべき類似コンテンツがない場合は、ステップS210に移行する。
ステップS210において、閲覧権限判定部9は、ユーザが類似コンテンツにアクセス可能か否かの判断を終了する。
<ユーザ管理データベース10の構成>
図7は、ユーザ管理データベース10の構成の一例を示す図である。
図7は、ユーザ管理データベース10の構成の一例を示す図である。
ユーザ管理データベース10は、ユーザアクセス権限101に関する情報を管理している。ユーザアクセス権限101は、ユーザ名100に紐づけられており、ファイルシステムアクセス情報102、プロジェクト管理ツールアクセス情報103、およびWikiツールアクセス情報104を含む。
ファイルシステムアクセス情報102は、ファイルシステムへのアクセス情報である。プロジェクト管理ツールアクセス情報103は、プロジェクト管理ツールへのアクセス情報である。Wikiツールアクセス情報104は、Wikiツールへのアクセス情報である。
また、ユーザ管理データベース10は、図6のステップS207においてユーザが入力したアクセス情報を蓄積する。
なお、図7では、ユーザアクセス権限101がファイルシステムアクセス情報102、プロジェクト管理ツールアクセス情報103、およびWikiツールアクセス情報104を含む場合を示しているが、設計資産4のコンテンツへのアクセス情報であれば、これら以外の情報を含んでもよい。
<スニペット生成部111の動作>
図8は、スニペット生成部111の動作の一例を示すフローチャートである。
図8は、スニペット生成部111の動作の一例を示すフローチャートである。
ステップS301において、スニペット生成部111は、検索結果8を取得する。
ステップS302以降、スニペット生成部111は、類似コンテンツからスニペットを生成する処理を行う。
ステップS303において、スニペット生成部111は、検索クエリ12のタグ13と一致するキーワードが類似コンテンツ内にあるか否かを判断する。タグ13と一致するキーワードが類似コンテンツ内にある場合は、ステップS304に移行する。一方、タグ13と一致するキーワードが類似コンテンツ内にない場合は、ステップS306に移行する。
ステップS304において、スニペット生成部111は、類似コンテンツにおいてタグ13と一致するキーワードの出現箇所を特定する。
ステップS305において、スニペット生成部111は、キーワードを含む文章をスニペットとして生成し、生成したスニペットを類似コンテンツに紐づける。
ステップS306において、スニペット生成部111は、類似コンテンツにおける文書の先頭部分をスニペットとして生成し、生成したスニペットを類似コンテンツに紐づける。
ステップS307において、スニペット生成部111は、スニペットを生成していない類似コンテンツがあるか否かを判断する。スニペットを生成していない類似コンテンツがある場合は、ステップS303に戻る。一方、スニペットを生成していない類似コンテンツがない場合は、ステップS308に移行する。
ステップS308において、スニペット生成部111は、スニペットの生成を終了する。
上記のようにスニペットを生成することによって、コンテンツに直接アクセスすることなく、コンテンツの概要を確認することが可能となる。
<表示情報制御部112の動作>
図9は、表示情報制御部112の動作の一例を示すフローチャートである。
図9は、表示情報制御部112の動作の一例を示すフローチャートである。
ステップS401において、表示情報制御部112は、検索結果8を取得する。
ステップS402において、表示情報制御部112は、閲覧権限判定部9から閲覧不能リストを取得する。
ステップS403以降、表示情報制御部112は、表示コンテンツの制御を行う。
ステップS404において、表示情報制御部112は、検索結果8に含まれる類似コンテンツが閲覧可能なコンテンツであるか否かを判断する。類似コンテンツが閲覧可能なコンテンツである場合は、ステップS405に移行する。一方、類似コンテンツが閲覧可能なコンテンツでない場合は、ステップS406に移行する。
ステップS405において、表示情報制御部112は、類似コンテンツを表示する制御を行う。具体的には、表示情報制御部112は、類似コンテンツのスニペットを表示する制御を行う。
ステップS406において、表示情報制御部112は、閲覧不能なコンテンツに対して閲覧不能表示処理を行い、表示可能なタグを選別して表示する制御を行う。ここで、表示可能なタグは、ユーザが入力した検索クエリ12、あるいは一部のメタデータ(作成者、作成日時、更新日時、文書タイプ)とする。
ステップS405およびステップS406において、表示情報制御部112は、コンテンツが作成された「経緯、設計根拠、検討過程」の候補となる情報をツリー形式で表示する制御を行う。このツリー形式で表示される情報が、探索結果14に相当する。表示情報制御部112は、探索結果14を生成する際に、閲覧可能な情報と、閲覧不能な情報とを色で分類する(後述の図12,13参照)。なお、ツリー形式で表示されるコンテンツ(類似コンテンツ)は、検索クエリ12との類似度が高いものから順に10個表示するようにしてもよい。表示するコンテンツの数は、ユーザが任意に設定してもよい。
ステップS407において、表示情報制御部112は、表示すべきコンテンツがあるか否かを判断する。表示すべきコンテンツがある場合は、ステップS404に戻る。一方、表示すべきコンテンツがない場合は、ステップS408に移行する。
ステップS408において、表示情報制御部112は、表示コンテンツの制御を終了する。
<閲覧不能コンテンツ変換部113の動作>
図10は、閲覧不能コンテンツ変換部113の動作の一例を示すフローチャートである。図11は、閲覧不能コンテンツ変換部の動作を説明するための図である。なお、図11では、図10において対応する処理(S501~S504)を併記している。
図10は、閲覧不能コンテンツ変換部113の動作の一例を示すフローチャートである。図11は、閲覧不能コンテンツ変換部の動作を説明するための図である。なお、図11では、図10において対応する処理(S501~S504)を併記している。
ステップS501において、閲覧不能コンテンツ変換部113は、閲覧不能コンテンツの原文を取得する。閲覧不能コンテンツは、図9のステップS404で閲覧不能と判断されたコンテンツに相当する。
ステップS502において、閲覧不能コンテンツ変換部113は、閲覧不能コンテンツから文章の構造を抽出する。具体的には、閲覧不能コンテンツ変換部113は、閲覧不能コンテンツの原文に対して形態素解析を行い、名詞以外を抜き出すことによって文章の構造を抽出する。
ステップS503において、閲覧不能コンテンツ変換部113は、閲覧不能コンテンツの原文に含まれる名詞との類似度が高い名詞を、閲覧可能な類似コンテンツから抽出する。ここでの類似度は、例えば、単語の出現頻度およびTF-IDF(Term Frequency-Inverse Document Frequency)法によって単語の重みから計算する方法、あるいはWord2vecによって単語の分散表現を獲得して算出する方法がある。
ステップS504において、閲覧不能コンテンツ変換部113は、閲覧不能コンテンツに含まれる名詞を、抽出した類似度が高い名詞に置き換えて、文章を再構成する。
<ユーザインタフェース部2の表示例>
図12,13は、探索結果14をユーザインタフェース部2に表示する一例を示す図である。
図12,13は、探索結果14をユーザインタフェース部2に表示する一例を示す図である。
ユーザが検索クエリ12を入力すると、ユーザインタフェース部2には図12,13に示すような探索結果14(図12,13中の「探索UI」)を表示する。
図12に示すように、ユーザインタフェース部2には、検索クエリと、当該検索クエリから抽出したタグとが表示されている。ユーザがタグを選択すると、選択したタグで設計資産4のコンテンツがフィルタリングされ、検索対象となるコンテンツを絞り込んだ上で類似度が計算される。そして、検索クエリの「経緯、検討過程、設計根拠」の候補である類似コンテンツが、類似度が高い順に図中の右側にツリー形式で表示される。表示されたツリー形式のコンテンツのリストはリンクリストとなっており、ユーザがコンテンツを選択すると、選択したコンテンツが保存されているシステムにアクセスすることができる(図13参照)。
ユーザアクセス権限に応じて、閲覧不能コンテンツは例えば赤で表示され、閲覧可能な情報のみがユーザに開示される。閲覧可能コンテンツは、スニペットとともに類似度、およびコンテンツにアクセスするためのリンクが表示される。閲覧不能コンテンツに関しては、アクセス可能な類似文書が図中の右側に表示される。
ユーザが閲覧不能コンテンツ自体の内容を把握することを希望する場合は、閲覧不能コンテンツを閲覧可能コンテンツに変換することによって、開示範囲の制限という組織上、契約上、および法律上の要請を遵守しながら内容を理解することができる。
<ハードウェア構成>
図1に示す情報処理装置1におけるユーザインタフェース部2、タグ抽出部3、類似コンテンツ探索部6、類似度算出部7、閲覧権限判定部9、および探索結果生成部11の各機能は、処理回路により実現される。すなわち、情報処理装置1は、ユーザの入力を受け付けた検索クエリ12を取得し、探索結果14を表示し、検索クエリ12からタグ13(検索クエリタグ)を抽出し、設計資産4に蓄積されているコンテンツからタグ(コンテンツタグ)を抽出し、タグ13を用いたフィルタリングによって類似コンテンツを探索し、類似コンテンツの文書と検索クエリ12との類似度を算出し、ユーザアクセス権限に従って検索結果8をユーザが閲覧可能か否かを判定し、探索結果の表示情報を生成するための処理回路を備える。処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するプロセッサ(CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)ともいう)であってもよい。
図1に示す情報処理装置1におけるユーザインタフェース部2、タグ抽出部3、類似コンテンツ探索部6、類似度算出部7、閲覧権限判定部9、および探索結果生成部11の各機能は、処理回路により実現される。すなわち、情報処理装置1は、ユーザの入力を受け付けた検索クエリ12を取得し、探索結果14を表示し、検索クエリ12からタグ13(検索クエリタグ)を抽出し、設計資産4に蓄積されているコンテンツからタグ(コンテンツタグ)を抽出し、タグ13を用いたフィルタリングによって類似コンテンツを探索し、類似コンテンツの文書と検索クエリ12との類似度を算出し、ユーザアクセス権限に従って検索結果8をユーザが閲覧可能か否かを判定し、探索結果の表示情報を生成するための処理回路を備える。処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するプロセッサ(CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)ともいう)であってもよい。
処理回路が専用のハードウェアである場合、図14に示すように、処理回路20は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、またはこれらを組み合わせたものが該当する。ユーザインタフェース部2、タグ抽出部3、類似コンテンツ探索部6、類似度算出部7、閲覧権限判定部9、および探索結果生成部11の各機能を処理回路20で実現してもよく、各機能をまとめて処理回路20で実現してもよい。
処理回路20が図15に示すプロセッサ21である場合、ユーザインタフェース部2、タグ抽出部3、類似コンテンツ探索部6、類似度算出部7、閲覧権限判定部9、および探索結果生成部11の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ22に格納される。プロセッサ21は、メモリ22に記録されたプログラムを読み出して実行することにより、各機能を実現する。すなわち、情報処理装置1は、ユーザの入力を受け付けた検索クエリ12を取得するステップ、探索結果14を表示するステップ、検索クエリ12からタグ13(検索クエリタグ)を抽出するステップ、設計資産4に蓄積されているコンテンツからタグ(コンテンツタグ)を抽出するステップ、タグ13を用いたフィルタリングによって類似コンテンツを探索するステップ、類似コンテンツの文書と検索クエリ12との類似度を算出するステップ、ユーザアクセス権限に従って検索結果8をユーザが閲覧可能か否かを判定するステップ、探索結果の表示情報を生成するステップが結果的に実行されることになるプログラムを格納するためのメモリ22を備える。また、これらのプログラムは、ユーザインタフェース部2、タグ抽出部3、類似コンテンツ探索部6、類似度算出部7、閲覧権限判定部9、および探索結果生成部11の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、DVD(Digital Versatile Disc)等、または、今後使用されるあらゆる記憶媒体であってもよい。
なお、ユーザインタフェース部2、タグ抽出部3、類似コンテンツ探索部6、類似度算出部7、閲覧権限判定部9、および探索結果生成部11の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。
なお、本開示の範囲内において、実施の形態を適宜、変形、省略したりすることが可能である。
本開示は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、限定的なものではない。例示されていない無数の変形例が想定され得るものと解される。
1 情報処理装置、2 ユーザインタフェース部、3 タグ抽出部、4 設計資産、5 コンテンツタグデータベース、6 類似コンテンツ探索部、7 類似度算出部、8 検索結果、9 閲覧権限判定部、10 ユーザ管理データベース、11 探索結果生成部、12 検索クエリ、13 タグ、14 探索結果、20 処理回路、21 プロセッサ、22 メモリ、41 ファイルサーバ、42 プロフェクト管理ツール、43 Wikiツール、51 コンテンツ、52 タグ、53 コンテンツ名、54 コンテンツ格納場所、55 キーワード、56 メタデータ、61 タグベースフィルタリング、100 ユーザ名、101 ユーザアクセス権限、102 ファイルシステムアクセス情報、103 プロジェクト管理ツールアクセス情報、104 Wikiツールアクセス情報、111 スニペット生成部、112 表示情報制御部、113 閲覧不能コンテンツ変換部、121 自然言語、122 検索元コンテンツ、123 検索文、124 メタデータ、125 ハッシュタグ、126 検索箇所、127 メタデータ。
Claims (7)
- ユーザが入力した検索クエリからキーワードを検索クエリタグとして抽出するタグ抽出部と、
設計資産に含まれるコンテンツから抽出されて当該コンテンツと紐づけられたタグであるコンテンツタグを管理するコンテンツタグデータベースと、
前記タグ抽出部が抽出した前記検索クエリタグと、前記コンテンツタグデータベースで管理されている前記コンテンツタグとに基づく前記コンテンツを類似コンテンツとして探索する類似コンテンツ探索部と、
前記検索クエリと、前記類似コンテンツ探索部が探索した前記類似コンテンツとの類似度を算出する類似度算出部と、
前記ユーザが前記コンテンツにアクセス可能であることを示すユーザアクセス権限に基づいて、前記類似コンテンツ探索部が探索した前記類似コンテンツを前記ユーザが閲覧可能か否かを判定する閲覧権限判定部と、
前記類似コンテンツ探索部が探索した前記類似コンテンツと、前記類似度算出部が算出した前記類似度と、前記閲覧権限判定部による判定結果とに基づいて、前記ユーザが入力した前記検索クエリに対する探索結果を生成する探索結果生成部と、
を備える、情報処理装置。 - 前記検索クエリは、前記ユーザが任意に入力する自然言語と、前記ユーザが提示した検索の元となるコンテンツである検索元コンテンツとを含む、請求項1に記載の情報処理装置。
- 前記検索元コンテンツは、当該検索元コンテンツにおける章、節、および文を含む、請求項2に記載の情報処理装置。
- 前記類似コンテンツ探索部は、前記検索クエリタグと一致する前記コンテンツタグに紐づけられた前記コンテンツを前記類似コンテンツとして探索する、請求項1から3のいずれか1項に記載の情報処理装置。
- 前記探索結果生成部は、
前記閲覧権限判定部が閲覧可能と判定した前記類似コンテンツのスニペットを生成するスニペット生成部と、
前記閲覧権限判定部が閲覧不能と判定した前記類似コンテンツについて、当該類似コンテンツに関連する閲覧可能な情報を表示する制御を行う表示情報制御部と、
前記閲覧権限判定部が閲覧不能と判定した前記類似コンテンツを、前記閲覧権限判定部が閲覧可能と判定した前記類似コンテンツに含まれる単語を用いて閲覧可能なコンテンツに変換する閲覧不能コンテンツ変換部と、
を含む、請求項1から4のいずれか1項に記載の情報処理装置。 - 前記類似コンテンツ探索部は、前記ユーザが前記検索クエリを入力するよりも前に作成された前記コンテンツを前記類似コンテンツとして探索し、
前記探索結果生成部は、前記類似度算出部が算出した前記類似度が高い順に前記類似コンテンツを表示する、請求項1から5のいずれか1項に記載の情報処理装置。 - 前記類似コンテンツ探索部は、前記コンテンツが設計された時点または前記コンテンツについて検討された時点以後に設計または検討された前記コンテンツを探索の対象とする、請求項1から6のいずれか1項に記載の情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020049 WO2023218594A1 (ja) | 2022-05-12 | 2022-05-12 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020049 WO2023218594A1 (ja) | 2022-05-12 | 2022-05-12 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023218594A1 true WO2023218594A1 (ja) | 2023-11-16 |
Family
ID=88730043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/020049 WO2023218594A1 (ja) | 2022-05-12 | 2022-05-12 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023218594A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259387A (ja) * | 2001-03-05 | 2002-09-13 | Fuji Xerox Co Ltd | 文書検索システム |
JP2009104347A (ja) * | 2007-10-23 | 2009-05-14 | Hitachi Ltd | アクセス可能な電子文書を提供するアクセス制御装置 |
-
2022
- 2022-05-12 WO PCT/JP2022/020049 patent/WO2023218594A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259387A (ja) * | 2001-03-05 | 2002-09-13 | Fuji Xerox Co Ltd | 文書検索システム |
JP2009104347A (ja) * | 2007-10-23 | 2009-05-14 | Hitachi Ltd | アクセス可能な電子文書を提供するアクセス制御装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talib et al. | Text mining: techniques, applications and issues | |
US9864741B2 (en) | Automated collective term and phrase index | |
KR102158352B1 (ko) | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 | |
US8161025B2 (en) | Patent mapping | |
Jonnalagadda et al. | A new iterative method to reduce workload in systematic review process | |
KR101723862B1 (ko) | 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 | |
US8275781B2 (en) | Processing documents by modification relation analysis and embedding related document information | |
Nasr et al. | Automated extraction of product comparison matrices from informal product descriptions | |
US9009197B2 (en) | Methods and systems for a compliance framework database schema | |
Del Alamo et al. | A systematic mapping study on automated analysis of privacy policies | |
Seifert et al. | Ubiquitous access to digital cultural heritage | |
US20180018355A1 (en) | Automated Monitoring and Archiving System and Method | |
Leone et al. | Taking stock of legal ontologies: a feature-based comparative analysis | |
US20140195532A1 (en) | Collecting digital assets to form a searchable repository | |
Cheligeer et al. | Machine learning in requirements elicitation: A literature review | |
US20160086499A1 (en) | Knowledge brokering and knowledge campaigns | |
Lehmberg et al. | Synthesizing n-ary relations from web tables | |
Spagnuelo et al. | Transparency enhancing tools and the GDPR: Do they match? | |
US20160085850A1 (en) | Knowledge brokering and knowledge campaigns | |
WO2023218594A1 (ja) | 情報処理装置 | |
Ben Nasr et al. | Matrixminer: a red pill to architect informal product descriptions in the matrix | |
Zeni et al. | Annotating legal documents with GaiusT 2.0 | |
Nawab et al. | Comparing Medline citations using modified N-grams | |
Lu et al. | Modeling semantics between programming codes and annotations | |
Sadman | COVID-19 Fake News: A Systematic Literature Review using “SmartLitReview” |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22941674 Country of ref document: EP Kind code of ref document: A1 |