WO2012169380A1 - 文書共有システム - Google Patents

文書共有システム Download PDF

Info

Publication number
WO2012169380A1
WO2012169380A1 PCT/JP2012/063597 JP2012063597W WO2012169380A1 WO 2012169380 A1 WO2012169380 A1 WO 2012169380A1 JP 2012063597 W JP2012063597 W JP 2012063597W WO 2012169380 A1 WO2012169380 A1 WO 2012169380A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
page
index
information
original document
Prior art date
Application number
PCT/JP2012/063597
Other languages
English (en)
French (fr)
Inventor
達也 進藤
Original Assignee
Shindo Tatsuya
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shindo Tatsuya filed Critical Shindo Tatsuya
Priority to JP2013519445A priority Critical patent/JP5993849B2/ja
Publication of WO2012169380A1 publication Critical patent/WO2012169380A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Definitions

  • the present invention relates to a technique for dividing an original document shared by a plurality of users into page documents, and performing tagging for use in a drill-down search of page documents based on table of contents information.
  • Patent Document 1 discloses a content recommendation device and method using a tag cloud.
  • a content recommendation server that provides a content recommendation service via a network constructs a tag cloud by analyzing tags assigned to each content.
  • the tag used here is premised on the user directly assigning the content.
  • the heading included in the table of contents information is automatically used as a tag, so that a standard tag can be assigned in a wide range and the efficiency of drill-down search is improved. This is the issue.
  • the document sharing system is: A document sharing system connectable to a user terminal of a user who registers a page document obtained by dividing an original document, and includes the following elements: (1) From a user terminal that registers the page document The original document receiving unit (2) for receiving the original document file having the index of the original document and the table of contents information including the page range of the category (2) The table of contents acquiring unit (3) for acquiring the table of contents information from the received original document file ) For each page included in the original document, based on the table of contents information, the heading of the section to which the page belongs is determined, and the page document generation unit for generating page document information including the heading as a tag. (4) Store page document information Document information database (5) An index table generation unit that generates an index that includes, for each page document information, a tag included in the page document information as a menu item used for document drill-down search.
  • the document sharing system can be connected to a user terminal of a user who browses a page document, and (6) an index database that stores an index for each page document; (7) A search screen generation unit that generates a search screen including a drill-down search area configured to display a menu item group of indexes, prompt selection of the menu item, and return the selected menu item as a search condition.
  • a search screen generation unit that generates a search screen including a drill-down search area configured to display a menu item group of indexes, prompt selection of the menu item, and return the selected menu item as a search condition.
  • It has a search screen distribution part which transmits the generated search screen to the user terminal of the user who browses the page document.
  • the search screen generation unit searches the index database for a document that includes the returned search condition menu item in the index, and includes a search result list that is a list of searched documents in the search screen.
  • the document sharing system (9) determining a location for storing the received original document file, and having an original document storage unit for storing the received original document file in the determined original document location;
  • the page document generation unit includes the original document location in each page document information,
  • the index table generation unit includes, for each page document information, an original document location to which a page designation for displaying the page is added, in the index,
  • the search screen generation unit is configured to configure the search screen so that, when a document in a search result list is selected, an original document location with a page designation is accessed as a link destination.
  • the index table generation unit converts the description page number of the page included in the page range of the table of contents information into a page number on the document structure, and adds the converted component page number as a page designation.
  • the index table generation unit calculates the constituent page number by adding the difference page number between the constituent page and the description page to the description page number.
  • the document sharing system (10) having an entry data reception unit for receiving a notation page start position which is a page number on the structure corresponding to the first page of notation;
  • the index table generation unit obtains the difference page number by subtracting 1 from the notation page start position.
  • the document sharing system (11) having an entry data reception unit for receiving the difference page number;
  • the index table generation unit uses the received difference page number.
  • the page document generation unit generates a page document file obtained by dividing the page as a document file from the original document file for each page included in the original document
  • the search screen generation unit acquires body text from a page document file and sets the acquired body text in a document list.
  • the page document generation unit uses a headline title as a tag.
  • the page document generation unit uses a heading number as a tag.
  • the program according to the present invention is: (1) A user who registers the page document, wherein a computer serving as a document sharing system that can be connected to a user terminal of a user who registers a page document into which the original document is divided is executed.
  • Original document reception procedure for receiving an original document file having a table of contents information including a heading of the original document classification and a page range of the classification from the terminal
  • a table of contents acquisition procedure for acquiring table of contents information from the received original document file
  • a page document generation procedure for determining the heading of the category to which the page belongs based on the table of contents information and generating page document information including the heading as a tag
  • Page document information Document information storage procedure for storing (5) For each page document information, an index table for generating an index including a tag included in the page document information as a menu item used for a drill-down search of the document. Bull generation procedure.
  • the table of contents information included in an electronic document such as PDF is used, and a heading tag related to a section such as a chapter or a section is used as a menu item of a menu used for a drill-down search of a page document divided into pages. Therefore, tagging for new documents can be automated and utilized for structural searches. As a result, the tagging effort is reduced, and objective and unified tagging independent of the subjectivity of the document creator or document viewer is realized.
  • FIG. 1 is a diagram showing a network configuration (part 1) according to the present invention.
  • An example (Saas form) in which a document sharing system is provided outside a company (an example of an organization that shares documents) is shown.
  • the document sharing system according to the present invention includes a document management server 101, a search server 102, and a shared file server 103.
  • the document management server 101 creates and browses documents, registers an index table in the search server 102, and the like.
  • the search server 102 performs a high-speed search using the index table and plays a role of guiding a user to desired document information.
  • the shared file server 103 is a server that stores a shared document file.
  • the document management server 101, the search server 102, and the shared file server 103 are connected by a system network (for example, LAN) in the document sharing system.
  • the document management server 101, the search server 102, and the shared file server 103 are connected to the Internet via a system network.
  • the user terminal 104 is a terminal used by a user who registers and browses a shared document, and is connected to an internetwork via a corporate network (for example, a LAN). Accordingly, the user terminal 104 is configured to be able to access the document management server 101, the search server 102, and the shared file server 103.
  • the user terminal 104 has a browser, and can communicate with the document management server 101, the search server 102, and the shared file server 103 via the browser.
  • the user terminal 104 may be used as a user who registers a document or may be used as a user who browses a document.
  • FIG. 2 is a diagram showing a network configuration (part 2) according to the present invention.
  • the document management server 101, search server 102, shared file server 103, and user terminal 104 are connected to a corporate network (for example, a LAN).
  • the user terminal 104 can communicate with the document management server 101, the search server 102, and the shared file server 103 via a browser as in the Saas form.
  • Cooperation among the document management server 101, the search server 102, and the shared file server 103 is also performed through the corporate network.
  • the shared file server 103 can be omitted.
  • the original document file to be divided is transferred, and the document management server 101 registers, as shared information, a page document obtained by dividing the original document into pages based on the table of contents information included in the original document file.
  • the original document file is an electronic document including table of contents information. For example, a PDF: Portable Document Format document file is used.
  • FIG. 3 is a diagram showing a data flow related to document registration.
  • the document management server 101 receives a document creation start from the user terminal 104, it returns a document type selection screen.
  • the document type selection screen is configured to select a document type such as a manual page or a test specification page.
  • the manual page is a document composed of manual pages
  • the test specification page is a document composed of test specification pages.
  • a document type designation (including a document type ID) is transmitted from the user terminal 104, and the document management server 101 returns a page document input form screen corresponding to the document type.
  • the page document input form screen is configured to prompt input of entry data for each item, further prompt input of the original document file, and reply. At that time, the document type ID is also returned.
  • FIG. 4 is a diagram showing the configuration of the document management server related to the start of document registration.
  • the document management server 101 includes a document type selection screen distribution unit 401, a document type selection screen storage unit 402, a page document input form screen distribution unit 403, a page document input form screen storage unit 404, and a tag table 405. Subsequently, processing by these modules will be described.
  • FIG. 5 is a diagram showing a document type selection screen distribution processing flow.
  • the document type selection screen distribution unit 401 waits for reception of the document creation start (S501) and receives the document creation start from the user terminal 104
  • the document type selection screen storage unit 402 stores the document type selection screen stored in the document type selection screen storage unit 402. Is returned to the transmitting user terminal 104 (S502).
  • the document type selection screen is configured to display a list of document types, prompt selection of the document type, and return a document type specification including the ID of the selected document type to the document management server 101 by clicking or the like. .
  • the user terminal 104 displays this screen on the browser and accepts selection of the document type created by the user.
  • the document creation start and the document type designation are respectively predetermined URLs, and the document type ID is added to the URL as a parameter.
  • FIG. 6 is a diagram showing page document input form screen distribution processing.
  • the page document input form screen distribution unit 403 waits for the reception of the document type designation (S601) and receives the document type designation from the user terminal 104, the page document input form screen distribution unit 403 inputs the page document corresponding to the document type ID included in the document type designation.
  • the form screen is read from the page document input form screen storage unit 404 and sent back to the user terminal 104 that has sent the form screen (S602).
  • the page document input form screen is provided with a character code input field for an item to be entered or tag selection means in accordance with the document data structure for each document type.
  • a file designating unit for designating a file that can be read by the user terminal 104 as an original document is provided.
  • a file designated by the file designation means is read as an original document file and transferred to the document management server 101.
  • FIG. 7 is a diagram showing a page document input form screen for manual pages.
  • entry items such as a document title, a theme, an original document file, and a notation page start position are provided.
  • the creator specifies from the user ID at the time of login and is set in advance, but the user may input a code or select a tag.
  • a character code can be freely input for the document title.
  • the theme is configured to select a preset tag name.
  • Tag names are displayed in a pull-down list. When a tag is selected, a tag ID is returned. When the document management server 101 specifies the tag ID from the tag name, the tag name may be returned.
  • the original document file is designated from a directory in a drive in the user terminal 104 or a directory in a server connected to the corporate network.
  • the notation page start position is the component page where the notation page starts.
  • the written page is a page written in the document, that is, a page for user recognition guided in the table of contents.
  • the component page is a page managed as an electronic document, that is, an actual page that can be displayed or printed.
  • the notation page start position means the number of constituent pages corresponding to the first page of the notation page. For example, if the cover page is 1, the foreword is 1 page, the table of contents is 1 page, and the text is 10 pages, the total number of pages is 10 and the number of constituent pages is 13 pages.
  • the notation page start position is page 4. 1 is added to the number of pages before the text.
  • the number of pages before the text may be input, and 1 may be added to obtain the notation page start position. If there is no previous page of the text and the notation page matches the constituent page, it may be omitted. Also, the case where the correspondence between the notation page and the constituent page can be calculated from the management information of the original document can be omitted.
  • the designated original document file and document type ID are also transmitted.
  • the document type ID can be specified on the document management server 101 side, the document type ID can be omitted.
  • FIG. 8 is a diagram showing a document type management table. For each document type, a record that associates the document type ID 801, the document type name 802, and the fields of the page document input form screen 803 is provided.
  • FIG. 9 is a diagram showing a tag table. For each tag, a record for associating the fields of tag ID 901, tag type 902, and tag name 903 is provided. A tag ID 901 is unique for a combination of a tag type 902 and a tag name 903. The page document input form in the page document input form screen storage unit 404 is set to match the information in the tag table 405. Alternatively, the page document input form screen distribution unit 403 is set to match. A header code and a header title, which will be described later, are also registered as a header code tag and a header title tag.
  • FIG. 10 is a diagram showing the configuration of the document management server related to the page document registration process.
  • the document management server 101 includes an entry data reception unit 1001, an original document reception unit 1002, an original document storage unit 1003, a table of contents acquisition unit 1005, a table of contents storage unit 1006, a page document generation unit 1007, and a page document storage unit. 1008, a document data structure storage unit 1009, and a document management server 1010.
  • the original document storage unit 1004 is assumed to be provided in the shared file server 103, it can also be provided in the document management server 101.
  • FIG. 11 is a diagram showing a page document registration process flow.
  • the entry data receiving unit 1001 receives entry data and a document type ID from the user terminal 104 while waiting for reception of entry data and a document type ID (S1101).
  • the original document file is received.
  • the original document storage unit 1003 stores the received original document file in a predetermined position (server, drive, directory) of the original document storage unit 1004 with a predetermined file name.
  • FIG. 12 shows the original document storage processing flow.
  • the original document location in the original document storage unit 1004 is determined (S1201), and the original document file is stored in the original document location (S1202).
  • the original document file name is changed to a management file name, but the original document file name may be used as long as there is no duplication.
  • the table of contents acquisition unit 1005 acquires table of contents information from the original document file in the table of contents acquisition process (S1104).
  • FIG. 13 is a diagram showing a table of contents acquisition processing flow.
  • the original document file is read from the original document location (S1301), and the table of contents information is specified from the original document file (S1302).
  • the table of contents information may be a part of the document information (for example, a predetermined configuration page), or a system that is held as management information.
  • the procedure for acquiring the table of contents information depends on the storage method of the configuration of the electronic file and the document editing rules. Then, for each heading, the heading number, the heading title, and the description page range are associated with each other and stored in the table of contents storage unit 1006 (S1303).
  • FIG. 14 is a diagram showing an example of the table of contents information (XP service manual) of the original document.
  • the heading number is a character code for identifying the constituent part (document classification) by the user, and is generally expressed by a chapter, a section, an item, an eye, or the like.
  • the headline title is a character code indicating the content and purpose of the component.
  • the range of the description page is a start page and an end page of the range included in the constituent parts.
  • the page document generation unit 1007 divides the original document to generate a page document file and registers document information for management.
  • the page document file is not information for the user to browse but information for generating an index by the search server 102.
  • the user is configured to browse each page of the original document file in the original document storage unit 1004.
  • FIG. 15 is a diagram showing a page document generation processing flow.
  • a description page is specified from the table of contents information, and the following processing is repeated for each description page (S1501).
  • a new registered document ID is assigned and set in the document information (S1502).
  • a common item setting process S1503
  • a page-specific item setting process S1504
  • FIG. 16 is a diagram illustrating a document data structure of a manual page.
  • the document type ID has information on a plurality of document items. Each item associates a document item ID, a document item name, a document item type, and a text text flag.
  • the document item ID is unique for the item in the document, and the document item name is used for identifying the contents of the item and displaying the screen.
  • the document item type defines a data format.
  • the name tag and the theme tag are tags and define the tag type.
  • the body text flag is set so that an item to be body text displayed in the search result list is distinguished as ON.
  • the document item information is divided into items common to each page and items different for each page.
  • FIG. 17 is a diagram illustrating an example (first page) of document information of a manual page.
  • FIG. 18 is a diagram illustrating an example (third page) of document information of a manual page.
  • These are page documents generated from a common original document file.
  • a creation date and an update date are stored as properties.
  • document item data is stored for each document item ID.
  • the received tag ID is stored.
  • the document generation unit 1007 specifies a tag ID corresponding to the tag name based on the tag table 405.
  • the character string stores the received character code.
  • the original document file storage location original document storage unit 1004
  • the page document location storage location page document storage unit 1008 is stored in the page document location.
  • FIG. 19 is a diagram showing a common item setting process flow.
  • the document type ID is specified and set in the document information (S1901)
  • the property is acquired and set in the document information (S1902).
  • the entry data corresponding to the creator's item is specified (S1903).
  • the entry data is written in this creator item of the document information (S1904).
  • the entry data is a tag ID of a person name.
  • entry data corresponding to the document title item is specified (S1905).
  • the entry data is written in the document title item of the document information (S1906).
  • the entry data is a character code.
  • the original document location is acquired from the original document storage unit 1003 (S1907), and the original document location is written in the item of the document information (S1908). Entry data corresponding to other items included in the document data structure corresponding to the document type ID is specified (S1909). It is an item after IT04. The entry data is written in the item of the document title of the document information (S1910).
  • FIG. 20 is a diagram showing a page-specific item setting process flow.
  • the number of difference pages is obtained by subtracting 1 from the notation page start position.
  • the number of difference pages corresponds to the number of pages before the text.
  • the difference page number is added to the description page number, and the corresponding constituent page number is specified (S2001).
  • the page document location is determined (S2002).
  • a configuration page is added to the end of the file name.
  • the constituent pages of the original document file are copied to generate a page document file at the page document location (S2003). At this time, the previously determined file name is used. Then, the description page, configuration page, and page document location of the document information are written in each item (S2004).
  • entry data corresponding to the item of the heading number included in the document data structure corresponding to the document type ID is specified (S2005).
  • IT14 The heading number of the page is obtained from the table of contents information and written in the heading number item of the document information (S2006).
  • the tag name that matches the heading number is searched from the tag table 405, the corresponding tag ID is specified, and the tag ID is written.
  • entry data corresponding to the heading title item included in the document data structure corresponding to the document type ID is specified (S2007).
  • IT15 The entry data is written in the heading title item of the document information (S2008).
  • the tag name that matches the heading title is searched from the tag table 405, the corresponding tag ID is specified, and the tag ID is written.
  • FIG. 21 is a diagram showing a configuration of a document management server related to index registration.
  • the document management server 101 includes an index table generation unit 2101, a menu tag correspondence table 2102, an index table storage unit 2103, and an index generation command activation. Part 2104.
  • the index table generation unit 2101 generates an index table for the registered document.
  • the index table generation unit 2101 may be configured to be activated in conjunction with document registration, or may be configured to process a group of documents by batch processing.
  • FIG. 22 is a diagram showing an index table.
  • the document title 2201, creator 2202, creation date 203, body text source 2204, first menu item (field) 2206, second menu item (section number) 2207, third menu item (section title) 2208, a fourth menu item (personnel) 2209, a location 2210, a configuration page 2211, and a description page 2212 are associated with the record.
  • the document title 1701 and the body text 1704 are displayed as a search result list and a search area for keyword search.
  • the menu item is a selection candidate belonging to the menu (field, section number, section title, personnel, etc.).
  • the character code string is set.
  • the location indicates location information accessed during document display.
  • the configuration page is specified after the file name. That is, the position of the constituent page in the original document is designated. As a result, the page is directly displayed on the browser. Although omitted in this example, it is also effective to include the update date and time.
  • FIG. 23 is a diagram showing an index registration processing flow.
  • the index table generation unit 2101 identifies unregistered document information from the document management server 1010, and repeats the following processing for each unregistered document information (S1801).
  • Unregistered methods include a method of determining a document having a creation date or an update date since the previous index registration process, or a method of determining by turning on a creation / update flag at the time of creation / update. Not only unregistered documents but all documents may be targeted.
  • the index table generation unit 2101 performs processing for generating additional records in the index table storage unit 2103 (S2302) for all document information (S2303). Then, the index generation command starting unit 2104 transfers the index table in the index table storage unit 2103 to the search server 102 together with the index generation command by the index generation command starting process (S2304).
  • FIG. 24 is a diagram showing a record generation processing flow.
  • the document title is read from the document information of the document management server 1010, the creator is read, the creation date is read, and each is written in the index record (S2401 to S2403).
  • the tag ID of the document item data is converted into a tag name using the tag table 405.
  • the item of the body text flag ON of the document information is specified (S2404), and the data of the item is written in the body text (S2405).
  • the tag type corresponding to the menu is specified (S2407), the document item whose document item type is the tag type is specified (S2408), and the data of the document item is stored in the menu.
  • the item is written (S2409).
  • FIG. 25 is a diagram showing a menu tag correspondence table.
  • a tag type 2501 and a drill-down item ID 2502 are associated with each drill-down item.
  • the document item is specified based on the document data structure storage unit 1009 (FIG. 14) (S2408). For example, in the document data structure corresponding to the document type ID, the item whose document item type is a theme tag, the item whose document item type is a header code tag, the item whose document item type is a header title tag, and the document item type is The item which is a person name tag is determined.
  • the tag ID is converted into a tag name using the tag table 405 (S2409).
  • a delimiter code for example, a blank code
  • FIG. 26 is a diagram illustrating a configuration of a search server related to search screen distribution.
  • the search server 102 includes an index generation unit 2601, an index database 2602, a search screen distribution unit 2603, and a search screen generation unit 2604.
  • the index generation unit 2601 When receiving the index generation command from the document management server 101, the index generation unit 2601 reads the received index table and additionally registers it in the index database 2602. Duplicate existing documents are deleted.
  • the index database 2602 is configured to hold index information for each document while maintaining the correspondence between the fields of the index table. At this time, the page document location set in the document text source of the index is accessed, the page document file is acquired, and the body text is extracted from the page document file. Then, the extracted body text is held as an index.
  • FIG. 27 is a diagram showing a search screen distribution processing flow.
  • the search screen distribution unit 2603 receives the search request (search URL indicating the search server 102) from the user terminal 104 of the user browsing the document while waiting for the search request (S2701), the search screen generation unit 2604 A search screen is generated (S2702), and the search screen is returned to the user terminal 104 that has transmitted the search request (S2703).
  • FIG. 28 is a diagram showing a search screen.
  • the drill-down search area On the left is the drill-down search area.
  • the upper right is the keyword search area.
  • the lower right is the search result list display area.
  • the drill-down search area displays, for each menu, a menu item included in the menu in a state where an instruction operation (clicking) is possible.
  • the number of documents corresponding to the menu item is added to the menu item.
  • the search result list display area the document title of the searched document is displayed in a state where it can be instructed (clicked), and the head part (predetermined number of characters range) of the body text is displayed.
  • FIG. 29 is a diagram showing an example of the table of contents information (XP normal test collection) of the original document.
  • FIG. 29 is a diagram showing a search screen creation process flow. Drill-down search area generation processing (S2901) and search result list generation processing (S2902) are performed.
  • FIG. 31 is a diagram showing a drill-down search area generation processing flow. The following processing is repeated for each menu (S3101). A menu item included in the menu is specified (S3102). The menu items of the index group in the menu tag correspondence table 2102 are read, and the menu items are sequentially specified without duplication and omission. For each menu item, the number of documents including the menu item is counted (S3103). When all the menus are processed (S3104), for each menu again (S3105), first, menu names are arranged (S3106). Subsequently, the menu items are sorted in descending order of the number of documents (S3107), and according to the order, the menu item name and the number of documents are arranged for each menu item (S3108).
  • a search request URL pointing to the search server 102 is set as a link destination to be accessed when the menu item is instructed (clicked) on the browser.
  • a menu item (information that can identify a menu item such as a menu item name or menu item number) is added as a parameter to the search request URL (S3109). When all menus have been processed, the process ends (S3110).
  • FIG. 32 is a diagram showing a search result list generation processing flow. If there is a menu item parameter in the search request URL at the time of access, the following processing is performed (S3201). If there is a keyword parameter, the keyword search is performed. If there is no parameter, the search is not performed.
  • the document including the menu item is searched from the index database 2602 (S3202), and the following processing is repeated for each searched document (S3203).
  • a document title and a description page are arranged (S3204), and a location included in the index is set as a link destination to be accessed when the document title is instructed (clicked) on the browser (S3205).
  • the body text is arranged within a predetermined range (S3206). Repeat until the limit of the number of displayed documents is reached (S3207). The limit is determined by the display area and the number of displayed documents.
  • a location indicating the original document storage unit 1004 is accessed.
  • the shared file server 103 is assumed.
  • the shared file server 103 delivers a screen displaying the document page to the user terminal 104 in response to the document display request by this access.
  • the document management server 101, the search server 102, the shared file server 103, and the user terminal 104 are computers, and each element can execute processing by a program. Further, the program can be stored in a storage medium so that the computer can read the program from the storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】元文書を分割して頁の文書を登録する際に、目次情報に含まれる見出しを自動的にタグに用いることにより、広範囲に漏れなく標準的なタグを付与し、ドリルダウン検索の効率を高めることを課題とする。 【解決手段】PDFなどの電子ドキュメントに含まれる目次情報を活用して、頁に分割された頁文書のドリルダウン検索に用いるメニューのメニュー項目として章や節などの区分に係る見出しのタグを用いる。章節番号は、見出しコードのタグをメニュー項目に用い、章節標題は、見出しタイトルのタグをメニュー項目に用いている。検索結果リストでは、頁文書のタイトルとともに、元文書中の表記頁も表示する。

Description

文書共有システム
 本発明は、複数の利用者が共有する元文書を頁文書に分割し、目次情報に基づいて頁文書のドリルダウン検索に用いるタグ付けを行う技術に関する。
 特許文献1には、タグクラウド(tag cloud)を用いたコンテンツ推薦装置及び方法が開示されている。
 この例で、ネットワークを通じてコンテンツ推薦サービスを提供するコンテンツ推薦サーバは、各コンテンツに付与されたタグを分析することにより、タグクラウドを構築している。ここで用いられるタグは、使用者がコンテンツに対して直接付与することを前提としている。
 このように、コンテンツの検索などに使われるタグは、利用者が意識的に設定することが一般的である。
 しかし、利用者がタグを自身で判断して設定することに対して煩雑であると感じている場合も多く、多くの利用者が共有する文書に対して遍くタグ付けを行うことは、必ずしも容易ではない。
 また、利用者毎にタグの適性に対する判断が異なるため、標準的なタグに統一することは困難であり、構造的な検索において安定的な運用が図られにくい。
特開2009-129458号公報
 元文書を分割して頁の文書を登録する際に、目次情報に含まれる見出しを自動的にタグに用いることにより、広範囲に漏れなく標準的なタグを付与し、ドリルダウン検索の効率を高めることを課題とする。
 本願発明に係る文書共有システムは、
 元文書を分割した頁文書を登録する利用者の利用者端末と接続可能な文書共有システムであって、以下の要素を有することを特徴とする
(1)前記頁文書を登録する利用者端末から、元文書の区分の見出しと、当該区分の頁範囲を含む目次情報を有する元文書ファイルを受信する元文書受信部
(2)受信した元文書ファイルから、目次情報を取得する目次取得部
(3)元文書に含まれる頁毎に、目次情報に基づいて当該頁が属する区分の見出しを判定し、当該見出しをタグとして含める頁文書情報を生成する頁文書生成部
(4)頁文書情報を記憶する文書情報データベース
(5)頁文書情報毎に、頁文書情報に含まれるタグを文書のドリルダウン検索に用いるメニュー項目として含むインデクスを生成するインデクス用テーブル生成部。
 また、
 文書共有システムは、頁文書を閲覧する利用者の利用者端末と接続可能であって、更に(6)頁文書毎のインデクスを記憶するインデクスデータベースと、
(7)インデクスのメニュー項目群を表示し、メニュー項目の選択を促し、選択されたメニュー項目を検索条件として返信するように構成されたドリルダウン検索領域を含む検索画面を生成する検索画面生成部と、
(8)生成した検索画面を、前記頁文書を閲覧する利用者の利用者端末に送信する検索画面配信部を有することを特徴とする。
 また、
 前記検索画面生成部は、返信された検索条件のメニュー項目をインデクスに含む文書をインデクスデータベースから検索し、検索した文書一覧である検索結果リストを検索画面に含めることを特徴とする。
 また、
 文書共有システムは、更に、
(9)受信した元文書ファイルを格納するロケーションを決定し、決定した元文書ロケーションに受信した元文書ファイルを格納する元文書格納部を有し、
 前記頁文書生成部は、元文書ロケーションを各頁文書情報に含め、
 前記インデクス用テーブル生成部は、頁文書情報毎に、当該頁を表示する頁指定を付加した元文書ロケーションをインデクスに含め、
 前記検索画面生成部は、検索結果リスト中の文書が選択された場合に、頁指定を付加した元文書ロケーションをリンク先としてアクセスするように検索画面を構成することを特徴とする。
 また、
 前記インデクス用テーブル生成部は、目次情報の区分の頁範囲に含まれる当該頁の記述頁番号を、文書構成上の頁番号に変換し、変換した構成頁番号を頁指定として付加することを特徴とする。
 また、
 前記インデクス用テーブル生成部は、記述頁番号に構成頁と記述頁の差分頁数を加えて、構成頁番号を算出することを特徴とする。
 また、
 文書共有システムは、更に、
(10)表記上の1頁目に相当する構成上の頁番号である表記頁開始位置を受信する記入データ受付部を有し、
 前記インデクス用テーブル生成部は、表記頁開始位置から1を引いて差分頁数を求めることを特徴とする。
 また、
 文書共有システムは、更に、
(11)差分頁数を受信する記入データ受付部を有し、
 前記インデクス用テーブル生成部は、受信した差分頁数を用いることを特徴とする。
 また、
 前記頁文書生成部は、元文書に含まれる頁毎に、元文書ファイルから当該頁を文書ファイルとして分割した頁文書ファイルを生成し、
 前記検索画面生成部は、頁文書ファイルから本文テキストを取得し、取得した本文テキストを文書一覧に設定することを特徴とする。
 また、
 前記頁文書生成部は、見出しタイトルをタグとすることを特徴とする。
 また、
 前記頁文書生成部は、見出し番号をタグとすることを特徴とする。
 本願発明に係るプログラムは、
 元文書を分割した頁文書を登録する利用者の利用者端末と接続可能な文書共有システムとなるコンピュータに、以下の手順を実行させることを特徴とする
(1)前記頁文書を登録する利用者端末から、元文書の区分の見出しと、当該区分の頁範囲を含む目次情報を有する元文書ファイルを受信する元文書受信手順
(2)受信した元文書ファイルから、目次情報を取得する目次取得手順
(3)元文書に含まれる頁毎に、目次情報に基づいて当該頁が属する区分の見出しを判定し、当該見出しをタグとして含める頁文書情報を生成する頁文書生成手順
(4)頁文書情報を記憶する文書情報記憶手順
(5)頁文書情報毎に、頁文書情報に含まれるタグを文書のドリルダウン検索に用いるメニュー項目として含むインデクスを生成するインデクス用テーブル生成手順。
 本願発明では、PDFなどの電子ドキュメントに含まれる目次情報を活用して、頁に分割された頁文書のドリルダウン検索に用いるメニューのメニュー項目として章や節などの区分に係る見出しのタグを用いるので、新規文書に対するタグ付けを自動化し、構造的な検索に活用することができる。これにより、タグ付けの労力が軽減されるとともに、文書作成者や文書閲覧者の主観に依存しない、客観的かつ統一的なタグ付けが実現される。
 特に、見出しタグで検索された頁文書をまとめて閲覧できるので、所望のテーマに関して、複数の文書を横断的に閲覧できるという利点を有する。
本願発明に係るネットワーク構成(その1)を示す図である。 本願発明に係るネットワーク構成(その2)を示す図である。 文書登録に係るデータフローを示す図である。 文書登録開始に係る文書管理サーバの構成を示す図である。 文書種別選択画面配信処理フローを示す図である。 頁文書入力フォーム画面配信処理フローを示す図である。 マニュアル頁の頁文書入力フォーム画面を示す図である。 文書種別管理テーブルを示す図である。 タグテーブルを示す図である。 頁文書登録処理に係る文書管理サーバの構成を示す図である。 頁文書登録処理フローを示す図である。 元文書格納処理フローを示す図である。 目次取得処理フローを示す図である。 元文書の目次情報の例(XPサービスマニュアル)を示す図である。 頁文書生成処理フローを示す図である。 マニュアル頁の文書データ構造を示す図である。 マニュアル頁の文書情報の例(1ページ目)を示す図である。 マニュアル頁の文書情報の例(3ページ目)を示す図である。 共通項目設定処理フローを示す図である。 頁別項目設定処理フローを示す図である。 インデクス登録に係る文書管理サーバの構成を示す図である。 インデクス用テーブルを示す図である。 インデクス登録処理フローを示す図である。 レコード生成処理フローを示す図である。 メニュータグ対応表を示す図である。 検索画面配信に係る検索サーバの構成を示す図である。 検索画面配信処理フローを示す図である。 検索画面を示す図である。 元文書の目次情報の例(XP正常テスト集)を示す図である。 検索画面生成処理フローを示す図である。 ドリルダウン検索領域生成処理フローを示す図である。 検索結果リスト生成処理フローを示す図である。
 図1は、本願発明に係るネットワーク構成(その1)を示す図である。企業(文書を共有する組織の例)外に、文書共有システムを設ける例(Saas形態)を示している。本願発明に係る文書共有システムは、文書管理サーバ101と検索サーバ102と共有ファイルサーバ103から構成されている。文書管理サーバ101は、文書の作成、閲覧、検索サーバ102へのインデクステーブルの登録などを行なう。検索サーバ102は、インデクステーブルを用いて、高速の検索を行い、所望の文書情報へ利用者を導く役割を担っている。共有ファイルサーバ103は、共有文書ファイルを記憶するサーバである。文書管理サーバ101と検索サーバ102と共有ファイルサーバ103は、文書共有システム内のシステムネットワーク(例えば、LAN)により接続されている。また、文書管理サーバ101と検索サーバ102と共有ファイルサーバ103は、システムネットワークを介してインターネットに接続している。利用者端末104は、共有文書を登録し、閲覧する利用者が使用する端末であり、企業ネットワーク(例えば、LAN)を介してインターネットワークに接続している。これにより、利用者端末104は、文書管理サーバ101と検索サーバ102と共有ファイルサーバ103にアクセスすることができるように構成されている。利用者端末104は、ブラウザを有しており、ブラウザを介して文書管理サーバ101と検索サーバ102と共有ファイルサーバ103通信とを行うことができる。セキュリティの観点からは、インターネットを介する通信データは、送信側で暗号化され、受信側で復号して用いることが望ましい。利用者端末104は、文書を登録する利用者として使用する場合と、文書を閲覧する利用者として使用する場合がある。
 Saas(サース)の形態以外に、企業内に文書共有システムを設けることもできる。図2は、本願発明に係るネットワーク構成(その2)を示す図である。文書管理サーバ101、検索サーバ102、共有ファイルサーバ103、及び利用者端末104は、企業ネットワーク(例えば、LAN)に接続されている。この例では、イントラネットを前提とし、利用者端末104は、Saas形態と同様にブラウザを介して文書管理サーバ101と検索サーバ102と共有ファイルサーバ103と通信を行うことができる。文書管理サーバ101と検索サーバ102と共有ファイルサーバ103の間の連携も企業ネットワークを介して行われる。
 いずれのネットワーク構成でも、文書管理サーバ101又は検索サーバ102が、共有ファイルを記憶する場合には、共有ファイルサーバ103を省略することができる。
 まず、利用者端末104から文書管理サーバ101に頁文書を登録する動作について説明する。分割対象となる元文書ファイルを転送し、文書管理サーバ101で元文書ファイルに含まれる目次情報に基づいて、元文書を各頁に分割した頁文書を共有情報として登録する。元文書ファイルは、目次情報を含む電子ドキュメントである。例えば、PDF:ポータブル・ドキュメント・フォーマットの文書ファイルが用いられる。
 図3は、文書登録に係るデータフローを示す図である。文書管理サーバ101、は利用者端末104から文書作成開始を受信すると、文書種別選択画面を返信する。文書種別選択画面は、マニュアル頁、テスト仕様頁などの文書種別を選択するように構成されている。マニュアル頁は、マニュアルの頁からなる文書であり、テスト仕様頁は、テスト仕様の頁からなる文書である。利用者端末104から文書種別指定(文書種別IDを含む)を送信し、文書管理サーバ101は、文書種別に応じた頁文書入力フォーム画面を返信する。頁文書入力フォーム画面は、項目毎に記入データの入力を促し、更に元文書ファイルの入力を促し、返信するように構成されている。その際、文書種別IDも返信する。
 図4は、文書登録開始に係る文書管理サーバの構成を示す図である。文書管理サーバ101は、文書種別選択画面配信部401、文書種別選択画面記憶部402、頁文書入力フォーム画面配信部403、頁文書入力フォーム画面記憶部404、及びタグテーブル405を有している。続いて、これらのモジュールによる処理を説明する。
 図5は、文書種別選択画面配信処理フローを示す図である。文書種別選択画面配信部401は、文書作成開始の受信を待つ状態で(S501)、利用者端末104から文書作成開始を受信すると、文書種別選択画面記憶部402に記憶している文書種別選択画面を読み出して、送信してきた利用者端末104に返信する(S502)。文書種別選択画面は、文書種別のリストを表示し、文書種別の選択を促し、クリックなどにより選択された文書種別のIDを含む文書種別指定を文書管理サーバ101に返信するように構成されている。この画面を受信した利用者端末104は、ブラウザ上にこの画面を表示して、利用者が作成する文書種別の選択を受け付ける。例えば、文書作成開始と文書種別指定は、それぞれ所定のURLであり、文書種別IDは、パラメータとしてそのURLに付加さている。
 図6は、頁文書入力フォーム画面配信処理を示す図である。頁文書入力フォーム画面配信部403は、文書種別指定の受信を待つ状態で(S601)、利用者端末104から文書種別指定を受信すると、文書種別指定に含まれる文書種別IDに対応する頁文書入力フォーム画面を頁文書入力フォーム画面記憶部404から読み出して、送信してきた利用者端末104に返信する(S602)。頁文書入力フォーム画面は、文書種別毎にその文書データ構造に従って、記入する項目の文字コード入力欄、あるいはタグ選択手段を設けている。また、利用者端末104で読込み可能なファイルを元文書として指定するファイル指定手段を有している。ファイル指定手段で指定されたファイルが元文書ファイルとして読み込まれ、文書管理サーバ101に転送されるように構成されている。
 図7は、マニュアル頁の頁文書入力フォーム画面を示す図である。マニュアル頁の例では、作成者の他に、文書タイトル、テーマ、元文書ファイル、及び表記頁開始位置の記入項目を設けている。作成者は、ログイン時の利用者IDから特定して、予め設定しているが、利用者側で、コード入力あるいはタグ選択するようにしてもよい。文書タイトルは、自由に文字コードを入力することができる。テーマは、予め設定されているタグ名を選択するように構成されている。タグ名群はプルダウンで表示される。タグを選択した場合には、タグIDを返信するように構成されている。文書管理サーバ101で、タグ名からタグIDを特定する場合には、タグ名を返信するようにしてもよい。元文書ファイルは、利用者端末104内のドライブ内のディレクトリや、企業内ネットワークに接続されているサーバ内のディレクトリなどから指定する。
 表記頁開始位置は、表記頁が始まる構成頁のことである。表記頁は、文書で表記されている頁、つまり目次で案内している利用者認識のための頁である。構成頁は、電子ドキュメントとして管理している頁、つまり表示や印刷可能な現実の頁である。表記頁開始位置は、表記頁の1頁目が、構成頁の何頁に対応するかを意味する。例えば、表紙が1頁、前書きが1頁、目次が1頁、本文が10頁の場合には、表記頁数は、全部で10頁であり、構成頁数は、全部で13ページとなる。表記頁開始位置は、4頁である。本文前の頁数に1を加えた値となる。この例によらず、本文前の頁数を入力させて、1を加えて表記頁開始位置を求めても良い。本文前頁がなく、表記頁が構成頁と一致する場合には、省略しても構わない。また、元文書の管理情報から表記頁と構成頁の対応が算出できる場合も、省略できる。
 送信アイコンをクリックなどで指示することにより、これらの記入データを送信する。併せて、指定された元文書ファイルと文書種別IDも送信する。文書管理サーバ101側で文書種別IDを特定できる場合には、文書種別IDは省くこともできる。
 文書種別については、文書種別管理テーブルを設けることにより、管理が容易になる。図8は、文書種別管理テーブルを示す図である。文書種別毎に、文書種別ID801と、文書種別名802と、頁文書入力フォーム画面803のフィールドを対応付けるレコードを設けている。
 作成者は、人名タグとして予め登録されている。また、テーマもテーマタグとして予め設定されている。図9は、タグテーブルを示す図である。タグ毎に、タグID901と、タグタイプ902と、タグ名903のフィールドを対応付けるレコードを設けている。タグID901は、タグタイプ902とタグ名903の組合せに対して唯一である。頁文書入力フォーム画面記憶部404の頁文書入力フォームは、タグテーブル405の情報と一致するように設定されている。あるいは、頁文書入力フォーム画面配信部403で一致するように設定する。後述する見出しコードと見出しタイトルも、見出しコードタグと見出しタイトルタグとして登録される。
 図10は、頁文書登録処理に係る文書管理サーバの構成を示す図である。文書管理サーバ101は、タグテーブル405の他、記入データ受付部1001、元文書受信部1002、元文書格納部1003、目次取得部1005、目次記憶部1006、頁文書生成部1007、頁文書記憶部1008、文書データ構造記憶部1009、及び文書管理サーバ1010を有している。元文書記憶部1004は、共有ファイルサーバ103に設けることを想定しているが、文書管理サーバ101内に設けることも可能である。
 引き続き、文書登録の処理について説明する。図11は、頁文書登録処理フローを示す図である。記入データ受付部1001は、記入データと文書種別IDの受信を待つ状態で(S1101)、利用者端末104から記入データと文書種別IDを受信する(S1101)。
 続いて、元文書受信部1002の元文書受信処理で(S1102)、元文書ファイルを受信する。元文書格納部1003は、元文書格納処理(S1103)で、受信した元文書ファイルを元文書記憶部1004の所定の位置(サーバー、ドライブ、ディレクトリ)に所定のファイル名で記憶させる。図12は、元文書格納処理フローを示す図である。元文書記憶部1004内の元文書ロケーションを決定し(S1201)、元文書ファイルを元文書ロケーションに格納する(S1202)。通常は、元文書ファイル名を管理用のファイル名に改めるが、重複しなければ元文書ファイル名のままでもよい。
 目次取得部1005は、目次取得処理で(S1104)、元文書ファイルから目次情報を取得する。図13は、目次取得処理フローを示す図である。元文書ロケーションから元文書ファイルを読み込み(S1301)、元文書ファイルから目次情報を特定する(S1302)。目次情報は、文書情報の一部(例えば、所定の構成頁)である方式の他、管理情報として保持している方式もある。目次情報の取得手順は、電子ファイルの構成や、文書の編集ルールなどの格納方法に依存する。そして、見出し毎に、見出し番号と、見出しタイトルと、記述頁の範囲を対応付けて、目次記憶部1006に記憶する(S1303)。
 図14は、元文書の目次情報の例(XPサービスマニュアル)を示す図である。見出し番号は、構成部位(文書の区分)を利用者が識別する文字コードであり、一般には章、節、項、目などで表記される。見出しタイトルは、その構成部位の内容や趣旨を示す文字コードである。記述頁の範囲は、その構成部位にふくまれる範囲の開始頁と終了頁である。
 頁文書生成部1007は、頁文書生成処理で(S1105)、元文書を分割して頁文書ファイルを生成するとともに、管理用の文書情報を登録する。尚、頁文書ファイルは、利用者が閲覧するための情報ではなく、検索サーバ102でインデクスを生成するための情報である。利用者は元文書記憶部1004の元文書ファイルの各頁を閲覧するように構成される。
 図15は、頁文書生成処理フローを示す図である。目次情報から記述頁を特定して、記述頁毎に、以下の処理を繰り返す(S1501)。新規の登録文書IDを割り当て、文書情報に設定する(S1502)。続いて、共通項目設定処理(S1503)と頁別項目設定処理(S1504)を行い、すべての記述頁について処理した時点で終了する(S1505)。
 共通項目と頁別項目は、文書データ構造に定義されている。図16は、マニュアル頁の文書データ構造を示す図である。文書種別IDに対して、複数の文書項目の情報を有している。各項目は、文書項目IDと、文書項目名と、文書項目型と、本文テキストフラグを対応付けている。文書項目IDは、文書内の項目について唯一であり、文書項目名は、項目の内容を識別するとともに画面の表示などに用いられる。文書項目型は、データ形式を定めている。人名タグやテーマタグは、タグであることと、タグの種類を定めている。本文テキストフラグは、検索結果リストで表示する本文テキストとなる項目をONとして区別するように設定されている。文書項目の情報は、各頁で共通の項目と、頁毎に異なる項目に分かれている。
 生成される文書情報の例を示す。図17は、マニュアル頁の文書情報の例(1ページ目)を示す図である。図18は、マニュアル頁の文書情報の例(3ページ目)を示す図である。これらは、共通の元文書ファイルから生成された頁文書である。ヘッダには、登録文書IDと文書種別IDの他、プロパティとして作成日時や更新日時が記憶されている。また、各文書項目IDに対して、文書項目データを記憶している。タグの項目では、受信したタグIDを記憶している。記入データとしてタグ名を受信する場合には、文書生成部1007でタグテーブル405に基づいてタグ名に対応するタグIDを特定する。文字列は、受信した文字コードが格納される。元文書ロケーションには、元文書ファイルの格納位置(元文書記憶部1004)が記憶され、頁文書ロケーションには、頁文書ファイルの格納位置(頁文書記憶部1008)が記憶される。
 共通項目設定処理(S1503)について詳述する。図19は、共通項目設定処理フローを示す図である。文書種別IDを特定して、文書情報に設定し(S1901)、プロパティを取得して、文書情報に設定する(S1902)。作成者の項目に対応する記入データを特定する(S1903)。そして、記入データを文書情報のこの作成者項目に書き込む(S1904)。このとき、記入データは人名のタグIDである。次に、文書タイトルの項目に対応する記入データを特定する(S1905)。記入データを文書情報の文書タイトルの項目に書き込む(S1906)。記入データは、文字コードである。元文書格納部1003から元文書ロケーションを取得し(S1907)、元文書ロケーションを文書情報の当該項目に書き込む(S1908)。文書種別IDに対応する文書データ構造に含まれるその他の項目に対応する記入データを特定する(S1909)。IT04以降の項目である。記入データを文書情報の文書タイトルの当該項目に書き込む(S1910)
 頁別項目設定処理(S1504)について詳述する。図20は、頁別項目設定処理フローを示す図である。表記頁開始位置から1引いて、差分頁数を求める。差分頁数は本文前の頁数に相当する。記述頁番号に差分頁数を加えて、対応する構成頁番号を特定する(S2001)。また、頁文書ロケーションを決定する(S2002)。この例では、ファイル名の末尾に、構成頁を加えている。元文書ファイルの構成頁をコピーして頁文書ロケーションに頁文書ファイルを生成する(S2003)。このとき、先に決定したファイル名が用いられる。そして、文書情報の記述頁、構成頁、頁文書ロケーションを各項目に書き込む(S2004)。更に、文書種別IDに対応する文書データ構造に含まれる見出し番号の項目に対応する記入データを特定する(S2005)。この例では、IT14である。当該頁の見出し番号を目次情報から取得し、文書情報の見出し番号の項目に書き込む(S2006)。このとき、タグテーブル405から見出し番号と一致するタグ名を検索し、対応するタグIDを特定し、タグIDを書き込む。また、文書種別IDに対応する文書データ構造に含まれる見出しタイトルの項目に対応する記入データを特定する(S2007)。この例では、IT15である。記入データを文書情報の見出しタイトルの項目に書き込む(S2008)。このとき、タグテーブル405から見出しタイトルと一致するタグ名を検索し、対応するタグIDを特定し、タグIDを書き込む。
 このようにして文書登録が完了する。続いて、このようにして登録された文書を検索対象とするためのインデクス登録の操作について説明する。
 図21は、インデクス登録に係る文書管理サーバの構成を示す図である。文書管理サーバ101は、タグテーブル405、文書データ構造記憶部1009、文書管理サーバ1010の他に、インデクス用テーブル生成部2101、メニュータグ対応表2102、インデクス用テーブル記憶部2103、及びインデクス生成コマンド起動部2104を有している。インデクス用テーブル生成部2101は、登録された文書についてインデクス用テーブルを生成する。インデクス用テーブル生成部2101は、文書登録に連動して起動されるように構成してもよいし、バッチ処理で一群の文書を処理するように構成してもよい。
 図22は、インデクス用テーブルを示す図である。インデクス対象文書毎に、文書タイトル2201、作成者2202、作成日時203、本文テキストソース2204、第一メニュー項目(分野)2206、第二メニュー項目(章節番号)2207、第三メニュー項目(章節標題)2208、第四メニュー項目(人員)2209、ロケーション2210、構成頁2211、記述頁2212のフィールドを対応付けるレコードを設けている。文書タイトル1701と本文テキスト1704は、キーワード検索の探索領域となるとともに、検索結果一覧のリストとして表示される。メニュー項目は、メニュー(分野、章節番号、章節標題、人員など)に属する選択候補である。ここでは、文字コード列で設定される。ロケーションは、文書表示の際にアクセスする位置情報を示している。ファイル名の後ろに構成頁の指定を加えている。つまり、元文書内の構成頁の位置を指定している。これにより、直接当該頁がブラウザに表示される。この例では省いているが、更新日時を含めることも有効である。
 インデクス用テーブル生成部2101とインデクス生成コマンド起動部2104による文書管理サーバ101側のインデクス登録動作について説明する。図23は、インデクス登録処理フローを示す図である。インデクス用テーブル生成部2101は、文書管理サーバ1010から未登録の文書情報を特定して、未登録の文書情報毎に以下の処理を繰り返す(S1801)。未登録は、前回のインデクス登録処理以降の作成日時又は更新日時を有する文書を判定する方法や、作成・更新の際に作成・更新フラグでONにすることにより判定する方法などが考えられる。未登録の文書のみならず、全文書を対象としてもよい。
 インデクス用テーブル生成部2101は、インデクス用テーブル記憶部2103に追加レコードを生成する処理(S2302)を、すべての文書情報について処理する(S2303)。そして、インデクス生成コマンド起動部2104は、インデクス生成コマンド起動処理により、インデクス用テーブル記憶部2103のインデクス用テーブルを検索サーバ102にインデクス生成コマンドと共に転送する(S2304)。
 図24は、レコード生成処理フローを示す図である。文書管理サーバ1010の文書情報から文書タイトルを読み取り、作成者を読み取り、作成日時を読み取り、それぞれインデクスレコードに書き込む(S2401~S2403)。作成者については、タグテーブル405を用いて、文書項目データのタグIDをタグ名に変換する。また、文書情報の本文テキストフラグONの項目を特定し(S2404)、当該項目のデータを本文テキストに書き込む(S2405)。更に、メニュー毎に(S2406)、当該メニューに対応するタグタイプを特定して(S2407)、文書項目型が当該タグタイプである文書項目を特定し(S2408)、当該文書項目のデータを、メニュー項目に書き込む(S2409)。
 タグタイプは、メニュータグ対応表2102を用いて特定する(S2407)。図25は、メニュータグ対応表を示す図である。ドリルダウン項目毎に、タグタイプ2501とドリルダウン項目ID2502を対応付けている。
 文書項目の特定は、文書データ構造記憶部1009(図14)に基づいて行う(S2408)。例えば、当該文書種別IDに対応する文書データ構造で、文書項目型がテーマタグである項目、文書項目型が見出しコードタグである項目、文書項目型が見出しタイトルタグである項目、文書項目型が人名タグである項目を判定する。
 また、書き込む際には、タグテーブル405を用いてタグIDをタグ名に変換する(S2409)。タグが複数ある場合には、区切りのコード(例えば、空白コード)を挿入する。
 すべてのメニューについて処理すると(S2410)、元文書ロケーションに、構成頁を表示する指示を付加してロケーションを生成し、書き込む(S2411)。最後に、構成頁と記述頁を書き込む(S2412)
 続いて、検索サーバ側の動作について説明する。図26は、検索画面配信に係る検索サーバの構成を示す図である。検索サーバ102は、インデクス生成部2601、インデクスデータベース2602、検索画面配信部2603、及び検索画面生成部2604を有している。
 インデクス生成部2601は、文書管理サーバ101からインデクス生成コマンドを受信すると、共に受信したインデクス用テーブルを読み取り、インデクスデータベース2602に追加登録する。重複する既存文書は削除する。インデクスデータベース2602は、インデクス用テーブルのフィールド間の対応付けを維持したまま、文書毎にインデクスの情報を保持するように構成されている。このとき、インデクスの文書テキストソースに設定されている頁文書ロケーションにアクセスし、頁文書ファイルを取得し、頁文書ファイルから本文テキストを抽出する。そして、抽出した本文テキストをインデクスとして保持する。
 この状態で、検索要求に応じて検索画面を配信する動作について説明する。図27は、検索画面配信処理フローを示す図である。検索画面配信部2603は、検索要求待ちの状態で(S2701)、文書を閲覧する利用者の利用者端末104から検索要求(検索サーバ102を指す検索URL)を受信すると、検索画面生成部2604で検索画面を生成して(S2702)、検索要求を発信した利用者端末104に検索画面を返信する(S2703)。
 図28は、検索画面を示す図である。左側が、ドリルダウン検索領域である。右上が、キーワード検索領域である。右下が、検索結果リスト表示領域である。ドリルダウン検索領域は、メニュー毎に、そのメニューに含まれるメニュー項目を指示操作(クリック)可能な状態で表示している。メニュー項目には、そのメニュー項目に対応する文書数が付加されている。検索結果リスト表示領域は、検索された文書の文書タイトルを指示操作(クリック)可能な状態で表示するとともに、本文テキストの先頭部位(所定文字数範囲)を表示している。
 図28中のXP正常テスト集は、データ登録の章が9ページから開始している。図29は、元文書の目次情報の例(XP正常テスト集)を示す図である。
 検索画面生成部2604による検索画面成処理では、初期状態の検索画面に対して、ドリルダウン検索領域と検索結果リストを生成する。図29は、検索画面成処理フローを示す図である。ドリルダウン検索領域生成処理(S2901)と検索結果リスト生成処理(S2902)を行う。
 図31は、ドリルダウン検索領域生成処理フローを示す図である。メニュー毎に以下の処理を繰り返す(S3101)。メニューに含まれるメニュー項目を特定する(S3102)。メニュータグ対応表2102内のインデクス群のメニュー項目を読込み、重複なく、漏れなく、メニュー項目を順次特定していく。そして、メニュー項目毎に、当該メニュー項目を含む文書数をカウントする(S3103)。すべてのメニューについて処理すると(S3104)、再びメニュー毎に(S3105)、まず、メニュー名を配置する(S3106)。続いて、メニュー項目を文書数の降順にソートして(S3107)、その順に従って、メニュー項目毎にメニュー項目名と文書数を配置する(S3108)。また、メニュー項目がブラウザ上で指示操作(クリック)された場合にアクセスするリンク先として、検索サーバ102を指す検索要求URLを設定する。検索要求URLには、パラメータとしてメニュー項目(メニュー項目名、あるいはメニュー項目番号などメニュー項目を識別できる情報)を付加する(S3109)。すべてのメニューについて処理した時点で終了する(S3110)。
 図32は、検索結果リスト生成処理フローを示す図である。アクセスの際の検索要求URLにメニュー項目のパラメータがある場合に以下の処理を行なう(S3201)。尚、キーワードのパラメータがある場合には、キーワード検索を行ない、パラメータがない場合には、検索を行なわない。
 インデクスデータベース2602からメニュー項目を含む文書を検索し(S3202)、検索された文書毎に以下の処理を繰り返す(S3203)。文書タイトルと記述頁を配置し(S3204)、文書タイトルがブラウザ上で指示操作(クリック)された場合にアクセスするリンク先として、インデクスに含まれるロケーションを設定する(S3205)。更に、本文テキストを所定範囲内に配置する(S3206)。表示文書数の制限に達するまで繰り返す(S3207)。制限は、表示領域や表示文書数で定められている。
 利用者端末104のブラウザ上で、検索結果リストの文書が選択指示されると、元文書記憶部1004を指すロケーションにアクセスすることになる。この例では、共有ファイルサーバ103を想定している。共有ファイルサーバ103は、このアクセスによる文書表示要求に応じて文書の頁を表示した画面を利用者端末104に配信する。
 文書管理サーバ101と検索サーバ102と共有ファイルサーバ103と利用者端末104は、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
 101  文書管理サーバ
 102  検索サーバ
 103  共有ファイルサーバ
 104  利用者端末
 401  文書種別選択画面配信部
 402  文書種別選択画面記憶部
 403  頁文書入力フォーム画面配信部
 404  頁文書入力フォーム画面記憶部
 405  タグテーブル
 1001  記入データ受付部
 1002  元文書受信部
 1003  元文書格納部
 1004  元文書記憶部
 1005  目次取得部
 1006  目次記憶部
 1007  頁文書生成部
 1008  頁文書記憶部
 1009  文書データ構造記憶部
 1010  文書管理サーバ
 2101  インデクス用テーブル生成部
 2102  メニュータグ対応表
 2103  インデクス用テーブル記憶部
 2104  インデクス生成コマンド起動部
 2601  インデクス生成部
 2602  インデクスデータベース
 2603  検索画面配信部
 2604  検索画面生成部

Claims (12)

  1.  元文書を分割した頁文書を登録する利用者の利用者端末と接続可能な文書共有システムであって、以下の要素を有することを特徴とする文書共有システム
    (1)前記頁文書を登録する利用者端末から、元文書の区分の見出しと、当該区分の頁範囲を含む目次情報を有する元文書ファイルを受信する元文書受信部
    (2)受信した元文書ファイルから、目次情報を取得する目次取得部
    (3)元文書に含まれる頁毎に、目次情報に基づいて当該頁が属する区分の見出しを判定し、当該見出しをタグとして含める頁文書情報を生成する頁文書生成部
    (4)頁文書情報を記憶する文書情報データベース
    (5)頁文書情報毎に、頁文書情報に含まれるタグを文書のドリルダウン検索に用いるメニュー項目として含むインデクスを生成するインデクス用テーブル生成部。
  2.  文書共有システムは、頁文書を閲覧する利用者の利用者端末と接続可能であって、更に(6)頁文書毎のインデクスを記憶するインデクスデータベースと、
    (7)インデクスのメニュー項目群を表示し、メニュー項目の選択を促し、選択されたメニュー項目を検索条件として返信するように構成されたドリルダウン検索領域を含む検索画面を生成する検索画面生成部と、
    (8)生成した検索画面を、前記頁文書を閲覧する利用者の利用者端末に送信する検索画面配信部を有することを特徴とする請求項1記載の文書共有システム。
  3.  前記検索画面生成部は、返信された検索条件のメニュー項目をインデクスに含む文書をインデクスデータベースから検索し、検索した文書一覧である検索結果リストを検索画面に含めることを特徴とする請求項2記載の文書共有システム。
  4.  文書共有システムは、更に、
    (9)受信した元文書ファイルを格納するロケーションを決定し、決定した元文書ロケーションに受信した元文書ファイルを格納する元文書格納部を有し、
     前記頁文書生成部は、元文書ロケーションを各頁文書情報に含め、
     前記インデクス用テーブル生成部は、頁文書情報毎に、当該頁を表示する頁指定を付加した元文書ロケーションをインデクスに含め、
     前記検索画面生成部は、検索結果リスト中の文書が選択された場合に、頁指定を付加した元文書ロケーションをリンク先としてアクセスするように検索画面を構成することを特徴とする請求項3記載の文書共有システム。
  5.  前記インデクス用テーブル生成部は、目次情報の区分の頁範囲に含まれる当該頁の記述頁番号を、文書構成上の頁番号に変換し、変換した構成頁番号を頁指定として付加することを特徴とする請求項4記載の文書共有システム。
  6.  前記インデクス用テーブル生成部は、記述頁番号に構成頁と記述頁の差分頁数を加えて、構成頁番号を算出することを特徴とする請求項5記載の文書共有システム。
  7.  文書共有システムは、更に、
    (10)表記上の1頁目に相当する構成上の頁番号である表記頁開始位置を受信する記入データ受付部を有し、
     前記インデクス用テーブル生成部は、表記頁開始位置から1を引いて差分頁数を求めることを特徴とする請求項6記載の文書共有システム。
  8.  文書共有システムは、更に、
    (11)差分頁数を受信する記入データ受付部を有し、
     前記インデクス用テーブル生成部は、受信した差分頁数を用いることを特徴とする請求項6記載の文書共有システム。
  9.  前記頁文書生成部は、元文書に含まれる頁毎に、元文書ファイルから当該頁を文書ファイルとして分割した頁文書ファイルを生成し、
     前記検索画面生成部は、頁文書ファイルから本文テキストを取得し、取得した本文テキストを文書一覧に設定することを特徴とする請求項5記載の文書共有システム。
  10.  前記頁文書生成部は、見出しタイトルをタグとすることを特徴とする請求項1から9のいずれかに記載の文書共有システム。
  11.  前記頁文書生成部は、見出し番号をタグとすることを特徴とする請求項1から9のいずれかに記載の文書共有システム。
  12.  元文書を分割した頁文書を登録する利用者の利用者端末と接続可能な文書共有システムとなるコンピュータに、以下の手順を実行させるためのプログラム
    (1)前記頁文書を登録する利用者端末から、元文書の区分の見出しと、当該区分の頁範囲を含む目次情報を有する元文書ファイルを受信する元文書受信手順
    (2)受信した元文書ファイルから、目次情報を取得する目次取得手順
    (3)元文書に含まれる頁毎に、目次情報に基づいて当該頁が属する区分の見出しを判定し、当該見出しをタグとして含める頁文書情報を生成する頁文書生成手順
    (4)頁文書情報を記憶する文書情報記憶手順
    (5)頁文書情報毎に、頁文書情報に含まれるタグを文書のドリルダウン検索に用いるメニュー項目として含むインデクスを生成するインデクス用テーブル生成手順。
PCT/JP2012/063597 2011-06-09 2012-05-28 文書共有システム WO2012169380A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013519445A JP5993849B2 (ja) 2011-06-09 2012-05-28 文書共有システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011128990 2011-06-09
JP2011-128990 2011-06-09

Publications (1)

Publication Number Publication Date
WO2012169380A1 true WO2012169380A1 (ja) 2012-12-13

Family

ID=47295948

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/063597 WO2012169380A1 (ja) 2011-06-09 2012-05-28 文書共有システム

Country Status (2)

Country Link
JP (1) JP5993849B2 (ja)
WO (1) WO2012169380A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195305A (ja) * 2017-05-12 2018-12-06 アクセラテクノロジ株式会社 情報処理システムおよびプログラム
JP2022104893A (ja) * 2020-12-30 2022-07-12 深▲ゼン▼市世強元件網絡有限公司 Pdfファイル分割方法及びホームページにpdfファイルを読み込む方法
US11663215B2 (en) 2020-08-12 2023-05-30 International Business Machines Corporation Selectively targeting content section for cognitive analytics and search

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793326A (ja) * 1993-09-21 1995-04-07 Toshiba Corp マルチメディア処理装置及びマルチメディア処理方法
JPH09218773A (ja) * 1996-02-14 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> マルチメディア情報高次元化表示システム
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
JP2003085159A (ja) * 2001-09-14 2003-03-20 Fuji Xerox Co Ltd 文書処理装置および画像出力装置ならびにそれらの方法
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2009289122A (ja) * 2008-05-30 2009-12-10 Canon Inc サーバ装置、カタログ処理方法及びプログラム
JP2010109420A (ja) * 2008-10-28 2010-05-13 Sharp Corp 画像形成装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH036664A (ja) * 1989-06-02 1991-01-14 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法
JPH11212985A (ja) * 1998-01-22 1999-08-06 Fujitsu Ltd 情報ライブラリ装置
JP4029654B2 (ja) * 2002-04-25 2008-01-09 日本電気株式会社 回答システム、回答装置、回答方法及び回答プログラム
JP2006301985A (ja) * 2005-04-21 2006-11-02 Shinkichi Yamada 階層型サイト検索ナビゲーションシステム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793326A (ja) * 1993-09-21 1995-04-07 Toshiba Corp マルチメディア処理装置及びマルチメディア処理方法
JPH09218773A (ja) * 1996-02-14 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> マルチメディア情報高次元化表示システム
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
JP2003085159A (ja) * 2001-09-14 2003-03-20 Fuji Xerox Co Ltd 文書処理装置および画像出力装置ならびにそれらの方法
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2009289122A (ja) * 2008-05-30 2009-12-10 Canon Inc サーバ装置、カタログ処理方法及びプログラム
JP2010109420A (ja) * 2008-10-28 2010-05-13 Sharp Corp 画像形成装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195305A (ja) * 2017-05-12 2018-12-06 アクセラテクノロジ株式会社 情報処理システムおよびプログラム
US11663215B2 (en) 2020-08-12 2023-05-30 International Business Machines Corporation Selectively targeting content section for cognitive analytics and search
JP2022104893A (ja) * 2020-12-30 2022-07-12 深▲ゼン▼市世強元件網絡有限公司 Pdfファイル分割方法及びホームページにpdfファイルを読み込む方法

Also Published As

Publication number Publication date
JP5993849B2 (ja) 2016-09-14
JPWO2012169380A1 (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
US11874894B2 (en) Website builder with integrated search engine optimization support
US6101503A (en) Active markup--a system and method for navigating through text collections
KR101298334B1 (ko) 검색 결과에 컬렉션 아이템을 포함시키기 위한 기술
US6970861B2 (en) Web-based system and method for engineering project design
US8533582B2 (en) Trail-based data content discovery, organization, and processing
US20090300476A1 (en) Internet Guide Link Matching System
US20140046925A1 (en) Mobile sitemaps
US20060200455A1 (en) Search engine result reporter
WO2005122011A1 (en) Data compilation apparatus and method
CN102411579B (zh) 一种搜索行业相关信息的方法及装置
KR20090071606A (ko) 검색 결과들을 찾아서 사용자에게 제공하는 시스템 및 컴퓨터 판독가능 매체
US20120216124A1 (en) Bundling web browser session contexts
US8892552B1 (en) Dynamic specification of custom search engines at query-time, and applications thereof
JP4430598B2 (ja) 情報共有システムおよび情報共有方法
JP5993849B2 (ja) 文書共有システム
JPWO2004111877A1 (ja) 情報処理方法及びその装置、及びそのプログラム
JP4333184B2 (ja) 電子データ管理システム
KR101248186B1 (ko) 검색 결과 페이지에서 개별 컨텐츠를 이용하여 블로그를 생성하는 검색 시스템 및 검색 방법
KR101153534B1 (ko) 웹 데이터 및 로컬 데이터에 대한 데이터 자동 태깅 방법및 데이터 자동 태깅 시스템
JP4787590B2 (ja) 蔵書検索方法、蔵書検索システム及び蔵書検索プログラム
JPH11143885A (ja) 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体及び情報発信方法及び装置及び情報発信プログラムを格納した記憶媒体
JP3955069B2 (ja) 特許出願データ分析支援システム
Sattar Chaudhry Assessment of taxonomy building tools
JPWO2005006191A1 (ja) 複数種類の情報を登録する装置および方法
JP5993848B2 (ja) 文書共有システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12797628

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013519445

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12797628

Country of ref document: EP

Kind code of ref document: A1