WO2006137412A1 - データ表示装置及び方法 - Google Patents

データ表示装置及び方法 Download PDF

Info

Publication number
WO2006137412A1
WO2006137412A1 PCT/JP2006/312350 JP2006312350W WO2006137412A1 WO 2006137412 A1 WO2006137412 A1 WO 2006137412A1 JP 2006312350 W JP2006312350 W JP 2006312350W WO 2006137412 A1 WO2006137412 A1 WO 2006137412A1
Authority
WO
WIPO (PCT)
Prior art keywords
tag
character string
extraction
display
text data
Prior art date
Application number
PCT/JP2006/312350
Other languages
English (en)
French (fr)
Inventor
Masaki Murata
Tamotsu Shirado
Hitoshi Isahara
Original Assignee
National Institute Of Information And Communications Technology, Incorporated Administrative Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2005179703A external-priority patent/JP4229457B2/ja
Priority claimed from JP2006060337A external-priority patent/JP2007241482A/ja
Application filed by National Institute Of Information And Communications Technology, Incorporated Administrative Agency filed Critical National Institute Of Information And Communications Technology, Incorporated Administrative Agency
Publication of WO2006137412A1 publication Critical patent/WO2006137412A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Definitions

  • the present invention relates to an apparatus and method for displaying text data in a computer, and more particularly to a technique for giving a specific format to a predetermined character string when displaying text data.
  • tags that specify various formats such as character color and size, font, and character arrangement, and tags that specify files such as image content and link destination pages Is included.
  • a typical example of text data including tags is a language format called a markup language or page description language. Widely used as a markup language! /
  • XML defined in JIS X 4159: 2002.
  • XHTML derived from XML
  • MathML for describing mathematical formulas
  • Tex a typesetting language
  • Patent Document 1 discloses a technique for easily displaying various characteristics of an arbitrary chemical substance in the chemical formula! In other words, it is described that the color is changed depending on the element symbol and the format is changed so that the italic type is bold in the case of solid or gas.
  • Patent Document 1 Japanese Patent Laid-Open No. 10-240748
  • the table data is simply provided with the character string of the element symbol, and the color of the matched character string is changed. Therefore, if a character string that coincides with the element symbol is accidentally present in the text, an error occurs. Change the color, which can lead to misunderstandings and results that are difficult to read. In particular, there is a problem that errors frequently appear in text using Latin characters.
  • the application for identifying a desired character string in a web browser is not limited to displaying such academic papers.
  • the applicants proposed in Patent Documents 2 and 3 identify the extracted character string even when the technique for displaying the difference between the two documents or the technique for displaying the keyword is used. It is required to display easily.
  • Patent Document 2 Patent No. 3682535
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2004-280176 Disclosure of the invention
  • Formatting tags are described in text so that their contents can be identified due to the nature of human beings to add formatting, and texts that make up the body and the like are not distinguished from data! /.
  • irregular character strings are described that are slightly different from normal text, there is a problem that erroneous extraction is often performed in the above text processing.
  • the present invention was created in view of the above-described problems of the prior art, and includes a text data force including a format setting tag.
  • a text data force including a format setting tag.
  • An object of the present invention is to provide a display device and method capable of accurately extracting and displaying the character string.
  • the reader can easily display the formulas and symbols in the! / ⁇ ⁇ text data without formatting tags, and the reader can read the necessary formulas and symbols without any misunderstandings.
  • An object is to provide an apparatus and method.
  • the present invention provides the following data display device in order to solve the above-described problems.
  • a partial character string of the text data is displayed in a predetermined unique format. It is a possible data display device.
  • the apparatus stores a tag extraction processing means for extracting at least a part of the text data force formatting tag, and stores the extracted formatting tag in the tag storage means together with position information in the text data.
  • a tag saving processing means for performing tag saving processing for removing the text data from the formatting tag and converting the text data so that it can be easily extracted.
  • the text data force after saving the tag is displayed using the singular format (singular display) Singular display character string extraction processing means for extracting a character string, a singular format tag writing processing means for writing a formatting tag corresponding to the singular format in the text data, and reading out the formatting tag and position information from the tag storage means,
  • the text data output from the singular format tag writing processing means the text data in which the singular format tag is written is generated by each means of the tag restoration processing means for performing the tag restoration processing for writing the formatting tag according to the position information.
  • the data display device replaces the extracted formatting tag with a predetermined replacement character together with the tag extraction processing means, and the replaced formatting.
  • a tag sequence replacement processing means for storing the tags in the tag sequence storage means in the order in which they appear, a singular display character string extraction processing means for extracting a character string to be displayed using the text data force specific format after tag replacement, Sequential format tag writing processing means, tag order reverse replacement processing means for replacing the characters replaced by the tag order replacement processing means with the format setting tags read in the order of the tag order storage means, in order of order, and display processing It has a means.
  • the data display device is characterized in that the predetermined replacement character is an ordered character.
  • an ordered character for example, a number or a character code with a character code (including a space) can be used.
  • the data display device includes tag extraction processing means and tag replacement processing for replacing the extracted formatting tags with a predetermined code based on a tag replacement database provided in advance.
  • tag extraction processing means for replacing the extracted formatting tags with a predetermined code based on a tag replacement database provided in advance.
  • the data display device replaces the coding power replaced by the tag replacement processing means with a predetermined formatting tag based on a tag reverse replacement database provided in advance.
  • a tag reverse replacement processing means is provided, and text data is displayed by the display processing means.
  • the invention of claim 6 is characterized in that the data display device performs display using a singular format.
  • a display state setting means capable of switching between a different display state and a normal display state for performing normal display is provided.
  • the invention according to claim 7 provides a data display device characterized in that the display state setting means is arranged in a region close to a display region in which text data is displayed by the display processing unit.
  • the invention according to claim 8 is characterized in that in the singular format tag writing processing means, a format setting tag for setting a display color different from the basic character color of the text data is written as the singular format.
  • the invention according to claim 9 relates to a configuration in which the text data includes at least a symbol or formula (hereinafter referred to as a scientific symbol) used in natural science. Then, the unique display character string extraction processing means stores a scientific symbol database in which one or more character strings used as scientific symbols and expression conditions in which the character strings are expressed are stored in advance, and a text by referring to the scientific symbol database. Data power A scientific symbol extraction processing unit that extracts a scientific symbol candidate character string, and a character string display determination processing unit that determines a display mode of the scientific symbol candidate character string by collating with the expression condition.
  • the unique format tag writing processing means writes a format setting tag according to the display mode.
  • the invention according to claim 10 is a data display device for displaying text data including at least a symbol or formula used in natural science (hereinafter referred to as a scientific symbol), and an input process for inputting the text data.
  • a scientific symbol database in which a character string of one or more characters used as a scientific symbol and an expression condition for expressing the character string are stored in advance, and a scientific symbol candidate character string is obtained from the text data by referring to the scientific symbol database.
  • a display unit for displaying the text data is a data display device for displaying text data including at least a symbol or formula used in natural science (hereinafter referred to as a scientific symbol), and an input process for inputting the text data.
  • a scientific symbol database in which a character string of one or more characters used as a scientific symbol and an expression
  • a basic character color of text data is set in advance, and a display color of the scientific symbol candidate character string is used for displaying the text data.
  • Basic character color power Change processing is performed.
  • the invention according to claim 12 includes a scientific symbol accuracy calculation unit that calculates the accuracy that the scientific symbol candidate character string is a scientific symbol in the character string display determination processing unit, and the accuracy based on the calculation result For scientific symbol candidate character strings with a higher than threshold value, a different display color is set for the basic character color and hue, and for scientific symbol candidate character strings whose accuracy is lower than the threshold value, the basic character color and the saturation or brightness are different. Set the display color.
  • the invention according to claim 13 includes a morpheme analysis processing unit in the data display device, performs morpheme analysis processing on the text data, and at the scientific symbol accuracy calculation unit, the scientific symbol candidate character string Using at least character string information or grammatical information of a predetermined number of morphemes before and after, the accuracy is calculated by referring to at least character string information or grammatical information provided in the scientific symbol database.
  • the invention according to claim 14 is characterized in that, in the scientific symbol accuracy calculation unit, when the same or different scientific symbol candidate character strings appear consecutively before and after the scientific symbol candidate character string, the scientific symbol candidate It includes a process of increasing the accuracy of the character string by a predetermined value.
  • the scientific symbol extraction processing unit extracts a specific expression constituting a predetermined scientific symbol
  • the scientific symbol accuracy calculation unit includes a predetermined number of the specific expressions. Including a process of increasing the accuracy of the scientific symbol candidate character string by a predetermined value when it appears in the morpheme, or in the same sentence, or in the same text data.
  • the specific expression in the configuration in which the specific expression is stored in the specific expression database, the specific expression is specified in the same sentence of the text data or a predetermined number of morphemes together with the scientific symbol candidate character string of interest.
  • N1 counts the number of occurrences of the expression candidate, while N2 counts the number of times the specific expression candidate appears alone in other sentences, and N1ZN2 (N2 ⁇ 0) or NlZ (Nl + N2) (when N2 is 0
  • the processing is stored in the specific expression database.
  • the singular display character string extraction processing unit outputs an object to be output as a text data difference.
  • the following processing is performed using an extraction unit as a unit and a detection area as a unit of an area to be compared in order to detect a difference between text data.
  • the extraction unit and the detection region may be defined in advance, or may include an input unit and an extraction 'detection region setting unit, and the extraction' detection region setting unit based on setting information input from the input unit. It may be set. Further, a storage unit and an extraction'detection region setting unit may be provided, and the extraction'detection region setting unit may be set based on setting information recorded in the storage unit.
  • the unique display character string extraction processing means includes a storage unit for storing information and an extraction unit.
  • the extraction unit extracts all the region forces other than the current detection region of the input text data corresponding to the extraction units, stores them in the storage unit, and stores them in the current detection region. Then, the data stored in the storage unit and corresponding to the extraction unit is extracted as a unique display character string, and the processing of the extraction unit is repeated for each detection region.
  • the unique format tag writing processing means writes a format setting tag according to the display mode.
  • the invention according to claim 18 is such that, in the configuration in which the data display device displays a word / phrase as a keyword in a unique format, whether the unique display character string extraction processing means is defined in advance or an extraction unit setting unit The following processing is performed using an extraction unit determined by one of the keys set by the extraction unit setting unit.
  • an extraction expression setting unit for setting an extraction expression to be displayed in a unique format
  • an extraction region setting unit for setting the location of the extraction region
  • a storage unit for storing information
  • the extraction unit extracts a unit corresponding to the unit of extraction from the extraction region, stores one corresponding to the extracted expression in the storage unit, and the current extraction in the text data If it is stored in the storage unit, it is extracted as a singular display character string, and then the singular format tag writing processing means force writes a format setting tag according to the display mode. It is characterized by that.
  • the invention described in claim 19 is characterized in that the location of the extraction area in claim 18 is the title portion of the text data.
  • the present invention can also be provided as a data display method as follows. That is, the invention according to claim 20 is a data display that can display a part of text data in a predetermined specific format when displaying text data including at least a formatting tag for setting the text format. Related to the method.
  • the method includes the following steps.
  • the tag saving processing means stores the extracted formatting tag together with the position information in the text data in the tag storage means, and performs tag saving processing for removing the formatting tag from the text data.
  • Singular display character string extraction processing means to extract the character string to be displayed using the singular format from the text data after saving the tag.
  • Singular format tag writing processing unit writes a format tag corresponding to the singular format into text data.
  • the tag restoration processing means reads the formatting tag and position information from the tag storage means, and writes the formatting tag according to the position information to the output text data.
  • a data display method including the following steps disclosed in claim 21 may be used.
  • Tag extraction step in which the tag extraction processing means extracts at least a part of the text data force and the formatting tag.
  • Singular display character string extraction processing means uses a singular format from the text data after tag replacement to extract a character string to be displayed.
  • the unique format tag writing processing means test the format setting tag corresponding to the unique format. Singular format tag writing step to write in the text data
  • the predetermined replacement character is an ordered character.
  • an ordered character for example, a character or a character code with a character code (including a space) may be used.
  • a data display method disclosed in claim 22 can be provided as a further different mode.
  • the method includes the following steps.
  • Singular display character string extraction processing means to extract a character string to be displayed using a singular format from the text data after tag replacement.
  • Singular format tag writing processing means writes a format tag corresponding to the singular format into the text data.
  • the data display method is as follows: (3-3) After the singular character string extraction step and (3-5) before the display step, (3-3-1)
  • the tag reverse replacement processing means may execute a tag reverse replacement step of replacing the code replaced by the tag replacement processing means with a predetermined formatting tag based on a tag reverse replacement database prepared in advance. .
  • the display state setting means can switch between a singular display state in which display using a singular format is performed and a normal display state in which normal display is performed. Provide a configuration.
  • the data display method wherein the text data includes at least a symbol or formula used in natural science (hereinafter referred to as a scientific symbol).
  • a scientific symbol includes at least a symbol or formula used in natural science (hereinafter referred to as a scientific symbol).
  • (1-3) (2-3) (3-3) Singular display character string extraction step uses a scientific symbol database in which one or more character strings to be used as scientific symbols and expression conditions for expressing the character strings are stored in advance.
  • (1-1) Scientific symbols A scientific symbol extraction process in which a scientific symbol candidate character string is extracted from the text data by referring to the scientific symbol database by an extraction processing unit, and (I 2) a character string display determination processing unit collates with the expression condition. It includes a character string display determination process for determining the display mode of the scientific symbol candidate character string.
  • the data display method according to claim 25 is a data display method in a data display device that displays text data including at least a symbol or formula used in natural science (hereinafter referred to as a scientific symbol). ,
  • the scientific symbol accuracy calculation unit determines the accuracy that the scientific symbol candidate character string is a scientific symbol. After performing the scientific symbol accuracy calculation process to be calculated, for the scientific symbol candidate character string whose accuracy is higher than the threshold value based on the calculation result, a display color different in basic character color and hue is set, and the accuracy is higher than the threshold value. For lower scientific symbol candidate character strings, a display color with a saturation or brightness different from the basic character color is set.
  • the morpheme analysis processing unit executes a morpheme analysis process for morphological analysis of the text data before (I 1) (II-1) scientific symbol extraction process.
  • I 1 (II-1) scientific symbol extraction process.
  • scientific symbol accuracy calculation process at least character string information or grammatical information of a predetermined number of morphemes before and after the scientific symbol candidate character string is used, and at least character string information or grammar provided in the scientific symbol database is used. The accuracy is calculated by referring to any of the information.
  • the same sentence of text data or a predetermined number of morphemes N1 is counted as the number of occurrences of the specific expression candidate in N.
  • N2 is counted as the number of times the specific expression candidate appears independently in other sentences. 1 / N2 (N2 ⁇ 0) or NlZ (Nl + N2) (including when N2 is 0) at least! /, Including the processing to store in the specific expression database when the deviation is greater than or equal to the threshold .
  • the extraction unit extracts all the units corresponding to the extraction unit from the region other than the current detection region of the input text data, stores the extracted text data in the storage unit, and stores it in the current detection region. Then, an extraction unit extraction process is performed in which the extraction unit stored in the storage unit and corresponding to the extraction unit is extracted as a unique display character string, and the extraction unit extraction process is repeated for each detection region. (1 4) (2-4) (3-4) In the singular format tag writing step, the format setting tag according to the display mode is written.
  • the extraction expression setting unit uses a unit of extraction determined by any one of the following: a defined key, an extraction unit setting unit, and a key set by the extraction unit setting unit.
  • the extraction expression setting process to be set and the extraction area setting unit process the extraction area setting process for setting the location of the extraction area simultaneously or sequentially.
  • the extraction unit extracts a part corresponding to the extraction unit from the extraction region, stores the part corresponding to the extracted expression in the storage part, and corresponds to the current unit of extraction in the text data. If the same item to be stored is stored in the storage unit, it is extracted as a special display character string and then (1 4) (2-4) (3-4) Singular format tag writing step In this case, a formatting tag according to the display mode is written.
  • the invention's effect The present invention has the following effects by providing the above configuration.
  • the formatting tag is extracted, and the tag is saved in the tag storage means so that the text data that does not include the formatting tag is uniquely displayed.
  • Character string extraction processing can be performed. Unlike normal character strings, formatting tags often appear not only repeatedly but also include symbols, so they may be mistakenly extracted by the character string extraction process described above. According to the present invention, such erroneous processing can be prevented and the amount of text data can be reduced, contributing to high-speed processing.
  • a character serving as a pointer can be arranged at a position where the format setting tag is arranged with a predetermined replacement character. You can save and restore formatting tags in the proper order without memorizing their location.
  • the replacement character by replacing the predetermined replacement character with a character having an order such as a number or alphabet (a plurality of characters may be used), the replacement character may be caused by a communication failure or the like. Even if it is missing, it is possible to detect the missing when replacing again, and it is possible to stop the situation where formatting cannot be performed correctly only with the formatting tag. Then, other formatting can be performed normally.
  • the display state setting is capable of switching between a singular display state in which display using a singular format is performed on the data display device and a normal display state in which normal display is performed. Since a means is provided, the display state can be easily switched during browsing.
  • the button is displayed on a toolbar of a web browser. Can be arranged.
  • the singular format tag writing processing means writes the format setting tag for setting a display color different from the basic character color of the text data as the singular format. It is characterized by.
  • the text data is a scientific paper or the like, and the technique of the present invention can be used particularly when extracting scientific symbols.
  • scientific symbols character strings extracted for specific display and formatting tags are often similar, which contributes to a suitable extraction process according to the present invention.
  • the technique of the present invention can be used when detecting and displaying a difference between text data. Also in this case, since the difference is detected by removing the formatting tag, the tag is not extracted as a difference, which contributes to a suitable extraction process.
  • the technique of the present invention can be used when displaying a word / phrase as a keyword in a unique format.
  • the keyword extracts the force such as the title part, but it can be prevented from being extracted with the formatting tag at that time.
  • FIG. 1 is an overall configuration diagram of a data display device (1) (hereinafter referred to as this device) according to a first embodiment of the present invention.
  • the present invention can be easily realized by a known personal computer, and each step of the present invention is executed and processed by a CPU (10) that controls arithmetic processing and text processing.
  • the CPU (10) operates in cooperation with a memory (not shown).
  • input means such as a keyboard and a mouse (11)
  • a network adapter (14) connected to a network such as the Internet may be provided as a data acquisition input means for acquiring text data.
  • the CPU (10) includes a tag extraction processing unit (100) which is a tag extraction processing unit, a tag saving processing unit (101) which is a tag saving processing unit, and a unique display character string extraction processing unit.
  • Tagged text (2) is HTML data acquired from an external server device by the network adapter (14), and as is well known, includes various tags according to the HTML format. Such tags include a tag for indicating a link destination and a tag for defining a display format. In the present invention, all tags are defined as format setting tags, and are hereinafter abbreviated as tags.
  • the tag extraction processing unit (100) extracts the part of the tagged text (2) force tag. (Step S 1— 1)
  • tags can be extracted by sequentially searching the data forward force for ⁇ and>.
  • the storage device (13) is provided with a database of tags to be extracted or not to be extracted, and the tag extraction processing unit (100) extracts the matching tags while referring to the database. To do.
  • tags that are particularly likely to be confused may be extracted from the database in accordance with the character string extracted by the unique display character string extraction processing unit (102) described later.
  • a tag that combines the power of combining one letter or a number such as ⁇ Hl> to ⁇ H6> and ⁇ B> You can also extract such tags.
  • the tag and the position on the tagged text in which the tag is embedded are sequentially stored in the tag saving table in the storage device, and the tag itself is removed from the text data.
  • FIG. 3 shows how tags are removed from the input tagged text (30).
  • the data shown in Table 1 is stored in the tag saving table.
  • Table 1 shows only the first three tags. As the position, the number of characters of the first character power before removing all tags is counted.
  • the process (S1-3) in the unique display character string extraction processing unit (102) is performed.
  • This process is a feature of the present invention, and the character string is displayed in order to highlight the character string on the web browser.
  • the processing unit include scientific symbol extraction, difference extraction, and keyword extraction, which will be described later.
  • a simple example of extracting a character string stored in a storage device will be described.
  • singular display character strings that perform singular display such as "H", ⁇ He "," Li “, etc. are stored as some character strings, and they match the character strings.
  • the text data force is extracted after the tag is removed by the character string to be processed.
  • the peculiar display means that the display mode such as the character color and size is peculiar to the display mode of other texts, and can be read separately from the other when the user browses with a web browser. Display modes such as font change, bold, italic, underline, shaded, enclosed characters, side points, marker display, etc. may be used.
  • the singular format tag write processing (S1-4) is executed by the action of the singular format tag write processing unit (103).
  • the tag return processing unit (104) performs processing for returning the tag saved in the tag save processing (S1-2) to the text data (step
  • the processing unit (104) reads the tags saved in the order of the tag saving table power of the storage means, and writes the tags according to the stored positions.
  • Singular format tag is already embedded Force Singular format tag counts the position without including it in the number of characters so that the position does not shift.
  • FIG. 4 shows the browser screen at this time.
  • Web browsers that display information such as the Internet are known and are generally displayed as one of the windows (40).
  • the title of the data (41) at the top of the window (40), the command string that specifies the window or OS processing in the second (42) force, and the display page is returned or advanced in the third
  • the button and the stop reading button (43) etc. show the server and file storage directory being viewed in the fourth row.
  • a button capable of switching whether or not to perform singular display is arranged in the browser window. That is, as shown in FIG. 4, a toolbar area (46) is provided immediately above the text data display area (45), and a button (47) is arranged on the toolbar.
  • the display processing unit (105) When the user browses with a browser, the display processing unit (105) usually displays the tagged text (2) obtained from the network adapter (14) directly in the display area (45). When is pressed, the processing of steps S1-1 to S1-6 above is executed, and the state is switched to the state where the unique display is performed.
  • the peculiar display works effectively in the case of specific contents, and it may be difficult to read if peculiar display is performed during normal browsing. It is preferable to switch the display state easily.
  • FIGS. A second embodiment of the present invention is shown in FIGS.
  • the present embodiment is characterized in that the tag is removed and stored in the first embodiment, but is replaced with a predetermined replacement character.
  • FIG. 5 is an overall configuration diagram of a data display device (5) (hereinafter referred to as this device) according to a second embodiment of the present invention.
  • This device The same components as those in the first embodiment are denoted by the same reference numerals. These descriptions are omitted.
  • the CPU (10) includes a tag extraction processing unit (100), a tag saving processing unit (101) that is tag saving processing means, a unique display character string extraction processing unit (102), and a unique format tag writing processing unit (103 ) And a display processing unit (105), a tag sequence replacement processing unit (110) and a tag sequence reverse replacement processing unit (111) are provided.
  • FIG. 6 is a flowchart of the present embodiment.
  • the tagged text (2) is also inputted with the network adapter (14) equal force, and the tag extraction processing unit (100) extracts the tag (S2-1).
  • the tag sequence replacement processing unit (110) force removes the tag and also executes a predetermined replacement character.
  • Special characters and symbols that are not used in normal text are suitable as replacement characters.For example, they are used, and on the display, a blank character code, a combination of characteristic characters, ⁇ (! %% ! ”Or a combination of Greek and Russian letters“ ⁇ ⁇ ”may be used.
  • the extracted tags are stored in the storage device (13) as the tag ordering table shown in Table 2.
  • the tagged text subjected to reverse replacement (S2-5) is displayed in the browser (S2-6) by the action of the display processing unit (105).
  • an order may be further added to a predetermined replacement character.
  • wear That is, the above replacement character is an ordered character.
  • an ordered character string is one in which an order is determined in advance, such as numbers or English alphabets.
  • the character code assigned with a space NULL
  • the character code may be used, and if the character code is assigned, it may be invisible. That is, even if it is blank, the character code is increased (or decreased) in order, and if it is, the order can be identified, so that it can be used in the present invention.
  • TITLE> is changed to "# # 1 ## J, ⁇ / TITLE> is changed to" ## 2 ## " , BODY
  • the extracted tags are stored in the storage device (13) as the tag ordering table shown in Table 2 above.
  • the replacement character itself includes the order information, it is possible to provide the function of determining the correspondence with the tag that is not merely a pointer function. For example, even if some replacement characters are missing due to a communication failure (such as a network failure or character encoding error), other replacement characters can be properly replaced with the original formatting tags.
  • FIG. 1 A third embodiment of the present invention is shown in Figs. This embodiment is characterized in that the tag is converted into a predetermined code according to the tag type with reference to the tag replacement database.
  • FIG. 6 is an overall configuration diagram of a data display device (7) (hereinafter referred to as the present device) according to a third embodiment of the present invention.
  • the same components as those in the first embodiment are denoted by the same reference numerals. These descriptions are omitted.
  • the CPU (10) includes a tag extraction processing unit (100), a tag saving processing unit (101) that is tag saving processing means, a unique display character string extraction processing unit (102), and a unique format tag writing processing unit (103 ) And a display processing unit (105), a tag replacement processing unit (120) and a tag reverse replacement processing unit (121) are provided.
  • FIG. 8 is a flowchart of the present embodiment.
  • the tagged text (2) is also inputted with the network adapter (14) equal force, and the tag extraction processing unit (100) extracts the tag (S3-1).
  • the tag sequence replacement processing unit (110) 1S removes the tag and refers to a tag replacement database as shown in Table 3 to perform replacement processing (S3-2) to a predetermined code.
  • a tag and other symbols can be clearly identified by using a character string enclosed in a characteristic code such as (! _ As a replacement character string. If the color code contains unique information such as the link destination address, BODY in Table 3
  • the unique information may be copied into the replacement character string.
  • a process (S3-3) is performed on the replaced text data by the unique display character string extraction processing unit (102) to extract characters to be displayed specifically. At this time, do not perform the process (S3-3) on the character string enclosed by (Shito _!! /, So that there is no risk of accidental tag extraction. Contributes to processing.
  • the singular format tag write processing unit (103) performs the process of writing the singular format tag (S3-4). These are as described above.
  • the tag reverse replacement processing unit (121) performs processing (S3-3-1) for returning the tag to the text in which the unique format tag is written.
  • This process (S3-3-1) is a process of referring back to the table as shown in Table 3 and reversely replacing the replacement character string enclosed by (! _ And _! With the original tag.
  • This process returns the tag to the text data.
  • an order n of tags is added to a code consisting of (Shi__!), For example (S T_n_!).
  • the unique information such as the color code can be separately stored in the storage device (13).
  • the tag reverse replacement processing unit (121) can also read the unique information from the storage device (13) and return the tag according to the order n.
  • the tag substitution database used for substitution and the tag reverse substitution database used for reverse substitution do not necessarily have a reversible relationship.
  • the tag substitution database a plurality of types of tags having substantially the same meaning are used. It is possible to convert to the same code and convert it to a single tag in the tag reverse replacement database.
  • the reverse replacement step (S3-3-1) is not necessarily required.
  • a tag replacement database for example, a table as shown in Table 4 is stored, and unnecessary tags or particularly erroneous processing may be performed. You can try to remove only tags (convert to NULL).
  • the present invention replaces the tag in the text data by the method of Embodiments 1 to 3 when extracting the unique display character string, and is intended to suitably perform the unique display. .
  • FIG. 9 shows a configuration diagram of the unique display character string extraction processing unit (102) in the present embodiment. This figure shows the configuration of the unique display character string extraction processing unit (102) in the CPU (10) in the above embodiment in more detail.
  • a processing unit (120) and a character string display determination processing unit (121) are provided.
  • the storage device (13) is equipped with a database (122) that stores scientific symbols and expression conditions.
  • the tag is saved in the processing unit (102) ⁇ the removed text after saving the tag (130) is input (131).
  • the present invention works most effectively in the case of a scientific paper using Latin characters such as English as the tagged text (2) to be input first.
  • the scientific symbol extraction processing unit (120) refers to a database (122) in which scientific symbols and their expression conditions are stored in advance (13).
  • each character string is read in sequence from the beginning of the sentence and collated with the scientific symbol information contained in the database (122). If there is a matching character string, the character string is extracted and processed by a character string display determination processing unit (121) that determines what display mode is to be displayed.
  • FIG. 12 shows an example of the contents of the database (122). Corresponding to each elemental symbol etc. (140), the database defines accuracy (141), which is a scientific symbol when it is expressed on the text alone. For example, define 0.1 for hydrogen (H), 0.2 for helium (He), 0.5 for lithium (Li), and so on! / ⁇ The
  • the accuracy varies depending on the target language as described above, it is desirable to define the accuracy according to the language of the text. For example, in Japanese papers, He is usually expressed in many cases, so it may be possible to define higher accuracy.
  • the character color corresponding to the accuracy is determined in 21), and the tag corresponding to the character color is written in the unique format tag writing processing unit (103).
  • the display color for each accuracy is set in advance on the unique display character string extraction processing unit (102).
  • Examples of the character color include the following embodiments.
  • the display color is changed according to the accuracy.
  • it is defined that two or more threshold values are provided. For example, when the threshold value is 0.6 or more, it is displayed in red, and when it is 0.1 or more and less than 0.6, it is displayed in gray.
  • Ne and element names are displayed in red, and other elements are displayed in gray.
  • red is an example of a color that is different in hue from the basic character color (black) that displays text, and the reader can completely identify the character string because the hue is different. Pink, yellow, etc. are also suitable for the black basic character color.
  • gray is an example of a color whose brightness is different from the basic character color. If the basic text color and brightness are only different, the reader will not feel a strong sense of discomfort. Unless you are not conscious of it, reading is not disturbed, so reading is comfortable. On the contrary, when reading with consciousness, it is clearly different from the basic character color, so it can be clearly seen.
  • the hue, brightness, and saturation are determined by a well-known technique in the unique display character string extraction processing unit (102). It is possible to change and display the monitor (12) force.
  • the expression conditions in the present invention are defined under what conditions the scientific symbols for calculating the accuracy are expressed in the text data. For example, in the example described above, each element is “provided alone at the beginning of a sentence”. That is, the character string display determination processing unit (121) determines whether the expression position is the beginning of a sentence based on a period, a punctuation mark, a line feed code, and the like.
  • the accuracy Y using the expression condition is calculated by the character string display determination processing unit (121) according to the following equation.
  • p (str) is the accuracy underlying the scientific symbol candidate character string str (141)
  • a (str) is the accuracy determined by the expression condition i in the database (122) for the scientific symbol candidate character string str.
  • X is 1 when the expression condition i is met and 0 when it is not.
  • the database (122) stores the accuracy when the character string is not the beginning of the sentence.
  • the item related to this is the column (142) indicated by the cap in FIG.
  • the second line of the database (122) means that the accuracy is incremented by 1 when “He” appears at a position other than the beginning of the sentence. Therefore, in this case, the accuracy is 1.2.
  • the accuracy is defined as 1 being the maximum, and the accuracy exceeding 1 is treated as 1.
  • a character string including capital letters is displayed in the database (122). If you speak, uppercase and lowercase letters are posted! It distinguishes as it says, and all lowercase letters, all uppercase letters, a mixture of them, and so on are all extracted for lowercase letters.
  • the accuracy is defined in the case where the expression is concatenated with other characters published on the database (122) based only on whether or not the sentence power is used. .
  • This item is the value following the cohere in column (143), and the accuracy is calculated based on this value. For example, in the case of O in the 8th line of the database (122), the accuracy is 0.1 when it is alone at the beginning of the sentence. If it is described as OH connected to H, the accuracy is 0.2. Will be added to 0.3.
  • a database that lowers the accuracy of a specific character string that is easily determined as a scientific symbol may be provided in the external storage device (13). It can be provided as a scientific symbol excluded character string database (not shown), and not extracted when it matches the database in the scientific symbol extraction process (132).
  • the character strings constituting these are also scientific symbols, and the accuracy tends to increase because they are connected.
  • a character string that matches the scientific symbol exclusion character string database in the extraction process is removed from the extraction result.
  • the present invention can be configured without using the scientific symbol exclusion character string database.
  • the calculation processing may be performed so that the accuracy of the character string matching the scientific symbol exclusion character string database is 0! /.
  • the scientific symbol exclusion character string database may not be provided separately, and may be registered as, for example, accuracy 10 in the database (122) storing the above scientific symbols and expression conditions. If the calculation result is negative, the character string is treated as an accuracy of 0, and the character string is!, And the deviation is also an accuracy of 0, and is excluded from the scientific symbol candidates.
  • the accuracy can be set for each character string to be connected, such as the character string having the highest accuracy in the connected character string.
  • the accuracy of O is the beginning of the sentence and is concatenated with H, so the accuracy is 0.3, and the accuracy of H is 0.8 because it is concatenated with O instead of the beginning of the sentence.
  • the accuracy of O is set to 0.8, the highest accuracy in the concatenated string.
  • This configuration contributes to the visual display when the character color is changed depending on the accuracy as well as the accuracy of consistency between a series of connected character strings.
  • an element may be connected using a hyphen when expressing a molecular structure.
  • a character string connected with a hyphen is processed as in the case of the above connection.
  • the character symbols used to connect scientific symbols may be stored in advance, and when connected by the character symbols, the same processing as that of connecting them may be performed. .
  • the accuracy when connected as described above, the accuracy is the highest among the connected character strings, and the accuracy is increased when connecting to a character string of a predetermined accuracy or higher, rather than setting the accuracy to each character string.
  • You may comprise as follows. That is, for example, an item “high” is provided in the database (122), and accuracy +0.7 or 0.8 is defined when a scientific symbol candidate character string having a threshold value of 0.6 or more is connected.
  • the accuracy of H is 0.8, which is equal to or greater than the threshold value. Therefore, the accuracy of O is also added by 0.7, for example, to 1.
  • the concept of concatenation can be further widened.
  • the term “continuous” as used in the present invention may include not only the case where scientific symbol candidate character strings are concatenated, the case where they are connected using a hyphen, but also the case where they are connected using a conjunction in the language of the text data. Yes. In English, when multiple nouns are placed in parallel, commas and letters, such as A, B and C Connected by row and.
  • the extracted scientific symbol candidate character string includes a comma or and or or, etc., it can be processed in the same way as it is connected (this case is called parallel).
  • the accuracy of all the scientific symbol candidate character strings to be paralleled may be adjusted to the maximum accuracy in the parallel character strings, or the value determined in the database (122) may be added. Good. In the latter case, a numerical value different from the case of concatenation can be determined.
  • Expression conditions can be appropriately defined according to the target scientific symbol. For example, in the case of elementary symbols, plus / minus symbols indicating ions are often attached. When these symbols are attached, scientific symbols can be determined with extremely high accuracy.
  • the format is specified by the tag, etc., and the scientific symbol that becomes the ion notation with the superscript + is detected, such as In ⁇ s up> + ⁇ / sup>. .
  • the accuracy is set to 1 according to the column (144) in Fig. 12.
  • character strings such as SPDF in spectroscopic symbols, s orbits indicating atomic orbitals, electron arrangements in p orbitals, and character strings such as A, G, T, C, and U in gene base sequences Try to calculate the accuracy in combination with letters.
  • the database (122) to which expression conditions can be assigned as in the present invention can be effectively extracted.
  • processing may be performed to increase the accuracy even if the symbol appears alone in the same text data.
  • accuracy calculation (133) is performed once for all text data, accuracy is determined by ion notation, etc., and each scientific symbol candidate character string extracted again in the same step (133) is Then redefine the accuracy.
  • a special display character string extraction processing unit (102) including a morphological analysis processing unit (150) as shown in FIG. 13 can be provided.
  • the morphological analysis is a known technique, and for example, tea bowl (disclosed in Non-Patent Document 2) can be used as a Japanese morphological analysis technique.
  • Non-patent document 2 chasen.aist-nara.ac.jp
  • text data using Latin characters such as English to be separated can be easily divided into morphemes, but can be similarly analyzed by statistical methods such as HMM. Different parts of speech are also identified using morphological analysis.
  • the morphological analysis processing is performed before the scientific symbol extraction step (22) in the above-described embodiment.
  • analysis is performed using the morphological analysis dictionary (152) stored in the external storage device (13).
  • scientific symbols are extracted (132) by collating with the information posted in the database (122), but in this embodiment, the morphemes obtained as a result of the analysis and the contents of the database (122) are extracted. Compare and extract matches (1
  • the morpheme segmentation becomes more accurate, so that the database (122) can be checked with certainty. Furthermore, the part of speech of each morpheme can be acquired by morphological analysis. Using this, part-of-speech information can be given to the database (122) together with the character string, and the accuracy in that case can be defined as described above.
  • a certain scientific symbol appears in text data together with a specific character string.
  • the following processing can be performed by paying attention to the high probability of being a scientific symbol. That is, when a specific character string is used as a clue expression, it can easily co-occur with a scientific symbol within the same sentence in text data or within a predetermined morpheme number !, and a character string (cue expression) is extracted. , Increase the accuracy of the corresponding scientific symbols.
  • the scientific symbol extraction processing unit (120) extracts a scientific symbol and extracts a clue expression (153) with reference to the clue expression table (154) as shown in FIG.
  • clue expression table for example, "-like ion" is an expression that easily co-occurs with element symbols.
  • the accuracy of each scientific symbol candidate character string defined as a combination is increased in the accuracy calculation (133).
  • the rising value is defined in the database (122) as described above, or the accuracy value when co-occurring in the clue expression table (co-occurrence character string table) (154) is defined.
  • the hand-powered expression table is defined in advance by hand. This table can be configured by automating this. Figure 16 shows this process.
  • a text copy path (155) including a scientific symbol is used as a general example sentence.
  • the corpus is publicly known, and morphemes, parts of speech, etc. of word strings in the text are defined in advance! Whether the string is a scientific symbol or not is also defined! Speak.
  • a scientific symbol candidate character string is extracted (156) by referring to the database (122) from the text copy path (155).
  • N2 of times that the scientific symbol candidate character string does not appear is counted (158) for the sentence including the hand-powered expression candidate.
  • scientific symbol candidate strings and clue tables This is the number of times that the current candidate does not co-occur and only the hand-powered expression candidate appears alone.
  • N1ZN2 is calculated (159) to confirm whether the co-occurrence ratio is equal to or greater than a predetermined threshold.
  • the processing may be performed in the same manner as when the threshold is equal to or greater than the threshold value, or the same processing may be performed only when N1 is a predetermined number of times, for example, 3 times or more.
  • NlZ (N1 + N2) may be calculated instead of N1ZN2 calculation (159) so that N2 can be applied to all cases.
  • the above-mentioned number N1 is confirmed to be significantly larger than the number N2 based on a well-known statistical test method such as binomial test (160).
  • the combination of the expression candidate and the scientific symbol candidate character string is recorded in the clue expression table (154).
  • the probability that a scientific symbol candidate character string and a candidate for clue expression co-occur in a single trial, and the probability that only the latter appears alone without a scientific symbol candidate character string and a candidate for clue expression co-occurring are each 0.5.
  • N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2.
  • the 5% test is a criterion for determining whether P1 is less than 5%, and for the 10% test, P1 is less than 10%.
  • This technology determines that the probability that a scientific symbol candidate character string appears as a scientific symbol is high when it appears more frequently than a general sentence. For example, when you consider the string lead, it may be a scientific symbol (element name) or an English word meaning “lead”.
  • an appearance rate ratio R1ZR2 is calculated (165), and it is determined whether or not the ratio is larger than a predetermined threshold.
  • R1 is significantly greater than R2
  • a known statistical test method such as a ratio test or chi-square test (160)
  • the combination of the key expression and the scientific symbol candidate character string is stored in the clue expression table (154). Record.
  • the database (122) may define the display color directly instead of the accuracy.
  • the display color is directly defined for each expression condition, and the same effect as described above is obtained.
  • the configuration in which the display color is changed is disclosed in this embodiment, a configuration in which the format is changed instead of the color may be used.
  • the display mode of text data is known to change character fonts, add underline, shaded display, range display with parentheses, etc., and use these instead of changing the character color. Can be displayed to the reader.
  • FIG. 19 is a definition of display colors in the present invention. As shown in the figure, rules 1, 3, 4, 5, 6, 7, and 8 are defined. In rule 1, each atom 'molecule' ion is displayed in pink, and in rule 3, the electron configuration is expressed. To be displayed in yellow, as defined is doing.
  • Rule 2 is a missing number.
  • rule 1 is also judged by using the electron e, + / _ upper and lower subscripts, atomic name upper and lower subscripts, IVXivx expression, and "like'Tic" as well. It is defined to be displayed with.
  • rule 6 when “(repetition of rule 3) zero or more times” or “number / n / n-bar 1” appears, it is displayed in orange.
  • rule 7 In the judgment of rule 7, if there is no clue expression (-like ion etc.) around the atomic name that is the capital letter of the English alphabet, it is judged that it is likely that it is not an atomic name, and so on. Classify into 7. Also, in the case of an atomic name consisting of a single uppercase letter of the English alphabet or “Rev”, if there is no clue expression, it is similarly classified into rule 7.
  • normal text that does not include formatting tags can also be displayed.
  • the text after saving the tag (130) is text that does not contain the formatting tag because the tag is saved, so instead of this, you can input normal text as well. .
  • FIG. 20 is an overall configuration diagram of the data display device (20) according to the present embodiment.
  • the present invention can be easily realized by a known personal computer, and each step of the present invention is executed and processed by a CPU (21) that manages arithmetic processing, text processing, and the like.
  • the CPU (21) operates in cooperation with the memory (22).
  • input means such as a keyboard (23) and a mouse
  • a monitor (24) for displaying output results an external storage device such as a hard disk. (29) etc.
  • text data (200) such as a paper is acquired (201) in the apparatus (20) by the action of the input processing unit (25).
  • the present invention works most effectively when the text data (200) is a scientific paper using Latin characters such as English.
  • the text data (200) is used to extract and display chemical symbols and physical symbols, especially symbols used in natural sciences such as element symbols, electron arrangements, and spectral symbols, and chemical and mathematical formulas. In the present invention, these are collectively referred to as scientific symbols.
  • the scientific symbol extraction processing unit (26) performs a scientific symbol extraction process (202) with reference to a database (203) in which scientific symbols and their expression conditions are stored in advance.
  • the database (203) is stored in the external storage device (29).
  • the processing (202) is the same as the scientific symbol extraction processing (132) described above.
  • the accuracy calculation processing (204) similar to the accuracy calculation processing (133) in the above is performed in the character string display determination processing section (27), and the character color corresponding to the accuracy is further determined (205), and the display section (28 ) Displays the text on the monitor (24) (206).
  • FIG. 22 is an explanatory diagram of the principle of the unique display character string extraction unit (102) in the present embodiment.
  • the peculiar display character string extraction unit (102) is provided with an extraction / detection region setting unit (180) and connected to the storage means (13).
  • the force extraction 'detection area setting unit (180) which has already been disclosed in Patent Document 2 for details, detects the difference between the extraction unit and the text data that are output as text data differences.
  • the detection area which is the unit of the area to be compared, of the setting information input from the input means (11) such as a keyboard or a mouse, or the setting information recorded in the memory or external storage device (13) Set based on the difference.
  • the extraction unit "word”, “kanji”, “noun phrase”, and the like can be considered.
  • the unit of detection area is a unit of area to be compared in order to detect a difference.
  • characters As a unit of the detection area, “character”, “word”, “sentence”, “item of bullet”, “paragraph”, and the like can be used.
  • the extraction unit and the detection area may be defined in advance without necessarily providing the extraction 'detection area setting unit (180), and may not be set for each process! /.
  • the singular display character string extraction unit (102) extracts all the region powers other than the current detection region of the input text data corresponding to the extraction units, and In the current detection area, a part corresponding to the extraction unit that is not stored in the storage unit is extracted as a unique display character string, and the processing of the extraction unit is detected. Repeat for each region.
  • the unique display character string extraction unit (102) corresponds to the extraction unit that is not stored in the storage unit (13) in the current detection area of the input text data.
  • the document is highlighted and the document of the current detection area is output, and the highlighted display is stored in the storage unit (13) for each detection area. For this reason, it is possible to easily extract and display a unit corresponding to a newly appearing extraction unit (for example, a word).
  • the storage unit (13) stores the data of the extraction unit that is not highlighted in advance. For this reason, it is possible to make it easy to view without highlighting the expression which is so important in advance.
  • FIG. 23 is an explanatory diagram of the principle of the unique display character string extraction unit (102) in the present embodiment.
  • the unique display character string extraction unit (102) is provided with an extraction unit setting unit (181), an extraction expression setting unit (182), and an extraction region setting unit (183), and is connected to a storage means (13).
  • the extraction unit setting unit (181) sets an extraction unit
  • the extraction expression setting unit (182) sets an extraction expression to be displayed in a unique format.
  • the extraction area setting unit (183) sets the location of the extraction area.
  • the unique display character string extraction unit (102) extracts a part corresponding to the unit of extraction from the extraction region, and stores the part corresponding to the extracted expression in the storage part. If the same force corresponding to the current unit of extraction is stored in the storage unit, it is extracted as a unique display character string.
  • the extraction unit can be defined in advance without using the extraction unit setting unit (181), and the extraction unit may not be set for each processing. .
  • the above-described configuration of the document difference detection device (document difference detection mechanism) is provided, and a portion highlighted by the mechanism is designated as a portion designated by the user. For this reason, it is possible to more clearly find a place corresponding to the description of the part specified by the user in the input data.
  • Extraction unit setting unit (181) for setting an extraction unit in the unique display character string extraction unit (102) ), An extraction area setting unit (182) for setting the location of the extraction area, and a document difference detection mechanism (not shown) that highlights the input data corresponding to the extraction unit that appears for the first time.
  • a storage means (13) for storing information.
  • the unique display character string extraction unit (102) extracts the portion corresponding to the unit of extraction from the extraction region as the portion highlighted by the document difference detection mechanism as the location of the extraction region and stores it (13) If the stored data is stored in the storage means (13), it is extracted for emphasis display. For this reason, it is possible to clearly find the place corresponding to the explanation of the part corresponding to the unit of extraction of the first appearing words in the input data by simple means.
  • the unique display character string extraction unit (102) sets a detection area that is the unit of the area to be compared in order to detect the difference of the input data, and the area power other than the current detection area of the input data.
  • the unit corresponding to the extraction unit is extracted.
  • a document difference detection mechanism (not shown) is provided that highlights an extraction unit that is not in an area other than the detection area in the current detection area.
  • the part highlighted by the mechanism is extracted as the location of the extraction area, and the part corresponding to the unit of extraction is extracted from the extraction area and stored in the storage means (13). If it is stored in the same force storage means (13) as that of the unit, it is highlighted. For this reason, it is possible to clearly find a place corresponding to the explanation of the portion corresponding to the unit of extraction of the first word or the like appearing in the input data by simple means.
  • the mechanism for extracting scientific symbols when the mechanism for extracting scientific symbols, the mechanism for detecting document differences, and the mechanism for extracting keywords are used in the unique display character string extraction processing unit (102), It suppresses the influence of tags during mechanism processing and enables high-precision and high-speed processing.
  • the display effect of each mechanism can be maximized for IJ.
  • FIG. 1 is an overall configuration diagram of a data display device (first embodiment) according to the present invention.
  • FIG. 2 is a flowchart of a data display method (first embodiment) according to the present invention.
  • FIG. 3 is a diagram showing how tags are saved in the present invention.
  • FIG. 4 is an explanatory diagram showing a display screen of a web browser according to the present invention.
  • FIG. 5 is an overall configuration diagram of a data display device (second embodiment) according to the present invention.
  • FIG. 6 is a flowchart of a data display method (second embodiment) according to the present invention.
  • FIG. 7 is an overall configuration diagram of a data display device (third embodiment) according to the present invention.
  • FIG. 8 is a flowchart of a data display method (third embodiment) according to the present invention.
  • FIG. 9 is a configuration diagram of a unique display character string extraction processing unit that extracts scientific symbols used in the present invention.
  • FIG. 10 is a flowchart of a unique display character string extraction process for extracting scientific symbols used in the present invention.
  • FIG. 11 is an example of paper data used in the present invention.
  • FIG. 12 An example of the contents of the database of FIG.
  • FIG. 13 is a configuration diagram (another embodiment) of a unique display character string extraction processing unit that extracts scientific symbols used in the present invention.
  • FIG. 14 is a flowchart (another embodiment) of a unique display character string extraction process for extracting scientific symbols used in the present invention.
  • FIG. 15 is a flowchart (another embodiment) of a unique display character string extraction process for extracting scientific symbols used in the present invention.
  • FIG. 16 is a flowchart of processing for constructing a clue expression table from a text copy path.
  • FIG. 17 is a flowchart of processing for constructing a clue expression table from text after tag saving
  • FIG. 18 is a flowchart of processing for automatically correcting the accuracy of text data power.
  • FIG. 19 is a definition of display color in the present invention.
  • FIG. 2 is an overall configuration diagram of a text data display device.
  • FIG. 21 is a flowchart of the data display method.
  • FIG. 22 is a configuration diagram of a unique display character string extraction processing unit for detecting a document difference used in the present invention.
  • FIG. 23 is a configuration diagram of a unique display character string extraction processing unit that extracts keywords used in the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 テキストデータから所定の文字列を識別しやすい特異な書式で表示する際に、当該文字列を的確に抽出し表示させることのできる表示装置及び方法を提供すること。 【解決手段】 タグ抽出処理手段100が、テキストデータから書式設定タグを抽出して、タグ待避処理手段101が、該抽出されたタグをテキストデータ中の位置情報と共にタグ記憶手段13に格納すると共に、タグを除去する。次いで特異表示文字列抽出処理手段102が、タグ待避後のテキストデータから特異書式を用いた表示を行う文字列を抽出し、特異書式タグ書き込み処理手段103が、該特異書式に応じた書式設定タグをテキストデータ中に書き込む。さらにタグ復帰処理手段104が、記憶手段13を参照して書式設定タグを書き込み、表示処理手段105が、テキストデータを表示する。

Description

データ表示装置及び方法
技術分野
[0001] 本発明はコンピュータにおけるテキストデータの表示装置及び方法に関し、特にテ キストデータを表示する際に所定の文字列に特異な書式を付与する技術に係るもの である。
背景技術
[0002] 近年、インターネットにより情報収集することが日常的に行われている。一般的にィ ンターネット上の情報はウェブブラウザで表示するために HTML形式で記述された テキストデータとして多くの情報が蓄積されて 、る。
HTML形式は、テキストデータに加えて文字の色や大きさ、フォント、文字配置など の各種書式を規定するタグと、画像コンテンツ等のファイルを指定したり、リンク先の ページのアドレスを指定するタグを含むものである。
[0003] このようにタグを含むテキストデータとしてはマークアップ言語又はページ記述言語 と呼ばれる言語形式が代表的な例である。マークアップ言語として広く使われて!/、る のは、上記の HTMLの他、 JIS X 4159:2002に規定された XMLがあり、 XMLから派 生した XHTML、数式を記述するための MathML、デジタル放送等で用いられてい る BMLが知られる。
さらに、主に学術論文などの執筆には Texと呼ばれる組版処理用の言語が好んで 用いられている。
[0004] ところで、学術論文には多くの数式や記号が記述されており、それらが論文の内容 を端的に表現していることが多い。従って研究者は論文集など多数の論文力 所望 のトピックの論文を抽出する際に、数式や記号などを概観して選び出す作業を行うこ とがある。
近年では学会において発行される論文誌は従来の紙媒体力 CD— ROMやイン ターネットに変わりつつあり、論文をパーソナルコンピュータ上で閲覧する機会も多い [0005] このような時に、論文を構成するテキストから数式や記号を迅速に識別することがで きれば効率がよい。しかし、特に英語などのラテン文字を用いる論文では、同じくラテ ン文字で記載されることの多 、数式や記号がテキスト中に埋没してしま 、、詳細に閲 読しなければならな力つたり、肝心の数式や記号を見落とす恐れがあった。
[0006] 従来力 ワードプロセッサにおいて文字種別に応じて表示色を変えることは行われ ている。例えばひらがな及び漢字は黒色、カタカナは緑色、半角英数字は茶色など のように区別して表示する製品が知られている。これは特に日本語と英語等では半 角と全角の区別や長音とハイフンの区別が不明確になりやすいために、入力者に分 力りやすく表示するものである。
[0007] この方法は日本語論文中に半角の英数字が含まれている場合には、数式や記号 をある程度見やすくすることには寄与する力 上述したようにすベてラテン文字で記 述された論文の場合には全て同色となってしまうため判別しやすくならない。
[0008] また、特許文献 1には化学式の中から任意の化学物質につ!/、て、その化学物質が 有する様々な特徴を容易に表示する技術が開示されている。すなわち、元素記号に よって色を変えると共に、固体や気体などの場合には斜体ゃ太字にするなどの書式 を変化させることが記載されて 、る。
[0009] 特許文献 1:特開平 10-240748号公報
[0010] 本技術ではテーブルデータに単に元素記号の文字列を備えて一致した文字列の 色を変化させるだけであるため、偶然に元素記号等と一致した文字列がテキスト中に 存在すれば誤って色を変化させることになり、誤解を生じさせたり、かえって読みにく くなる結果を招きやすい。特に、ラテン文字を用いたテキスト中ではその誤りが頻出 する問題がある。
[0011] このような学術論文を表示する場合だけでなぐウェブブラウザにおいて所望の文 字列を識別する用途は広 ヽ。例えば本件出願人らが特許文献 2及び 3にお ヽて提案 して 、る 2つの文書の差分を表示する技術や、キーワードを表示する技術を用いた 場合にも、抽出された文字列を識別しやすく表示することが求められる。
[0012] 特許文献 2 :特許 3682535号
特許文献 3 :特開 2004— 280176号公報 発明の開示
発明が解決しょうとする課題
[0013] このように文字を識別しやすく表示する場合に、上記したような書式設定タグを含む テキストデータに対して抽出する処理を行おうとすると、書式設定タグが障害となって 適切な処理が行えな 、場合が多 、。
書式設定タグは人間が書式を付与するために付加する性質上、内容が判別できる ようにテキストで記述されており、本文等を構成するテキストとデータ上は区別される ものではな!/、。加えて通常のテキストとやや異なり変則的な文字列が記載されること から、上記のようなテキスト処理において誤った抽出が行われることが多いという問題 を抱えている。
[0014] 本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、書式設 定タグを含むテキストデータ力 所定の文字列を識別しやすい特異な書式で表示す る際に、当該文字列を的確に抽出し表示させることのできる表示装置及び方法を提 供することを目的とする。
[0015] また、書式設定タグを含まな!/ヽテキストデータ中の数式や記号を読者が識別容易に 表示すると共に、特に読者が誤解を生じることなく必要な数式や記号を読み取ること のできる表示装置及び方法を提供することを目的とする。
課題を解決するための手段
[0016] 本発明は、上記の課題を解決するために、次のようなデータ表示装置を提供する。
すなわち、本発明の請求項 1に記載の発明は、少なくともテキストの書式を設定す る書式設定タグを含むテキストデータを表示する際に、テキストデータの一部の文字 列を所定の特異書式で表示可能なデータ表示装置である。
そして該装置が、テキストデータ力 該書式設定タグの少なくとも一部を抽出するタ グ抽出処理手段と、抽出された書式設定タグをそのテキストデータ中の位置情報と共 にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータ力 除去するタ グ待避処理を行うタグ待避処理手段とを有してテキストデータを抽出処理容易な態 様に変換処理する。
[0017] その後、タグ待避後のテキストデータ力 特異書式を用いた表示 (特異表示)を行う 文字列を抽出する特異表示文字列抽出処理手段、該特異書式に応じた書式設定タ グをテキストデータ中に書き込む特異書式タグ書き込み処理手段、該タグ記憶手段 から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出 力されたテキストデータに対し、位置情報に従って書式設定タグを書き込むタグ復帰 処理を行うタグ復帰処理手段の各手段により特異書式タグを書き込んだテキストデー タを生成する。
最後に該書式設定タグに従ってテキストデータを表示する表示処理手段を備える。
[0018] また、本発明の別な形態として請求項 2に記載のデータ表示装置は、タグ抽出処理 手段と共に、抽出された書式設定タグを所定の置換文字で置換すると共に、置換し た書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換処理手 段と、タグ置換後のテキストデータ力 特異書式を用いた表示を行う文字列を抽出す る特異表示文字列抽出処理手段と、特異書式タグ書き込み処理手段と、タグ序列置 換処理手段により置換された文字を、該タグ序列記憶手段力 順に読み出した書式 設定タグに序列の順に再度置換するタグ序列逆置換処理手段と、表示処理手段を 備えるものである。
[0019] 本発明の請求項 3に記載のデータ表示装置は、上記の所定の置換文字が、序列 のある文字であることを特徴とする。序列のある文字として、例えば数字や文字コード の付与された文字'符号 (空白を含む)などを用いることができる。
[0020] さらに異なる形態として請求項 4に記載のデータ表示装置は、タグ抽出処理手段と 、抽出された書式設定タグを予め備えたタグ置換データベースに基づいて所定の符 号に置換するタグ置換処理手段と、タグ置換後のテキストデータ力 特異書式を用い た表示を行う文字列を抽出する特異表示文字列抽出処理手段と、特異書式タグ書き 込み処理手段と、表示処理手段とを備えたことを特徴とする。
[0021] 請求項 5に記載の発明は、請求項 4のデータ表示装置が、タグ置換処理手段により 置換された符号力 予め備えたタグ逆置換データベースに基づいて所定の書式設 定タグに置換するタグ逆置換処理手段を備えて、表示処理手段によるテキストデータ の表示を行うものである。
[0022] 請求項 6に記載の発明は、上記データ表示装置に特異書式を用いた表示を行う特 異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手 段を備えることを特徴とする。
[0023] 請求項 7に記載の発明は、表示状態設定手段が、前記表示処理部によりテキスト データを表示する表示領域の近接領域に配置されることを特徴とするデータ表示装 置を提供する。
[0024] 請求項 8に記載の発明は、前記特異書式タグ書き込み処理手段において、特異書 式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タグを書き 込むことを特徴とする。
[0025] 請求項 9に記載の発明は、前記テキストデータが少なくとも自然科学で用いられる 記号又は式 (以下、科学記号と呼ぶ)を含む構成に係る。そして、上記特異表示文字 列抽出処理手段が、科学記号として用いる 1文字以上の文字列と当該文字列が発 現する発現条件とを予め格納した科学記号データベースと、科学記号データベース を参照してテキストデータ力 科学記号候補文字列を抽出する科学記号抽出処理部 と、該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表 示決定処理部とを備える。
さらに、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグ を書き込むことを特徴とするものである。
[0026] 請求項 10に記載の発明は、少なくとも自然科学で用いられる記号又は式 (以下、 科学記号と呼ぶ)を含むテキストデータを表示するデータ表示装置であって、テキスト データを入力する入力処理部と、科学記号として用いる 1文字以上の文字列と当該 文字列が発現する発現条件とを予め格納した科学記号データベースと、該科学記号 データベースを参照して該テキストデータから科学記号候補文字列を抽出する科学 記号抽出処理部と、該発現条件と照合して該科学記号候補文字列の表示態様を決 定する文字列表示決定処理部と、決定された表示態様の科学記号候補文字列を含 むテキストデータを表示する表示部とを備えることを特徴とする。
[0027] 請求項 11に記載の発明は、前記文字列表示決定処理部において、テキストデータ の基本文字色を予め設定すると共に、該科学記号候補文字列の表示色を該テキスト データの表示に用いる基本文字色力 変化させる処理を行うものである。 [0028] 請求項 12に記載の発明は、文字列表示決定処理部において、前記科学記号候補 文字列が科学記号である確度を算出する科学記号確度算出部を備え、該算出結果 に基づいて確度が閾値よりも高い科学記号候補文字列については基本文字色と色 相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号候補文字列に ついては基本文字色と彩度又は明度が異なる表示色を設定する。
[0029] 請求項 13に記載の発明は、前記データ表示装置に形態素解析処理部を備え、前 記テキストデータを形態素解析処理すると共に、科学記号確度算出部において、前 記科学記号候補文字列の前後所定個数の形態素の少なくとも文字列情報又は文法 情報のいずれかを用い、前記科学記号データベースに備えた少なくとも文字列情報 又は文法情報のいずれかを参照して確度を算出する。
[0030] 請求項 14に記載の発明は、前記科学記号確度算出部において、前記科学記号候 補文字列の前後に同一又は異なる科学記号候補文字列が連続して出現した場合に 当該科学記号候補文字列の確度を所定値だけ高める処理を含むことを特徴とする。
[0031] 請求項 15に記載の発明は、前記科学記号抽出処理部が、予め定めた科学記号を 構成する特定表現を抽出し、前記科学記号確度算出部において、該特定表現が前 後所定個数の形態素内、又は同一文、又は同一テキストデータ中に出現した場合に 、当該科学記号候補文字列の確度を所定値だけ高める処理を含むことを特徴とする
[0032] 請求項 16に記載の発明は、前記特定表現を、特定表現データベースに格納する 構成において、着目している科学記号候補文字列と共に、テキストデータの同一文 又は所定個数の形態素内に特定表現候補が出現する回数 N1を計数する一方、該 特定表現候補がその他の文において単独に出現する回数 N2を計数し、 N1ZN2 ( N2≠0)又は NlZ (Nl +N2) (N2が 0のときも含む)の少なくともいずれかの値が閾 値以上の場合に、該特定表現データベースに格納する処理を含む。
[0033] 請求項 17に記載の発明は、前記データ表示装置がテキストの差分を検出して表示 する構成において、前記特異表示文字列抽出処理手段が、テキストデータの差分と して出力する対象の単位である抽出単位とテキストデータの差分を検出するために 比較する領域の単位である検出領域とを用いて下記の処理を行う。 該抽出単位と検出領域とは予め定義されていてもよいし、入力部と抽出'検出領域 設定部とを備えて該入力部から入力された設定情報に基づいて該抽出'検出領域 設定部で設定されてもよい。また、記憶部と抽出'検出領域設定部とを備えて該記憶 部に記録された設定情報に基づいて該抽出'検出領域設定部で設定されてもよい。
[0034] そして、特異表示文字列抽出処理手段には情報を格納する格納部と、抽出部とを 備える。
該構成において、抽出部は、入力されたテキストデータの現在の該検出領域以外 の領域力 全ての該抽出単位に相当するものを抽出して該格納部に格納し、現在の 該検出領域にぉ 、て、該格納部に格納されて 、な ヽ該抽出単位に相当するものを 特異表示文字列として抽出すると共に、該抽出部の処理を該検出領域ごとに繰り返 す。
そして、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグ を書き込むことを特徴とするものである。
[0035] 請求項 18に記載の発明は、前記のデータ表示装置がキーワードとなる語句を特異 書式で表示する構成において、特異表示文字列抽出処理手段が、予め定義されて いるか、抽出単位設定部を備えて該抽出単位設定部で設定されるカゝ、のいずれか〖こ より決まる抽出の単位を用いて下記の処理を行う。
そして、特異表示文字列抽出処理手段には特異書式で表示する抽出表現を設定 する抽出表現設定部と、抽出領域の場所を設定する抽出領域設定部と、情報を格 納する格納部と、抽出部とを備える。
[0036] 該構成において抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、 そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデータ中に 現在の該抽出の単位に相当するものと同じもの力 該格納部に格納されている場合 は、それを特異表示文字列として抽出した後、前記特異書式タグ書き込み処理手段 力 表示態様に従った書式設定タグを書き込むことを特徴とする。
[0037] 請求項 19に記載の発明は、請求項 18における抽出領域の場所として、前記テキス トデータのタイトル部分とすることを特徴とするものである。
[0038] 本発明は、次のようにデータ表示方法として提供することもできる。 すなわち、請求項 20に記載の発明は少なくともテキストの書式を設定する書式設 定タグを含むテキストデータを表示する際に、テキストデータの一部の文字列を所定 の特異書式で表示可能なデータ表示方法に係る。
そして該方法において、次の各ステップを含む。
(1 1)タグ抽出処理手段が、該テキストデータ力 該書式設定タグの少なくとも一部 を抽出するタグ抽出ステップ
(1 - 2)タグ待避処理手段が、該抽出された書式設定タグをそのテキストデータ中の 位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータか ら除去するタグ待避処理を行うタグ待避ステップ
(1 - 3)特異表示文字列抽出処理手段が、タグ待避後のテキストデータから特異書 式を用 、た表示を行う文字列を抽出する特異表示文字列抽出ステップ
(1 -4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテ キストデータ中に書き込む特異書式タグ書き込みステップ
(1 - 5)タグ復帰処理手段が、該タグ記憶手段から書式設定タグ及び位置情報を読 み出し、特異書式タグ書き込み処理手段力 出力されたテキストデータに対し、位置 情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰ステップ
(1 6)表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ス テツプ
また、別の態様として請求項 21に開示される次のステップを含むデータ表示方法 でもよい。
(2—1)タグ抽出処理手段が、該テキストデータ力 該書式設定タグの少なくとも一部 を抽出するタグ抽出ステップ
(2— 2)タグ序列置換処理手段が、該抽出された書式設定タグを所定の置換文字で 置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納す るタグ序列置換ステップ
(2— 3)特異表示文字列抽出処理手段が、タグ置換後のテキストデータから特異書 式を用 、た表示を行う文字列を抽出する特異表示文字列抽出ステップ
(2-4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテ キストデータ中に書き込む特異書式タグ書き込みステップ
(2— 5)タグ序列逆置換処理手段が、タグ序列置換ステップで置換された文字を、該 タグ序列記憶手段力 順に読み出した書式設定タグに序列の順に再度置換するタ グ序列逆置換ステップ
(2— 6)表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ス テツプ
[0040] ここで上記の所定の置換文字が、序列のある文字であることを特徴とする。序列の ある文字として、例えば数字や文字コードの付与された文字'符号 (空白を含む)など を用いてもよい。
[0041] さらに異なる態様として請求項 22に開示されるデータ表示方法を提供することもで きる。該方法は次のステップを含む。
(3— 1)タグ抽出処理手段が、該テキストデータ力 該書式設定タグの少なくとも一部 を抽出するタグ抽出ステップ
(3— 2)タグ置換処理手段が、該抽出された書式設定タグを予め備えたタグ置換デ ータベースに基づいて所定の符号に置換するタグ置換ステップ
(3— 3)特異表示文字列抽出処理手段が、タグ置換後のテキストデータから特異書 式を用 、た表示を行う文字列を抽出する特異表示文字列抽出ステップ
(3— 4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテ キストデータ中に書き込む特異書式タグ書き込みステップ
(3— 5)表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ス テツプ
[0042] ここで、データ表示方法は、(3— 3)特異文字列抽出ステップの後、(3— 5)表示ス テツプの前の間のいずれかの時点において、(3— 3— 1)タグ逆置換処理手段により 、前記タグ置換処理手段により置換された符号から予め備えたタグ逆置換データべ ースに基づいて所定の書式設定タグに置換するタグ逆置換ステップを実行してもよ い。
[0043] 請求項 23に記載のデータ表示方法は、表示状態設定手段により特異書式を用い た表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能とす る構成を提供する。
[0044] ここで、上記の(1 4) (2-4) (3— 4)特異書式タグ書き込みステップにおいて、特 異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タグを 書き込むようにしてもよい。
[0045] 請求項 24に記載のデータ表示方法は、テキストデータが少なくとも自然科学で用 いられる記号又は式 (以下、科学記号と呼ぶ)を含む構成において、 (1 - 3) (2- 3) (3— 3)特異表示文字列抽出ステップが、科学記号として用いる 1文字以上の文字列 と当該文字列が発現する発現条件とを予め格納した科学記号データベースを用い、 (1- 1)科学記号抽出処理部により該科学記号データベースを参照して該テキストデ ータから科学記号候補文字列を抽出する科学記号抽出処理過程、(I 2)文字列表 示決定処理部により該発現条件と照合して該科学記号候補文字列の表示態様を決 定する文字列表示決定処理過程を含む。
そして、 (1 -4) (2-4) (3—4)特異書式タグ書き込みステップにおいて、該表示 態様に従った書式設定タグを書き込むことを特徴とする。
[0046] 請求項 25に記載のデータ表示方法は、少なくとも自然科学で用いられる記号又は 式 (以下、科学記号と呼ぶ)を含むテキストデータを表示するデータ表示装置におけ るデータ表示方法であって、
(4 1)入力処理部がテキストデータを入力する入力ステップ、
(4- 2)次 (a)な 、し (b)の各処理過程を含む科学記号文字列抽出ステップ:
(II l) (a)科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現 条件とを予め格納した科学記号データベースを参照し、科学記号抽出処理部が該テ キストデータから科学記号候補文字列を抽出する科学記号抽出処理過程、
(II 2Kb)該発現条件と照合して文字列表示決定処理部が該科学記号候補文字列 の表示態様を決定する文字列表示決定処理過程:
(4 3)表示部が決定された表示態様の科学記号候補文字列を含むテキストデータ を表示する表示ステップ
の各ステップを含むことを特徴とする。
[0047] 請求項 26に記載のデータ表示方法は、前記 (I 2) (II 2)文字列表示決定処理 過程において、テキストデータの基本文字色を予め設定すると共に、該科学記号候 補文字列の表示色を該テキストデータの表示に用いる基本文字色力 変化させる処 理を行うことを特徴とする。
[0048] 請求項 27に記載のデータ表示方法は、(I 2) (II— 2)文字列表示決定処理過程 において、科学記号確度算出部が、科学記号候補文字列が科学記号である確度を 算出する科学記号確度算出処理過程を行った後に、該算出結果に基づいて確度が 閾値よりも高い科学記号候補文字列については基本文字色と色相の異なる表示色 を設定すると共に、確度が閾値よりも低い科学記号候補文字列については基本文字 色と彩度又は明度が異なる表示色を設定する。
[0049] 請求項 28に記載のデータ表示方法は、形態素解析処理部が前記テキストデータ を形態素解析する形態素解析処理過程を (I 1) (II- 1)科学記号抽出処理過程の 前に実行し、科学記号確度算出処理過程において、該科学記号候補文字列の前後 所定個数の形態素の少なくとも文字列情報又は文法情報の!、ずれかを用い、前記 科学記号データベースに備えた少なくとも文字列情報又は文法情報のいずれかを 参照して確度を算出することを特徴とする。
[0050] 請求項 29に記載のデータ表示方法は、(I 1) (II 1)科学記号確度算出処理過 程において、科学記号候補文字列の前後に同一又は異なる科学記号候補文字列 が連続して出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処 理を含む。
[0051] 請求項 30に記載のデータ表示方法は、科学記号抽出処理過程において、予め定 めた科学記号を構成する特定表現を抽出し、科学記号確度算出処理過程において 、該特定表現が前後所定個数の形態素内、又は同一文、又は同一テキストデータ中 に出現した場合に、当該科学記号候補文字列の確度を所定値だけ高める処理を含 む。
[0052] 請求項 31に記載のデータ表示方法は、前記特定表現を、特定表現データベース に格納する構成において、着目している科学記号候補文字列と共に、テキストデータ の同一文又は所定個数の形態素内に特定表現候補が出現する回数 N1を計数する 一方、該特定表現候補がその他の文において単独に出現する回数 N2を計数し、 N 1/N2 (N2≠0)又は NlZ (Nl +N2) (N2が 0のときも含む)の少なくとも!/、ずれか の値が閾値以上の場合に、該特定表現データベースに格納する処理を含む。
[0053] 請求項 32に記載のデータ表示方法がテキストの差分を検出して表示する構成にお いて、 (1 -3) (2-3) (3— 3)特異表示文字列抽出ステップにおいて、テキストデー タの差分として出力する対象の単位である抽出単位とテキストデータの差分を検出 するために比較する領域の単位である検出領域とにつ 、て、予め定義されて 、るか 、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設定情報に基 づ ヽて該抽出 ·検出領域設定部で設定されるか、記憶部と抽出 ·検出領域設定部と を備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域設定部で設 定されるか、のいずれか〖こより決まる該抽出単位及び該検出領域を用いる。
[0054] そして、抽出部が、入力されたテキストデータの現在の該検出領域以外の領域から 全ての該抽出単位に相当するものを抽出して格納部に格納し、現在の該検出領域 にお 、て、該格納部に格納されて 、な ヽ該抽出単位に相当するものを特異表示文 字列として抽出する抽出単位抽出処理を行い、該抽出単位抽出処理を該検出領域 ごとに繰り返した後、(1 4) (2-4) (3— 4)特異書式タグ書き込みステップにおいて 、該表示態様に従った書式設定タグを書き込む。
[0055] 請求項 33に記載のデータ表示方法がキーワードとなる語句を特異書式で表示する 構成において、 (1 -3) (2-3) (3— 3)特異表示文字列抽出ステップにおいて、予 め定義されているカゝ、抽出単位設定部を備えて該抽出単位設定部で設定されるカゝ、 のいずれかにより決まる抽出の単位を用い、抽出表現設定部が、特異表示する抽出 表現を設定する抽出表現設定処理、抽出領域設定部が、抽出領域の場所を設定す る抽出領域設定処理、の各処理を同時又は 、ずれかの順で処理する。
その後、抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち 該抽出表現に該当するものを格納部に格納し、前記テキストデータ中に現在の該抽 出の単位に相当するものと同じものが、該格納部に格納されている場合は、それを特 異表示文字列として抽出した後、(1 4) (2-4) (3— 4)特異書式タグ書き込みステ ップにお 、て、該表示態様に従った書式設定タグを書き込むことを特徴とする。 発明の効果 [0056] 本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、請求項 1又は 20に記載の発明によれば、書式設定タグを抽出し、そのタ グをタグ記憶手段に待避することにより、書式設定タグを含まないテキストデータに対 して特異表示する文字列の抽出処理を行うことができる。書式設定タグは、通常の文 字列とは異なり規則的に反復して現れるだけでなく記号を含むことが多いため、上記 の文字列の抽出処理で誤って抽出されてしまう場合がある。本発明によれば、このよ うな誤処理を防止することができると共に、テキストデータのデータ量が削減されるた め、高速な処理に寄与する。
[0057] 請求項 2又は 21に記載の発明によれば、上記の効果の他、所定の置換文字で書 式設定タグが配置された位置にポインタとなる文字を配置することができるので、位 置を記憶することなく適正な順番で書式設定タグの待避と復帰の処理を行うことがで きる。
[0058] 請求項 3に記載の発明によれば、所定の置換文字として、番号やアルファベットな どの序列のある文字 (複数の文字でもよい)で置換することにより、置換文字が通信の 障害等により欠落した場合でも、再度置換する際に該欠落を検出することが可能で あり、書式設定が正しく行えない事態を当該書式設定タグだけに止めることができる 。そして、他の書式設定を正常に行うことができる。
[0059] 請求項 4又は 22に記載の発明によれば、書式設定タグと所定の符号を予め対応づ けたタグ置換データベースに従って置換することにより、置換後のテキストデータべ 一スが小容量になる上に、文字列の抽出処理のエラーを抑制し、かつ待避する先が なくともよい。従って処理機構の簡素化を図ることができる。
[0060] 請求項 5に記載の発明によれば、タグ逆置換データベースを備えることで、テキスト データの表示に不可欠な書式設定タグでも置換処理し、文字列抽出の処理精度向 上を図ることができる。そして、逆置換により適正な書式で表示を行うことができる。
[0061] 請求項 6及び 7、 23に記載の発明によれば、データ表示装置に特異書式を用いた 表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示 状態設定手段を備えるので閲覧中に簡便に表示状態を切り替えることができる。特 に、請求項 7に記載の発明では例えばウェブブラウザのツールバー上に当該ボタン を配置することができる。
[0062] 請求項 8に記載の発明によれば、前記特異書式タグ書き込み処理手段にお!、て、 特異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タ グを書き込むことを特徴とする。
[0063] 請求項 9、 24に記載の発明によれば、テキストデータが科学論文などであって、特 に科学記号を抽出する際に本発明の技術を用いることができる。科学記号の場合に は特に特異表示のために抽出する文字列と、書式設定タグが類似している場合が多 ぐ本発明により好適な抽出処理に寄与する。
[0064] 請求項 10、 25に記載の発明によれば、高精度に科学記号の表示態様を変化させ 、読者が科学記号を識別しやすい表示装置及び方法を提供することができる。とくに ラテン文字により記述されたテキスト中であっても科学記号を適切に表示できるため 必要な情報を容易に読み取ることができるようになる。
また、科学記号であるか否か、確度により表示態様を区別することで確度の低い科 学記号候補は読者が気にならない程度の表示を行う一方、確度の高い科学記号候 補は明確に色分けすることができる。本方式を採用することで、過剰な言語処理技術 を用いて処理速度の遅延やデータベースの増大を引き起こすことなく簡便な装置に 寄与する。
[0065] 請求項 11ないし 16、 26ないし 31に記載の発明によれば、上記請求項 9、 24の構 成と、請求項 10、 25の構成とにおいて、それぞれより正確な科学記号の抽出に寄与 する。
[0066] 請求項 17に記載の発明によれば、テキストデータの差分を検出'表示する際に本 発明の技術を用いることができる。この場合にも、書式設定タグを取り除いて差分を 検出するため、タグが差分として抽出されることがなくなり、好適な抽出処理に寄与す る。
[0067] 請求項 18、 19に記載の発明によれば、キーワードとなる語句を特異書式で表示す る際に本発明の技術を用いることができる。キーワードはタイトル部分など力も抽出す るが、その際に書式設定タグを伴って抽出してしまうことを防止することができる。 発明を実施するための最良の形態 [0068] 以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態 は下記に限定されるものではない。
実施例 1
[0069] 図 1は本発明の第 1の実施例に係るデータ表示装置 (1) (以下、本装置と呼ぶ)の全 体構成図である。本発明は公知のパーソナルコンピュータにより容易に実現すること が可能であり、演算処理やテキスト処理などを司る CPU (10)によって本発明の各ス テツプを実行処理する。 CPU (10)は周知のようにメモリ(図示しない)と協働して動作 し、キーボードやマウス(11)などの入力手段の他、出力結果を表示するモニタ(12) 、ハードディスク等の外部記憶装置(13)などを備えて!/、る。
また、テキストデータの取得などのためにデータの取得入力手段としてインターネッ ト等のネットワークと接続するネットワークアダプタ(14)を設けてもよい。
[0070] そして、 CPU (10)にはタグ抽出処理手段であるタグ抽出処理部(100)と、タグ待 避処理手段であるタグ待避処理部(101)と、特異表示文字列抽出処理手段である 特異表示文字列抽出処理部(102)と、特異書式タグ書き込み処理手段である特異 書式タグ書き込み処理部(103)と、タグ復帰処理手段であるタグ復帰処理部(104) と、表示処理手段である表示処理部(105)とを設けている。
[0071] 以下、本発明では HTML形式のテキストデータを入力することを例として説述する 。図 2に処理の流れ図を示す。タグ付テキスト(2)はネットワークアダプタ(14)により 外部のサーバ装置等から取得した HTMLデータであり、周知のように、 HTML書式 に従ったさまざまなタグが含まれている。このようなタグにはリンク先を示すためのタグ や、表示書式を定めるためのタグが含まれているが、本発明ではすべて書式設定タ グと定義し、以下では略してタグと呼ぶ。
[0072] まず、タグ抽出処理部(100)において、タグ付テキスト(2)力 タグの部分を抽出す る。(ステップ S 1— 1)
テキストデータ中からタグ情報を抽出する方法は公知であり、 HTML形式の場合に は、タグはく Hl〉のように〈と〉によって囲まれて記載される。従って、この〈と〉をデータ 前方力も順に検索していくことでタグの抽出は行うことができる。
[0073] なお、ここで抽出するタグを限定して一部のタグだけを抽出するようにしてもよい。こ の場合、例えば記憶装置(13)に抽出すべきタグ又は抽出しないタグのデータべ一 スを備え、該データベースを参照しながらタグ抽出処理部(100)がー致するタグを抽 出するようにする。
[0074] このとき、データベースには後述する特異表示文字列抽出処理部(102)で抽出す る文字列に合わせて、特に混同を生じやすいタグだけ抽出するようにしてもよい。例 えば、科学記号について特異表示文字列として抽出する構成であれば、く Hl〉〜く H6 〉やく B〉やく I〉のように英字 1文字や数字との組合せ力 なるタグを登録してそのような タグにつ ヽて抽出することもできる。
[0075] そして、抽出されたタグをタグ待避処理部(102)が記憶装置(13)に待避処理する 。 (ステップ S 1— 2)
すなわち、タグと、そのタグが埋め込まれていたタグ付テキスト上の位置を記憶装置 内のタグ待避テーブルに順次格納し、タグ自体はテキストデータから除去する。
[0076] 図 3は入力したタグ付テキスト(30)からタグが除去される様子を示している。このと き、タグ待避テーブルには表 1のようなデータが格納される。表 1は最初の 3つのタグ のみを示して 、る。位置としては全てのタグを除去する前の先頭文字力 の文字数を カウントしている。
[0077] [表 1]
Figure imgf000018_0001
[0078] 次に、特異表示文字列抽出処理部(102)における処理 (S1— 3)を行う。該処理は 、本発明の特徴であり、ウェブブラウザ上で文字列を強調して表示するために当該文 字列を表示する。この処理部としては後述する科学記号の抽出や、差分抽出、キー ワード抽出などがあるが、ここでは、最も簡単な例として記憶装置に格納された文字 列を抽出する例で説明する。
[0079] 記憶装置(13)に、例えば 、くつかの文字列として "H"、〃He"、 "Li"などの特異表示 をする特異表示文字列を格納しておき、当該文字列に一致する文字列にっ 、てタグ を除去した後のテキストデータ力 抽出処理する。 特異表示とは、文字の色や大きさなど表示態様が他のテキストの表示態様と特異な ものであり、ユーザがウェブブラウザで閲覧したときに他と区別して読むことができる。 フォントの変更、太字、斜体、下線、網掛け、囲い文字、傍点、マーカー表示などの 表示態様でもよい。
[0080] そして、抽出された文字列の前後に特異表示するための書式設定タグを書き込む
。それには特異書式タグ書き込み処理部(103)の作用により特異書式タグ書き込み 処理 (S1— 4)が実行される。
具体的にはく font color="blue"〉とく/ font〉などの書式設定タグを当該文字列の前後 に追カ卩的に書き込む。
このような特異表示文字列の抽出(S 1— 3)と特異書式タグ書き込み (S 1— 4)によ り特異表示文字列を強調して表示させるタグを書き込むことができる。
[0081] 特異書式タグが書き込まれたテキストデータに対して、タグ復帰処理部(104)がタ グ待避処理 (S 1— 2)で待避したタグを、テキストデータ中に戻す処理を行う(ステップ
Sl— 5)。
該処理部(104)は記憶手段のタグ待避テーブル力 順に待避したタグを読み出し 、格納された位置に従ってタグを書き込む。すでに特異書式タグが埋め込まれている 力 位置がずれないように特異書式タグは文字数に含めずに位置をカウントする。
[0082] この処理を回避するために、特異表示文字列の抽出(S1— 3)後、抽出した文字列 を一次的にメモリに格納してタグの復帰処理 (S 1— 5)を行 、、その後特異書式タグ の書き込み処理(S1— 4)を行ってもょ 、。
[0083] 最後に表示処理部(105)によりモニタ(12)上でブラウザ表示を行う。(ステップ S1
6)
図 4はこのときのブラウザ画面を示して 、る。インターネット等の情報を表示するゥェ ブブラウザは公知であり、一般的にはウィンドウ(40)の 1つとして表示される。ウィンド ゥ(40)の最上段にはデータのタイトル (41)、 2段目にはウィンドウ又は OS上の処理 を指定するコマンド列 (42)力 3段目には表示ページを戻したり進めたりするボタン や、読み込みの中止ボタン (43)等が、 4段目には閲覧しているサーバとファイルの格 納ディレクトリが示されている。 [0084] 本発明では、これら一般的なブラウザの表示画面に加えて、特異表示を行うかどう かを切り替え可能なボタンをブラウザのウィンドウ内に配置することを提案する。すな わち、図 4に示されるように、テキストデータの表示領域 (45)の直上方にツールバー 領域 (46)を設け、該ツールバーにボタン (47)を配置する。
ユーザがブラウザで閲覧する際に、通常はネットワークアダプタ(14)から取得した タグ付テキスト(2)を表示処理部(105)が表示領域 (45)に直接表示するが、該ボタ ン (47)を押すと上記ステップ S1— 1〜S1— 6の処理を実行し、特異表示を行う状態 に切り替えする。
[0085] 特異表示は特定のコンテンツの場合に有効に作用するものであり、通常の閲覧時 には特異表示を行うとかえつて読みにくい場合があるから、このようにボタン (47)によ り簡便に表示状態を切り替えると好適である。
特に、ツールバーのように表示領域に近接(隣接する欄及び表示領域から一定の 距離内にある欄)した領域に配置することで上下 ·左右のスクロールバー (48)からも 近く直感的な操作が可能である。
実施例 2
[0086] 本発明の第 2の実施形態を図 5及び図 6に示す。本実施例では、実施例 1において タグを除去して記憶していたのに対し、所定の置換文字で置換することを特徴とする
[0087] 図 5は本発明の第 2の実施例に係るデータ表示装置 (5) (以下、本装置と呼ぶ)の全 体構成図である。第 1の実施例と同一の構成要素については同一の符号で示してい る。これらの説明は省略する。
CPU (10)にはタグ抽出処理部(100)と、タグ待避処理手段であるタグ待避処理 部(101)と、特異表示文字列抽出処理部(102)と、特異書式タグ書き込み処理部( 103)と、表示処理部(105)の他、タグ序列置換処理部(110)とタグ序列逆置換処 理部(111)とを設けている。
[0088] 図 6は本実施例の流れ図であり、まずタグ付テキスト(2)をネットワークアダプタ(14 )等力も入力してタグ抽出処理部(100)でタグを抽出(S2— 1)する。
[0089] そして、タグ序列置換処理部(110)力 該タグを除去すると共に、所定の置換文字 で置換処理 (S2— 2)する。置換文字としては、通常のテキストで用いられない特殊な 文字 ·符号が適当であり、例えば使用されて 、な 、表示上は空白の文字コードや、 特徴的な文字の組み合わせ、「(!%%!)」やギリシア文字とロシア文字の組み合わせ「 ζ Β」などを用いてもよい。
[0090] 置換処理(S2— 2)の詳細は、例えば図 3の例ではく TITLE〉から順に〈/TITLE〉、 <B ODY
BGCOし OR="FFFFFF"〉をそれぞれ (!%%!)【こ置換して!/、<。
一方、抽出されたタグは表 2に示すタグ序列テーブルとして記憶装置(13)に格納 する。
[0091] [表 2]
Figure imgf000021_0001
[0092] 本処理 (S2— 2)により、テキストデータ中には (!%%!)等の文字が書き込まれ、元のタ グは待避した状態になる。このようなテキストデータに対して、特異表示文字列抽出 処理部(102)により特異表示する文字を抽出する処理 (S2— 3)、特異書式タグ書き 込み処理部(103)により特異書式タグを書き込む処理 (S2— 4)を行う。これらは前 記した通りである。
[0093] そして、特異書式タグが書き込まれたテキストに対して、タグ序列逆置換処理部(11
1)によりタグを復帰させる処理 (S2— 5)を行う。
該処理 (S2— 5)は、(!%%!)の文字列を検出し、置換文字の最初から順にタグ序列テ 一ブルに格納されたタグの序列に従って再度逆置換を行う。本処理によってテキスト データに対してタグが復帰する。
[0094] 逆置換 (S2— 5)したタグ付テキストを表示処理部(105)の作用によってブラウザ表 示(S2— 6)する。
本実施例のような処理によると、タグの位置をカウントし、記憶する必要がないため 、タグの置換処理及び逆置換処理が簡便かつ迅速に行うことができる。
[0095] ここで、第 2実施例の別実施例として、所定の置換文字にさらに序列を付すこともで きる。すなわち、上記の置換文字を序列のある文字とする。ここで序列のある文字列 とは数字や英語のアルファベットなど、予め序列が定められたものである。視認可能 な文字の他、空白(NULL)が割り当てられた文字コードでもよぐデータ上、文字コー ドが割り当てられていれば視認不可能なものであってもよい。すなわち、空白でも文 字コードが順に増加 (又は減少)して 、けば序列が識別できるので本発明では利用 可能である。
[0096] 別実施例における置換処理(S2— 2)の詳細は、例えば図 3の例ではく TITLE〉を「# #1##Jに、〈/TITLE〉を「##2##」に、く BODY
BGCOLOR="FFFFFF"〉を Γ##3##]のように順に置換して!/、く。
一方、抽出されたタグは上記の表 2に示すタグ序列テーブルとして記憶装置(13) に格納する。
[0097] 本処理(S2— 2)により、テキストデータ中には ##1##等の文字が書き込まれ、元のタ グは待避した状態になる。特異表示文字列抽出処理部(102)以下の処理は上記と 同一である。
[0098] タグを復帰させる処理(S2— 5)は、 ##η## (ηは番号)の文字列を検出し、番号の序 列に従って、タグ序列テーブルに格納されたタグに再度逆置換を行う。本処理によつ てテキストデータに対してタグが復帰する。
[0099] 本構成によれば、置換文字自体に序列の情報を含むため単なるポインタとしての 機能だけでなぐタグとの対応関係を確定させる機能をもたせることができる。例えば 、通信の障害 (ネットワーク障害や、文字エンコードのエラーなど)によって一部の置 換文字が欠落した場合でも、それ以外の置換文字は適切に元の書式設定タグに逆 置換することができる。
実施例 3
[0100] 本発明の第 3の実施形態を図 7及び図 8に示す。本実施例では、タグ置換データべ ースを参照して、タグの種類に応じてタグを所定の符号に変換することを特徴とする。
[0101] 図 6は本発明の第 3の実施例に係るデータ表示装置 (7) (以下、本装置と呼ぶ)の全 体構成図である。第 1の実施例と同一の構成要素については同一の符号で示してい る。これらの説明は省略する。 CPU (10)にはタグ抽出処理部(100)と、タグ待避処理手段であるタグ待避処理 部(101)と、特異表示文字列抽出処理部(102)と、特異書式タグ書き込み処理部( 103)と、表示処理部(105)の他、タグ置換処理部(120)とタグ逆置換処理部(121 )とを設けている。
[0102] 図 8は本実施例の流れ図であり、まずタグ付テキスト(2)をネットワークアダプタ(14 )等力も入力してタグ抽出処理部(100)でタグを抽出(S3— 1)する。
[0103] そして、タグ序列置換処理部(110) 1S 該タグを除去すると共に、表 3に示すような タグ置換データベースを参照して所定の符号に置換処理 (S3— 2)する。
[0104] [表 3]
Figure imgf000023_0001
[0105] ここで、置換文字列として (! _などの特徴的な符号で囲まれた文字列を用いることに より、タグとその他の記号とを明確に識別することができる。このうち、タグにカラーコ ードゃリンク先のアドレスなど、固有の情報を含む場合には、表 3の BODY
BGCOLORの項目で示したように置換文字列中に固有情報をコピーするようにしても よい。
[0106] 置換されたテキストデータに対して、特異表示文字列抽出処理部(102)により特異 表示する文字を抽出する処理 (S3— 3)を行う。このとき、(しと _!)で囲まれた文字列 に対しては該処理 (S3— 3)を行わな!/、ようにすることで、誤ってタグを抽出する恐れ がなぐ高精度な処理に寄与する。
特異書式タグ書き込み処理部( 103)により特異書式タグを書き込む処理 (S 3— 4) を行う。これらは前記した通りである。
[0107] そして、特異書式タグが書き込まれたテキストに対して、タグ逆置換処理部(121) によりタグを復帰させる処理 (S3— 3— 1)を行う。
該処理 (S3— 3— 1)は、表 3のようなテーブルを参照して (! _と_!)とで囲まれた置換 文字列を、元のタグに逆置換する処理である。
本処理によってテキストデータに対してタグが復帰する。
[0108] 別実施例として、(しと _!)からなる符号内に、タグの序列 nを加えて例えば (し T_n_!) のようにすると共に、カラーコードなどの固有の情報は別に記憶装置(13)に格納す ることもできる。そして、タグ逆置換処理部(121)では序列 nに従って、固有情報を記 憶装置(13)力も読み出し、タグを復帰させることもできる。
[0109] ところで、置換に用いるタグ置換データベースと、逆置換に用いるタグ逆置換デー タベースは必ずしも可逆的な関係である必要はなぐタグ置換データベースでは略 同一な意味を有する複数の種類のタグを、同一の符号に変換し、タグ逆置換データ べースで 、ずれか 1種のタグに統一して変換するようにしてもょ 、。
[0110] また、本発明では必ずしも逆置換するステップ (S3— 3— 1)は必須ではなぐタグ 置換データベースとして、例えば表 4のようなテーブルを格納し、不要なタグや特に 誤処理する可能性の高 、タグのみを除去 (NULLに変換)するようにしてもよ 、。
[0111] [表 4]
Figure imgf000024_0001
[0112] この場合、逆置換を行わないので一部のタグが失われるが、特異書式表示を行うた め、必要な文字列についてはより効果的に表示することが可能である。本発明では、 ユーザに特定の文字列を強調して示すことが目的であるから、本構成も有効に作用 しうる。
[0113] 最後に、特異書式タグを書き込まれたタグ付テキストを表示処理部(105)の作用に よってブラウザ表示(S3— 5)する。
本発明は、以上に示したとおり、特異表示文字列を抽出する際に、テキストデータ 中のタグを実施例 1から 3の方法で置換するものであり、好適に特異表示することを 目的としている。
以下、特異表示文字列の抽出処理について、詳細な例を示す。
[0114] (科学記号を抽出する実施例)
まず、特異表示文字列抽出処理部(102)において、科学記号を抽出する処理の 例を説述する。本実施例における特異表示文字列抽出処理部(102)の構成図を図 9に示す。本図は上記実施例における CPU (10)内の特異表示文字列抽出処理部( 102)の構成をさらに詳細に示す図であり、 CPUにおける処理として科学記号抽出 処理部(120)と文字列表示決定処理部(121)を設ける。また、記憶装置(13)には 科学記号と発現条件を格納したデータベース(122)を備えて!/ヽる。
[0115] 図 10に示すように、本処理部(102)に対してタグを待避《除去したタグ待避後テキ スト( 130)を入力(131)する。最初に入力するタグ付テキスト(2)としては英語等のラ テン文字を用いた科学論文の場合に本発明は最も有効に作用する。
そして、該タグ待避後テキスト(130)から化学記号や物理記号、特に元素記号、電 子配置、分光記号などの自然科学で用いる記号及び化学式、数式などの式を抽出 表示する。本発明ではこれらを総称して科学記号と呼ぶ。
[0116] 入力されたテキストデータ力 科学記号抽出処理部(120)において予め科学記号 とその発現条件を格納したデータベース(122)を参照して科学記号の抽出処理( 13
2)を行う。
図 11に示すような元素記号が含まれた論文を入力すると、文頭から各文字列を順 に読み出し、データベース(122)に含まれる科学記号情報と照合する。合致する文 字列があるとその文字列を抽出し、どのような表示態様で表示をおこなうか決する文 字列表示決定処理部(121)にて処理を行う。
[0117] ここでデータベース(122)の内容例を図 12に示す。データベースには各元素記号 等(140)に対応して、それが単体でテキスト上に発現したときの科学記号である確度 (141)が定義されている。例えば水素 (H)に対しては 0. 1、ヘリウム (He)に対して は、 0. 2、リチウム(Li)に対しては 0. 5と! /、うように定義して!/ヽる。
[0118] このように各元素に対して確度が異なるのは、元素記号が英単語と一致することが あり、その一致の可能性の大小によって定義している力もである。すなわち、 Heの場 合、英単語の彼を表す Heと一致しているため、文頭に単独で発現した場合には「He (彼)」か「He (ヘリウム)」かの判断が難しい。そのため確度は 0. 1となる。一方、ネオ ン 6」の場合、英語で文頭に Neが書かれる場合は極めて希であるから、確度は 0. 7として!/、る。
[0119] このように確度は対象とする言語によっても異なるため、テキストの言語に応じてそ れぞれ定義されることが望ましい。例えば日本語論文の中で Heが発現するのは通常 は多くな 、ため、より高 、確度を定義してもよ 、と考えられる。 [0120] 本発明の構成では、以上の確度を取得することにより、文字列表示決定処理部(1
21)で確度に応じた文字色を決定し、特異書式タグ書き込み処理部(103)で当該文 字色に応じたタグを書き込む。
各確度に対する表示色は予め特異表示文字列抽出処理部(102)上に設定する。 文字色としては次のような実施形態が挙げられる。
[0121] すなわち、テキストの全文又は一領域が黒色である場合、確度が閾値以上の場合 にそれを赤色で表示する一方、閾値よりも低 、場合には色を変化させな 、ことができ る。この場合、例えば閾値を 0. 2とすると Hは黒色のまま、 Heは赤色で表示されるこ ととなる。データベース(122)の通り、元素名を表す英語名称 (hydrogenなど)は確度 がいずれも 1であるから、すべて赤色で表示される。
[0122] この方法は科学記号が特有な場合には簡便であるが、元素記号のケースでは色を 変化させられないものや、誤って変化させてしまうものが多く見られる。そのため元素 記号などの場合には次のような実施形態をとることが望ましい。
すなわち、確度に応じて表示色を変化させる構成である。この場合に閾値を 2個以 上備えておき、例えば閾値 0. 6以上の場合には赤色、 0. 1以上 0. 6未満の場合は 灰色で表示すると定義しておく。
[0123] この場合、 Neや元素名称は赤色、それ以外の元素については灰色で表示される。
ここで赤色とはテキストを表示する基本文字色(黒色)と色相が異なる色の例であり、 色相が異なることで読者は完全に当該文字列を識別することができる。黒色の基本 文字色に対してピンク色、黄色なども好適である。
一方、灰色とは基本文字色と明度が異なる色の例である。基本文字色と明度が異 なるだけの場合、読者は強い違和感を覚えることがない。特に意識しない限り閲読を 妨害しないので快適に閲読することができる。逆に意識をして読むと、明らかに基本 文字色と異なるので明確に視認することができる。
[0124] このように本方法によれば、確実に科学記号と判定できるものについては読者に強 く提示する一方、不確実なものについては注意を促す程度の表示が可能である。明 度と共に彩度を変化させる構成でもよ 、。
なお、色相、明度、彩度は特異表示文字列抽出処理部(102)で周知の技術により 変化させ、モニタ(12)力 表示することが可能である。
[0125] ここで本発明の特徴として確度を算出する時に発現条件に基づいて行うことが挙げ られる。以下にこの点を説述する。
本発明における発現条件とは確度を算出する科学記号がテキストデータ中でどの ような条件下で発現して 、るかを定義したものである。例えば上述した例では各元素 が「文頭に単独で発現した」ことを条件として 、る。すなわち文字列表示決定処理部( 121)ではピリオド、読点、改行コードなどに基づいてその発現位置が文頭であるか 否かを判定する。
[0126] 発現条件を用いた確度 Yの算出は文字列表示決定処理部(121)において次式に 従って行う。
[0127] (数 1) Y=p(str)+∑a (str) X x
上記において p(str)は科学記号候補文字列 strの基礎となる確度(141)、 a(str)は科 学記号候補文字列 strに対するデータベース(122)の発現条件 iで定められた確度 であり、 Xは発現条件 iに該当するときに 1、該当しないときに 0をとる。
[0128] 従って、 strが「H」であるとき、後述するように文頭(142)になく(X =1)、連接(143)
cap
する文字列がなく(X =0)、イオン表記(34)でない (X =0)場合には、 0.1+0.1*1+0.2
cohere ion
*0+1*0=0.2が求める確度となる。
なお、上記の X x x
cap、x
cohere、 ionはそれぞれ数 1における ιの発現条件として「文頭に ない」「連接する文字列がある」「イオン表記である」に対応するパラメータである。
[0129] タグ待避後テキスト(130)から科学記号抽出処理部(120)で抽出された科学記号 候補文字列がピリオド等の直後に配置される場合には文頭に発現したものと判定で きるので、上記データベース(122)の文頭位置に対応する各確度を取得する。
[0130] しかし、同時にデータベース(122)には当該文字列が文頭でない場合の確度を格 納している。これに係る項目が図 12の capで表示された欄(142)である。データべ一 ス(122)の 2行目は、文頭でない位置に「He」が出現した時にその確度は 1を加算す ることを意味している。従って、この場合確度は 1. 2となる。実際には本実施例では 確度が 1を最大と規定しており、 1を超えた確度は全て 1として処理する。
[0131] なお、本発明の実施形態としてデータベース(122)中に大文字を含む文字列が掲 載されて!ヽる場合には大文字と小文字を掲載されて!ヽる通りに区別し、小文字だけ で表記された文字列については全て小文字の他、全て大文字、それらの混在、いず れも抽出対象としている。
英語の場合には文頭以外に先頭が大文字の文字列が配置されていれば固有名詞 等である可能性が高ぐこのようにすることで 1文字目を一般的に大文字で表記する 元素記号等を高精度に表示することができる。
[0132] 本発明の発現条件としては文頭力否かだけでなぐデータベース(122)上に掲載 された他の文字と分かち書きを行わずに連接して表記されている場合の確度を定義 している。本項目は欄(143)の cohereに続く数値でありこれに基づいて確度を算出 する。例えばデータベース(122)の 8行目にある Oの場合、単独で文頭にある場合 には確度は 0. 1である力 仮に Hと連接して OHと記載されていた場合、確度は 0. 2 が加算されて 0. 3となる。
以上の構成により OHのように連接した場合には単体の Oよりも確度が高く評価され るため、正確な表示を行うことができるようになる。
[0133] なお、 OHのように 2個の連接でなぐ 3個以上の科学記号候補文字列が連接した 場合にも確度はそれぞれについて 0. 2を上限として加算するようにしている。これは 、略語など大文字が連続した場合でも必ずしも科学記号とは言えな 、場合が多!ヽた めであり、徒に確度が高まるのを防ぐようにして 、る。
[0134] これと関連して、科学記号と判定されやすい特定の文字列について確度を下げる データベースを外部記憶装置(13)に備えてもよい。科学記号除外文字列データべ ース(図示しない)として設け、科学記号抽出処理(132)において該データベースと 一致した場合には抽出しないようにすることができる。すなわち、 Convergent Close- Couplingや Small Office Home Officeを示す CCC、 SOHO等の文字列の場合、これ らを構成する文字列は 、ずれも科学記号であって、連接することから確度が上昇し やすい。しかし、抽出処理の段階で科学記号除外文字列データベースに一致した文 字列については抽出結果から取り除く処理を行う。
もちろん、科学記号除外文字列データベースを用いずに本発明は構成することが できる。 [0135] あるいは、確度算出処理(133)において、該科学記号除外文字列データベースと 一致する文字列につ 、ては確度を 0になるように算出処理をおこなってもよ!/、。この 場合、科学記号除外文字列データベースを別に設けず、上記科学記号及び発現条 件を格納したデータベース(122)に例えば確度 10として登録してぉ 、てもよ 、。 計算結果で負となる場合に確度 0として処理することで、これらの文字列は!、ずれも 確度 0となり、科学記号候補から除外される。
[0136] 上記構成に加えて、連接する各文字列に対して、連接文字列中で最も確度が高く なる文字列と等し 、確度を設定することができる。
上記の OHを例にとると、 Oの確度は文頭であって Hと連接するため確度は 0. 3、 H の確度は文頭でなく Oと連接することから 0. 8となる。このような場合、 Oの確度は連 接文字列中で最も高い 0. 8と設定する。
本構成により、一連の連接する文字列間で確度に整合性がとれるだけでなぐ文字 色を確度によって変化させた場合に視認しゃすい表示に寄与する。
[0137] 科学記号候補文字列の並びについては他にも次のような処理が可能である。
まず、分子構造を表す場合などハイフンを用いて元素を接続することがある。本実 施例では上記連接の場合と同様にハイフンで接続された文字列も処理する。このよう に科学記号を接続するのに用いられる文字記号を予め記憶させておき、該文字記号 で接続されて ヽる場合には連接して ヽるのと同様の処理を行わせてもよ 、。
[0138] あるいは上記のように連接した場合に連接文字列中で最も高 、確度を各文字列に 設定するのではなぐ所定の確度以上の文字列と連接する場合に、各確度を上昇さ せるように構成してもよい。すなわち、データベース(122)に例えば highという項目を 設けて、閾値 0. 6以上の科学記号候補文字列と連接した場合に、確度 + 0. 7又は 0 . 8を定義する。この場合、上記 OHの例で言えば、 Hの確度が 0. 8で閾値以上であ るため、 Oの確度も例えば 0. 7加算されて 1となる。
[0139] さらに、連接の概念をより広めて構成することもできる。すなわち、本発明に言う連 続とは、科学記号候補文字列が連接した場合、ハイフンで接続された場合に加えて 、当該テキストデータの言語における接続詞等を用いて接続した場合を含めても良 い。英語であれば、複数の名詞を並列する場合に、 A,B and Cのように、コンマと文字 列 andで接続される。
このとき、抽出された科学記号候補文字列間にコンマ又は andや orなどを含む場合 に、連接しているのと同様 (この場合を並列と呼ぶ。)に処理することができる。
[0140] 並列の場合にも、全ての並列する科学記号候補文字列の確度を並列文字列中で 最大確度に合わせてもよいし、データベース(122)に定めた値を加算するようにして もよい。後者の場合には、連接の場合とは異なる数値を定めることもできる。
以上のように連接や並列の場合に、他の科学記号候補文字列の確度を互いに影 響させることで高精度な表示を行うことができる。
[0141] 発現条件は対象とする科学記号に合わせて適宜定義することができる。例えば元 素記号の場合にはイオンを示すプラス ·マイナス記号が付されることが多ぐこれらが 付された場合には極めて高い確度で科学記号と判定できる。
具体的にはタグ待避後テキスト(130)中に、タグなどによって書式指定がされ、 Inく s up〉+〈/sup〉のように、上添字の +によるイオン表記となる科学記号を検出する。同様 に (n+)や (n— ) (nは任意)などの所定の書式の場合に、図 12における欄(144)に 従って確度を 1とする。
[0142] 同様に例えば分光記号における SPDFなどの文字列や、原子軌道を示す s軌道、 p 軌道の電子配置、遺伝子の塩基配列における A、 G、 T、 C、 Uなどの文字列を他の 文字との組み合わせで確度を算出するようにしてもょ 、。
これらの科学記号は文字の記載順序など確立されたルールに従って発現するため
、本発明のように発現条件を付与可能なデータベース(122)を用いることで効果的 に抽出することができる。
[0143] イオン表記や、他の文字との組み合わせで確度が高くなつた科学記号について、 同一のテキストデータ中で単独で出現した場合にもその確度を上げる処理をおこな つてもよい。
すなわち、一度全部のテキストデータにつ 、て確度算出( 133)を行ってイオン表記 等による確度の確定を行い、同ステップ(133)内において再び抽出された各科学記 号候補文字列につ 、て確度の再定義処理を行う。
本処理では、イオン表記など所定の発現条件に合致した文字列について、単独で 現れているものを抽出し、その確度に所定値、例えば +0. 7を加算する。あるいは、 上記イオン表記等で定義された確度と同一値を与えてもよい。
本処理によれば、イオン表記や他の文字との組み合わせの出現によって単体でも 現れる蓋然性の高 、文字列にっ 、て高 、確度を定義することができる。
[0144] 本発明の別実施例として、図 13に示すような形態素解析処理部(150)を備えた特 異表示文字列抽出処理部(102)を提供することができる。
形態素解析については公知の技術であり、日本語の形態素解析技術として例えば 茶筌 (非特許文献 2に開示されている)を用いることができる。
非特干文献 2: chasen.aist-nara.ac.jp
[0145] また、分かち書きをする英語などのラテン文字を用いるテキストデータでは形態素 への分割は容易であるが HMMなどの統計的手法により同様に解析処理が行える。 形態素解析を用いて品詞を見分けることも行われて 、る。
[0146] 形態素解析処理は図 14に示すように前述の実施例における科学記号抽出ステツ プ(22)の前に行う。このとき周知のように外部記憶装置(13)に格納された形態素解 析辞書(152)を用いながら解析する。上記実施例ではデータベース(122)に掲載さ れた情報と照合することで科学記号を抽出(132)したが、本実施例では解析の結果 得られた形態素と該データベース(122)の内容とを比較して一致するものを抽出(1
32)する。
[0147] 形態素解析をすると、形態素の区切りがより正確になるためデータベース(122)と の照合も確実に行うことができる。さらに形態素解析で各形態素の品詞を取得するこ とができる。これを利用し、データベース(122)に文字列と共に品詞情報を付与し、 上記と同様にその場合の確度を定義しておくこともできる。
本構成によると、例えば Heが名詞であれば元素名である確度を高く定義する一方 、代名詞であれば科学記号である可能性は極めて低!、ため確度を 0となるように「-10 」と定義することちできる。
以上のような別実施例によりさらに高精度なデータの表示装置を提供することが可 能である。
[0148] さらに本発明では、ある科学記号は特定の文字列と共にテキストデータ中に現れる ときに、科学記号である確度が高いことに着目して次のような処理を行うこともできる。 すなわち、特定の文字列を手がかり表現とし、テキストデータ中の同一文あるいは前 後所定の形態素数内にぉ 、て科学記号と共起しやす!、文字列(手がかり表現)が抽 出されるときに、対応する科学記号の確度を高める。本構成は、科学記号抽出処理 部(120)において、科学記号を抽出すると共に、図 15に示すように手がかり表現テ 一ブル ( 154)を参照して手がかり表現を抽出( 153)する。
[0149] 手力かり表現テーブルには、例えば元素記号と共起しやすい表現である「-like ion
」などと、各元素記号との組み合わせを格納しておく。
そして、共起文字列「-like ion」が抽出された場合には、組み合わせとして定義され ている各科学記号候補文字列の確度を確度算出(133)において上昇させる。上昇 値は上記のようにデータベース(122)中に定義しておくか、手がかり表現テーブル( 共起文字列テーブル) (154)中に共起した場合の確度の値を定義しておく。
[0150] 上記では手が力り表現テーブルを予め人手によって定義する力 これを自動化して 該テーブルを構成することもできる。本処理を図 16に示す。
本処理には一般的な例文として科学記号を含むテキストコ一パス(155)を用いる。 該コーパスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定 義されて!/ヽる。文字列が科学記号か否かも定義されて!ヽる。
なお、本発明では単語列の形態素、品詞などが定義されていないコーパスを用い ても良ぐその場合には公知の形態素解析器(図示しない)や辞書データベースを用 V、てこれらを自動的に付与した後に、次の処理に進んでもょ 、。
[0151] まず、テキストコ一パス(155)からデータベース(122)を参照して科学記号候補文 字列を抽出(156)する。
そして、該テキストコ一ノ ス(155)中の当該科学記号候補文字列を含む同一文に 共起する文字列(手が力り表現候補)を抽出する。テキストコ一パス(155)内の全文 について手力かり表現候補が科学記号候補文字列と共起する回数 N1をカウント(1 57)する。
[0152] 次に、当該手が力り表現候補を含む文について、当該科学記号候補文字列が現 れない回数 N2をカウント(158)する。すなわち、科学記号候補文字列と手がかり表 現候補が共起せず手力 Sかり表現候補のみが単独で現れる回数である。 さらに、 N2が 0でなければ N1ZN2を算出(159)することにより、共起する割合が 所定の閾値以上である力否かを確認する。 N2が 0の場合には閾値以上のときと同様 に処理を行っても良いし、 N1が所定回数、例えば 3回以上の場合にだけ同様の処 理を行っても良い。
あるいは、 N2がすべての場合に適用しうるように、 N1ZN2の算出(159)に替えて NlZ (N1 +N2)を算出する構成でもよ 、。
[0153] 加えて、上記の回数 N1が回数 N2よりも有意に大きいことを二項検定などの公知の 統計的検定の手法に基づいて確認(160)し、確認が取れた場合に、当該手がかり 表現候補と科学記号候補文字列との組み合わせを手がかり表現テーブル(154)に 記録する。
[0154] 本実施例で二項検定を行う方法を説述する。
初期値として、一回の試行で科学記号候補文字列と手がかり表現候補とが共起す る確率及び、科学記号候補文字列と手がかり表現候補とが共起せず後者だけが単 独で出現する確率をそれぞれ 0. 5とする。
そして、 N1 +N2の総出現のうち N2回以下、科学記号候補文字列と手がかり表現 候補とが共起せず手が力り表現候補のみが出現した確率を求める。
すなわち、この確率
[0155] (数 2)
P1 =∑
C(N1+N2,x) * 0.5X * 0.5N1+N2_X ただし、∑は、 x=0から x=N2の和、 C(A,B)は A個の異なったものから B個のものを取 り出す場合の数である。
[0156] で表され、この確率の値が十分小さければ N1と N2は等価な確率でない、すなわち 、 N1が N2に比べて有意に大きいことが判断できる。
そして、 5%検定ならば上記 P1が 5%よりも小さいこと、 10%検定ならば P1が 10% よりも小さ 、こと、が有意に大き 、かどうかの判断基準となる。 [0157] 上記では同一文としたが、単に同一文ではなぐ共起する表現を前方で連接する 単語列 (前方 1単語列に共起する)や共起する表現を後方で連接する単語列 (後方 1 単語列に共起する)手力 Sかり表現候補に限定してもよい。単語列としては形態素や、 形態素の集合を用いることができる。
[0158] 科学記号候補文字列の確度を高精度に算出する別の方法として、次の技術を組 み合わせて用いることもできる。
本技術は科学記号候補文字列が、一般的な文章に比して多く出現する場合には 当該文字列が科学記号である確度が高いと判定するものである。例えば、 leadという 文字列を考えたとき、これは科学記号 (元素名)である可能性と、「導く」などを意味す る英単語である可能性とがある。
[0159] 後者の意味の英単語は一般的な文章において頻繁に出現することは少ないが、科 学論文において鉛を話題にした文章では頻繁に出現する。この場合、科学記号とし て処理するのが好適である。
そこで、図 17に示すように、まずタグ待避後テキスト(130)から科学記号を抽出した とき、抽出された当該科学記号の個数と該タグ待避後テキスト(130)を構成する全単 語数との比、すなわち出現率 R1 (当該科学記号候補文字列の出現数 Z全文字列総 数)を算出(162)する。
[0160] 次に、一般的なテキストコ一パス(163) (例えば新聞記事)を用いて、同様に該テキ ストコーパス(163)における当該科学記号候補文字列の出現数 Z全文字列総数を 算出(164)する。これを出現率 R2とする。
そして、出現率の比 R1ZR2を算出(165)し、所定の閾値より大きいか否かを判定 する。
カロえて、上記の R1が R2よりも有意に大きいことを比の検定、またはカイ二乗検定な どの公知の統計的検定の手法に基づ ヽて確認(160)し、確認が取れた場合 (例え ばカイ 2乗検定で 1%水準、又は 5%水準等で有意と認められた場合)に、当該手が カゝり表現候補と科学記号候補文字列との組み合わせを手がかり表現テーブル(154 )に記録する。
[0161] 上記カイ 2乗検定について説述すると、 R1を計算する分母、分子をそれぞれ Nl、 Flとし、 R2を計算する分母、分子をそれぞれ N2、 F2とする。
N=N1 +N2として、カイ 2乗値は次式により求められる。
[0162] (数 3)
カイ二乗値 =
(N*(F1*(N2-F2)-(N1- F1)*F2)2)/((F1+F2)*(N-(F1+F2))*N1*N2)
[0163] そして、このカイ二乗値が大きいほど R1と R2は有意差があると言え、例えばカイ二 乗値が 3.84よりも大き 、とき危険率 5%の有意差があると言え、カイ二乗値が 6.63より も大きいとき危険率 1%の有意差があると言える。
[0164] 次に比の検定を用いる場合を説述する。まず、
[0165] (数 4)
P =
(F1+F2)/(N1+N2)
Pl =
Rl
p2 =
R2 と定義する。
そして、 2群の比率の差の検定における検定統計量は、
[0166] (数 5)
Z =
|pl-p2|/^(p*(l-p)*(l/Nl+l/N2) ) で表される。
このとき、 Zが大きいほど、 R1と R2は有意差があると言え、 Zが 1.96よりも大きいとき 危険率 5%の有意差があると言え、 Zが 2.58よりも大きいとき危険率 1%の有意差があ ると言える。 [0167] これらの実施例において確度をデータベース(122)に予め定義する構成を説述し た。しかし以下のようにテキストデータ力も確度を自動的に修正する構成を用いること ちでさる。
図 18に示すように、テキストを入力(131)した後、科学記号を抽出( 132)する際に 、タグ待避後テキスト(130)中の科学記号候補文字列の数をカウント(170)する。該 カウントは CPUにより公知の方法で実行処理することができる。
[0168] そして、該カウントが予め定めた閾値 (例えば 500ワード中に 5回以上などと定義す る)である場合(171)には、データベース(122)に定義された確度を上昇させる書き 換え処理(172)を行う。
このように書き換えられたデータベース( 122)を用 、て確度の算出を行うことで、頻 繁に出現する文字列につ 、ては科学記号であるとの判定が出やすくする。本方法が 有効であるのは例えば英語の前置詞と元素記号が同一スペルの場合に、そのスぺ ルの文字列が一定以上多い場合には、そのテキストデータには当該元素記号に係る 内容が含まれている可能性が高ぐこれらをもれなく抽出表示するためである。
[0169] また、 Nや Oなどの大文字 1文字の場合にも有効であり、文頭以外の場所に頻繁に これらの文字が発現する場合には、文頭に発現した際にも科学記号であるとの判定 が出やすくなる。
[0170] なお補足すると、データベース(122)には確度ではなく表示色を直接定義してもよ い。この場合、発現条件毎に表示色を直接定義し、上記同様の効果を奏する。 また、本実施例では表示色を変更する構成を開示したが、色ではなく書式を変化さ せる構成でもよ 、。周知のようにテキストデータの表示態様としては文字フォントの変 更ゃ下線の付与、網掛け表示、括弧による範囲表示などが知られており、これらを用 V、て文字色を変化させる代わりに所望の範囲を読者に表示することができる。
[0171] 以下には、本発明の具体的な実施例として、表示色と各科学記号候補文字列の判 定ルールにつ 、て説述する。
図 19は、本発明における表示色の定義である。図示のように、ルール 1, 3, 4, 5, 6, 7, 8を定め、それぞれにルール 1では原子 '分子'イオンを表現する場合に桃色 で表示すること、ルール 3では電子配置の表現に黄色で表示すること、のように定義 している。
なお、ルール 2は欠番である。
[0172] 上述した発現条件と関連して、ルール 1の判定には電子 eや、 +/_の上下添字、原 子名に上下添字、 IVXivxの表現、 "like'Tic"についても同様に桃色で表示すること を定義する。
ルール 3の判定では、「数字 *」(*はあってもなくても良いことを示す。以下同じ。 )
「s/p/d/f/g」「上下添字 *」の一回以上の繰り返しでかつ、数字が少なくとも 1回は含 まれることを条件とする。
[0173] ルール 4の判定では、「上下添字 *」「S/P/D/F/G」「上下添字 *」の一回以上の繰 り返しでかつ、「上下添字」が少なくとも 1回は含まれることを条件とする。
また、上記ルール 1と競合した場合は下のより厳密な規則を採用する。
すなわち、「上添字 *」「S/P/D/F/G」「下添字 *」の一回以上の繰り返しでかつ、 添字の中身は 1から 4に限られ、上下添字の 、ずれかは出現する条件とする。
[0174] ルール 5の判定では、「n/l」「=/〈/〉」の一回以上の繰り返しや、数字を条件として水 色で表示する。
ルール 6の判定では、「(ルール 3の表現)のゼロ回以上の繰り返し」「数字/ n/n-bar 1」が出現した場合に、橙色で表示する。
[0175] ルール 7の判定では、英語アルファベット大文字一文字力 なる原子名について、 まわりに手がかり表現 (-like ion等)などがなければ、原子名でな 、可能性が高 、と判 断してルール 7に分類する。また、英語アルファベット大文字一文字カゝらなる原子名 が連続した表現や "Rev"、の場合にも手力かり表現がなければ同様にルール 7に分 類する。
As,In,At,Heが文頭に出現した場合、前置詞や代名詞の可能性が高いためルール 7に分類する。
[0176] さらに以上のような表示色のルールによっていずれの条件にも合致しなかったもの の、科学記号候補文字列として抽出されたものをルール 8とし、濃い灰色で表示した 以上のような表示色のルールは、上記確度の算出結果に連動しており、データべ ース( 122)の構成を適切に設計することによって実現して 、る。
[0177] (タグを含まない科学論文等を対象とするテキスト表示装置の実施例)
本発明において、科学記号を含むテキストを対象とする場合には、書式設定タグを 含まない通常のテキストを表示させることもできる。具体的には上記のタグ待避後テキ スト(130)は、タグが待避されて書式設定タグを含まないテキストであるから、これの かわりに最初力も通常のテキストを入力すればょ 、ことになる。
[0178] 図 20は本実施例に係るデータ表示装置 (20)の全体構成図である。本発明は公知 のパーソナルコンピュータにより容易に実現することが可能であり、演算処理やテキス ト処理などを司る CPU (21)によって本発明の各ステップを実行処理する。 CPU (21 )は周知のようにメモリ(22)と協働して動作し、キーボード(23)やマウスなどの入力 手段の他、出力結果を表示するモニタ(24)、ハードディスク等の外部記憶装置(29) などを備えている。
[0179] 図 21に示すように、本装置(20)に対して論文などのテキストデータ(200)を入力 処理部(25)の作用によって装置に取得 (201)する。テキストデータ(200)としては 英語等のラテン文字を用いた科学論文の場合に本発明は最も有効に作用する。 そして、該テキストデータ(200)から化学記号や物理記号、特に元素記号、電子配 置、分光記号などの自然科学で用いる記号及び化学式、数式などの式を抽出表示 する。本発明ではこれらを総称して科学記号と呼ぶ。
[0180] 入力されたテキストデータ力 科学記号抽出処理部(26)において予め科学記号と その発現条件を格納したデータベース(203)を参照して科学記号の抽出処理(202 )を行う。該データベース(203)は外部記憶装置(29)内に格納される。該処理(202 )は、上記における科学記号抽出処理(132)と同様である。
そして、上記における確度算出処理(133)と同様の確度算出処理 (204)を文字列 表示決定処理部(27)で行い、さらに確度に応じた文字色を決定(205)し、表示部( 28)の処理によってモニタ(24)上にテキストを表示(206)する。
[0181] (文書差分を抽出する実施例)
本発明の特異表示文字列抽出部(102)の処理に、本件出願人が特許文献 2で記 載した文書差分検出装置の構成を用いることができる。 すなわち、図 22は本実施例における特異表示文字列抽出部(102)の原理説明図 である。特異表示文字列抽出部(102)には抽出'検出領域設定部(180)が設けら れ、格納手段( 13)が接続されて!、る。
[0182] 詳細はすでに特許文献 2に開示されている力 抽出'検出領域設定部(180)は、 テキストデータの差分として出力する対象の単位である抽出単位とテキストデータの 差分を検出するために比較する領域の単位である検出領域とをキーボードやマウス 等の入力手段(11)からの入力された設定情報、又はメモリ又は外部記憶装置(13) 力 なる記憶部に記録された設定情報の 、ずれかに基づ 、て設定する。
[0183] 抽出単位としては、「単語」「漢字」「名詞句」などが考えられる。また、検出領域の単 位とは、差分を検出するために比較する領域の単位のことである。検出領域の単位 には、「文字」「単語」「文」「箇条書きの項目」「段落」などを用いることができる。
[0184] なお、本発明では必ずしも抽出'検出領域設定部(180)を設けずに予め抽出単位 と検出領域を定義しておき、処理の度に設定しな 、ように構成してもよ!/、。
[0185] (1)該構成において、特異表示文字列抽出部(102)は、入力されたテキストデータ の現在の該検出領域以外の領域力 全ての該抽出単位に相当するものを抽出して 該格納部(13)に格納し、現在の該検出領域において、該格納部に格納されていな ぃ該抽出単位に相当するものを特異表示文字列として抽出すると共に、該抽出部の 処理を該検出領域ごとに繰り返す。
[0186] (2)あるいは、特異表示文字列抽出部(102)が、入力されたテキストデータの現在の 前記検出領域において、前記格納部(13)に格納されていない前記抽出単位に相 当するものを強調表示して現在の検出領域の文書を出力し、前記強調表示したもの を前記格納部(13)に格納することを、前記検出領域ごとに繰り返す。このため、新し く出現する抽出単位に相当するもの(例えば単語)を容易に抽出して表示することが できる。
[0187] (3)前記(1)又は(2)の特異表示文字列抽出部(102)において、前記格納部(13) に予め前記強調表示しない前記抽出単位のデータを格納する。このため、予めそれ ほど重要でな 、表現を強調表示しな 、ようにでき、見やすくすることができる。
[0188] (4)前記(1)〜(3)の特異表示文字列抽出部(102)において、前記抽出単位として 、単語の単位とする。このため、新しく出現する単語を抽出表示することができる。
[0189] (5):前記(1)〜(4)の特異表示文字列抽出部(102)において、前記検出領域の単 位として、箇条書きの単位とする。このため、箇条書き間の違いを容易に理解すること ができる。
[0190] (6):前記(1)〜(4)の特異表示文字列抽出部(102)において、前記検出領域の単 位として、特許請求の範囲の単位とする。このため、特許請求の範囲の特徴や違い を容易に理解することができる。
[0191] (キーワードを抽出する実施例)
本発明の特異表示文字列抽出部(102)の処理に、本件出願人が特許文献 3で記 載したキーワード強調装置の構成を用いることができる。
すなわち、図 23は本実施例における特異表示文字列抽出部(102)の原理説明図 である。特異表示文字列抽出部(102)には抽出単位設定部(181)、抽出表現設定 部(182)、抽出領域設定部(183)が設けられ、格納手段(13)が接続されている。
[0192] (A)抽出単位設定部(181)は抽出の単位を設定し、抽出表現設定部(182)は特異 書式で表示する抽出表現を設定する。抽出領域設定部(183)は抽出領域の場所を 設定する。
該構成において特異表示文字列抽出部(102)が、該抽出領域より抽出の単位に 相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前 記テキストデータ中に現在の該抽出の単位に相当するものと同じもの力 該格納部 に格納されて ヽる場合は、それを特異表示文字列として抽出する。
[0193] なお、本発明では抽出単位設定部(181)を用いずに予め抽出の単位を定義して お!、て、処理の度に抽出の単位を設定しな 、ようにすることもできる。
[0194] (B)前記 (A)の特異表示文字列抽出部(102)において、入力されたデータをデータ 前方から調べて、現在の抽出の単位に相当するものと同じものが前記格納手段に格 納されている場合で、一つ前の抽出の単位が強調表示されるものである場合は、前 記一つ前の抽出の単位と現在の抽出の単位に相当するものを特別強調表示するた め抽出する。このため、入力されたデータ中で抽出領域の説明に該当する場所をよ り明確に見つけることができる。 [0195] (C)前記 (A)〜(B)の特異表示文字列抽出部(102)において、前記抽出表現設定 部( 182)で強調表示する抽出表現の設定の少なくとも 1つが名詞である。このため、 名詞等の重要なもののみ強調表示することができる。
[0196] (D)前記 (A)〜(C)の特異表示文字列抽出部(102)において、前記抽出領域の場 所として、入力されたデータのタイトル部分とする。このため、入力されたデータ中で 重要なものとされているタイトル部分の説明に該当する場所を容易に見つけることが できる。
[0197] (E):前記 (A)〜(C)の特異表示文字列抽出部(102)において、前記抽出領域の 場所として、入力されたデータのユーザが指定した部分とする。このため、入力され たデータ中でユーザが指定した部分の説明に該当する場所を容易に見つけることが できる。
[0198] (F):前記 (E)の特異表示文字列抽出部(102)において、前記ユーザが指定した部 分として、複数部分を指定し、該指定した部分により、異なる強調表示をする。このた め、入力されたデータ中でユーザが指定した複数部分の説明に該当する場所を容 易に見つけることができる。
[0199] (G):前記 (E)又は (F)の特異表示文字列抽出部(102)において、入力されたデー タのうちで初めて出てくる抽出の単位に相当するものを強調表示する前述の文書差 分検出装置の構成 (文書差分検出機構)を備え、ユーザが指定した部分として、該機 構が強調表示した部分を指定する。このため、入力されたデータ中でユーザが指定 した部分の説明に該当する場所をより明確に見つけることができる。
[0200] (H):前記 (E)又は (F)の特異表示文字列抽出部(102)において、入力されたデー タの差分を検出するために比較する領域の単位である検出領域を設定し、入力され たデータの現在の検出領域以外の領域力 全ての前記抽出の単位に相当するもの を抽出し、現在の検出領域において、検出領域以外の領域にない抽出の単位に相 当するものを強調表示する文書差分検出機構を備え、前記ユーザが指定した部分と して、該機構が強調表示した部分を指定する。このため、入力されたデータ中でユー ザが指定した部分の説明に該当する場所をより明確に見つけることができる。
[0201] (I):特異表示文字列抽出部(102)に抽出の単位を設定する抽出単位設定部(181 )と、抽出領域の場所を設定する抽出領域設定部(182)と、入力されたデータのうち で初めて出てくる前記抽出の単位に相当するものを強調表示する文書差分検出機 構 (図示しない)とを備え、情報を格納する格納手段(13)とを接続する。
そして、特異表示文字列抽出部(102)が、抽出領域の場所として文書差分検出機 構が強調表示した部分とし、抽出領域より抽出の単位に相当するものを抽出して格 納手段(13)に格納し、入力されたデータを前方から調べて現在の前記抽出の単位 に相当するものと同じもの力 前記格納手段(13)に格納されている場合は、それを 強調表示のため抽出する。このため、入力されたデータ中で初めて出てくる単語等 の抽出の単位に相当する部分の説明に該当する場所を簡単な手段で明確に見つけ ることがでさる。
[0202] CO:特異表示文字列抽出部(102)に抽出の単位を設定する抽出単位設定部(181 )と、抽出領域の場所を設定する抽出領域設定部(182)とを備え、情報を格納する 格納手段(13)を接続する。
特異表示文字列抽出部(102)が、入力されたデータの差分を検出するために比 較する領域の単位である検出領域を設定し、入力されたデータの現在の検出領域 以外の領域力 全ての抽出の単位に相当するものを抽出する。そして、現在の検出 領域において、検出領域以外の領域にない抽出の単位に相当するものを強調表示 する文書差分検出機構 (図示しない)を備える。
抽出領域の場所として該機構が強調表示した部分とし、抽出領域より抽出の単位 に相当するものを抽出して格納手段(13)に格納し、入力されたデータを前方力 調 ベて現在の抽出の単位に相当するものと同じもの力 格納手段(13)に格納されてい る場合は、それを強調表示する。このため、入力されたデータ中で初めて出てくる単 語等の抽出の単位に相当する部分の説明に該当する場所を簡単な手段で明確に 見つけることができる。
[0203] 本発明では、以上説述したとおり、特異表示文字列抽出処理部(102)に科学記号 を抽出する機構、文書差分を検出する機構、キーワードを抽出する機構を用いたとき に、各機構の処理時にタグの影響を抑制し、高精度かつ高速な処理を可能にするも のである。 特にインターネットのウェブブラウザに上記したようなボタンを表示させ、ユーザが随 意に特異表示を切り替えられるようにすることで、各機構による表示効果を最大限に 禾 IJ用することがでさる。
図面の簡単な説明
[図 1]本発明のデータ表示装置 (第 1実施例)の全体構成図である。
[図 2]本発明のデータ表示方法 (第 1実施例)の流れ図である。
[図 3]本発明におけるタグ待避の様子を示す図である。
[図 4]本発明によるウェブブラウザの表示画面を示す説明図である。
[図 5]本発明のデータ表示装置 (第 2実施例)の全体構成図である。
[図 6]本発明のデータ表示方法 (第 2実施例)の流れ図である。
[図 7]本発明のデータ表示装置 (第 3実施例)の全体構成図である。
[図 8]本発明のデータ表示方法 (第 3実施例)の流れ図である。
[図 9]本発明で用いる科学記号を抽出する特異表示文字列抽出処理部の構成図で ある。
[図 10]本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図であ る。
[図 11]本発明で用いる論文データの一例である。
[図 12]図 9のデータベースの内容例である。
[図 13]本発明で用いる科学記号を抽出する特異表示文字列抽出処理部の構成図( 別実施例)である。
[図 14]本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図 (別 実施例)である。
[図 15]本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図 (別 実施例)である。
[図 16]テキストコ一パスから手力かり表現テーブルを構築する処理の流れ図である。
[図 17]タグ待避後テキストから手力かり表現テーブルを構築する処理の流れ図である
[図 18]テキストデータ力も確度を自動的に修正する処理の流れ図である。 [図 19]本発明における表示色の定義である。
[図 20]本発明によるタグを含まな!/、テキストのデータ表示装置の全体構成図である。
[図 21]同、データ表示方法の流れ図である。
圆 22]本発明で用いる文書差分を検出する特異表示文字列抽出処理部の構成図で ある。
圆 23]本発明で用いるキーワードを抽出する特異表示文字列抽出処理部の構成図 である。
符号の説明
1 データ表不装置
2 タグ付テキス卜
10 CPU
11 キーボード 'マウス
12 モニタ
13 記憶装置
14 ネットワークアダプタ
100 タグ抽出処理部
101 タグ待避処理部
102 特異表示文字列抽出処理部
103 特異書式タグ書き込み処理部
104 タグ復帰処理部
105 表示処理部
S1 - 1 タグを抽出する処理
S1 - 2 タグを待避する処理
S1 - 3 特異表示する文字列を抽出する処理
S1 -4 特異書式タグを書き込む処理
S1 - 5 タグを復帰させる処理
S1 -6 ブラウザで表示させる処理

Claims

請求の範囲
[1] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する 際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装 置であって、
該テキストデータから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手 段と、
該抽出された書式設定タグをそのテキストデータ中の位置情報と共にタグ記憶手段 に格納すると共に、該書式設定タグをテキストデータから除去するタグ待避処理を行 うタグ待避処理手段と、
タグ待避後のテキストデータ力 特異書式を用いた表示を行う文字列を抽出する特 異表示文字列抽出処理手段と、
該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書 き込み処理手段と、
該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込 み処理手段から出力されたテキストデータに対し、位置情報に従って書式設定タグを 書き込むタグ復帰処理を行うタグ復帰処理手段と、
該書式設定タグに従ってテキストデータを表示する表示処理手段と
を備えたことを特徴とするデータ表示装置。
[2] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する 際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装 置であって、
該テキストデータから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手 段と、
該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設 定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換処理手段と、 タグ置換後のテキストデータ力 特異書式を用いた表示を行う文字列を抽出する特 異表示文字列抽出処理手段と、
該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書 き込み処理手段と、
タグ序列置換処理手段により置換された文字を、該タグ序列記憶手段力 順に読 み出した書式設定タグに序列の順に再度置換するタグ序列逆置換処理手段を備え 該書式設定タグに従ってテキストデータを表示する表示処理手段と
を備えたことを特徴とするデータ表示装置。
[3] 前記所定の置換文字が、序列のある文字である
請求項 2に記載のデータ表示装置。
[4] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する 際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示装 置であって、
該テキストデータから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手 段と、
該抽出された書式設定タグを予め備えたタグ置換データベースに基づいて所定の 符号に置換するタグ置換処理手段と、
タグ置換後のテキストデータ力 特異書式を用いた表示を行う文字列を抽出する特 異表示文字列抽出処理手段と、
該特異書式に応じた書式設定タグをテキストデータ中に書き込む特異書式タグ書 き込み処理手段と、
該書式設定タグに従ってテキストデータを表示する表示処理手段と
を備えたことを特徴とするデータ表示装置。
[5] 前記データ表示装置が、
タグ置換処理手段により置換された符号から予め備えたタグ逆置換データベース に基づいて所定の書式設定タグに置換するタグ逆置換処理手段を備え、 前記表示処理手段によるテキストデータの表示を行う
請求項 4に記載のデータ表示装置。
[6] 前記データ表示装置が、
特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を 切り替え可能な表示状態設定手段を備える
請求項 1な!、し 5の 、ずれかに記載のデータ表示装置。
[7] 前記表示状態設定手段が、前記表示処理部によりテキストデータを表示する表示 領域の近接領域に配置される
請求項 1な!、し 6の 、ずれかに記載のデータ表示装置。
[8] 前記特異書式タグ書き込み処理手段において、
特異書式としてテキストデータの基本文字色と異なる表示色を設定する書式設定タ グを書き込む
請求項 1な!、し 7の 、ずれかに記載のデータ表示装置。
[9] 前記テキストデータが少なくとも自然科学で用いられる記号又は式 (以下、科学記 号と呼ぶ)を含む構成において、
前記特異表示文字列抽出処理手段が、
科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを 予め格納した科学記号データベースと、
該科学記号データベースを参照して該テキストデータから科学記号候補文字列を 抽出する科学記号抽出処理部と、
該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示 決定処理部とを備え、
前記特異書式タグ書き込み処理手段が、
該表示態様に従った書式設定タグを書き込む
請求項 1な!、し 8の 、ずれかに記載のデータ表示装置。
[10] 少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ)を含むテキス トデータを表示するデータ表示装置であって、
テキストデータを入力する入力処理部と、
科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを 予め格納した科学記号データベースと、
該科学記号データベースを参照して該テキストデータから科学記号候補文字列を 抽出する科学記号抽出処理部と、 該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示 決定処理部と、
決定された表示態様の科学記号候補文字列を含むテキストデータを表示する表示 部と
を備えることを特徴とするデータ表示装置。
[11] 前記文字列表示決定処理部において、
テキストデータの基本文字色を予め設定すると共に、
該科学記号候補文字列の表示色を該テキストデータの表示に用いる基本文字色 から変化させる処理を行う
請求項 9又は 10に記載のデータ表示装置。
[12] 前記文字列表示決定処理部において、
前記科学記号候補文字列が科学記号である確度を算出する科学記号確度算出部 を備え、
該算出結果に基づいて確度が閾値よりも高い科学記号候補文字列については基 本文字色と色相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号 候補文字列については基本文字色と彩度又は明度が異なる表示色を設定する 請求項 9又は 10に記載のデータ表示装置。
[13] 前記データ表示装置に形態素解析処理部を備え、
前記テキストデータを形態素解析処理すると共に、
科学記号確度算出部にお!、て、
前記科学記号候補文字列の前後所定個数の形態素の少なくとも文字列情報又は 文法情報の 、ずれかを用い、前記科学記号データベースに備えた少なくとも文字列 情報又は文法情報のいずれかを参照して確度を算出する
請求項 12に記載のデータ表示装置。
[14] 前記科学記号確度算出部において、
前記科学記号候補文字列の前後に同一又は異なる科学記号候補文字列が連続し て出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処理を含む 請求項 12又は 13に記載のデータ表示装置。 [15] 前記科学記号抽出処理部が、
予め定めた科学記号を構成する特定表現を抽出し、
前記科学記号確度算出部において、
該特定表現が前後所定個数の形態素内、又は同一文、又は同一テキストデータ中 に出現した場合に、当該科学記号候補文字列の確度を所定値だけ高める処理を含 む
請求項 12な ヽし 14の ヽずれかに記載のデータ表示装置。
[16] 前記特定表現を、特定表現データベースに格納する構成において、
着目している科学記号候補文字列と共に、テキストデータの同一文又は所定個数 の形態素内に特定表現候補が出現する回数 N1を計数する一方、該特定表現候補 がその他の文において単独に出現する回数 N2を計数し、 NlZN2 (N2≠0)又は N 1/ (N1 +N2) (N2が 0のときも含む)の少なくともいずれかの値が閾値以上の場合 に、該特定表現データベースに格納する処理を含む
請求項 12ないし 15のいずれかに記載のデータ表示装置。
[17] 前記データ表示装置がテキストの差分を検出して表示する構成において、
前記特異表示文字列抽出処理手段が、
テキストデータの差分として出力する対象の単位である抽出単位とテキストデータ の差分を検出するために比較する領域の単位である検出領域とについて、予め定義 されているか、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設 定情報に基づいて該抽出'検出領域設定部で設定されるか、記憶部と抽出'検出領 域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域 設定部で設定されるか、のいずれかにより決まる該抽出単位及び該検出領域を用い 情報を格納する格納部と、
抽出部とを備え、
該抽出部は、入力されたテキストデータの現在の該検出領域以外の領域から全て の該抽出単位に相当するものを抽出して該格納部に格納し、現在の該検出領域に ぉ 、て、該格納部に格納されて 、な 、該抽出単位に相当するものを特異表示文字 列として抽出すると共に、
該抽出部の処理を該検出領域ごとに繰り返し、
前記特異書式タグ書き込み処理手段が、
該表示態様に従った書式設定タグを書き込む
請求項 1な!、し 8の 、ずれかに記載のデータ表示装置。
[18] 前記データ表示装置がキーワードとなる語句を特異書式で表示する構成において 前記特異表示文字列抽出処理手段が、
予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定される 力 のいずれかにより決まる抽出の単位を用い、
特異表示する抽出表現を設定する抽出表現設定部と、
抽出領域の場所を設定する抽出領域設定部と、
情報を格納する格納部と、
抽出部とを備え、
該抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出 表現に該当するものを該格納部に格納し、前記テキストデータ中に現在の該抽出の 単位に相当するものと同じもの力 該格納部に格納されている場合は、それを特異 表示文字列として抽出した後、
前記特異書式タグ書き込み処理手段が、
該表示態様に従った書式設定タグを書き込む
請求項 1な!、し 8の 、ずれかに記載のデータ表示装置。
[19] 前記抽出領域の場所として、前記テキストデータのタイトル部分とすることを特徴と する
請求項 18に記載のデータ表示装置。
[20] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する 際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方 法であって、
タグ抽出処理手段が、該テキストデータ力 該書式設定タグの少なくとも一部を抽 出するタグ抽出ステップ、
タグ待避処理手段が、該抽出された書式設定タグをそのテキストデータ中の位置情 報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデータ力 除去 するタグ待避処理を行うタグ待避ステップ、
特異表示文字列抽出処理手段が、タグ待避後のテキストデータ力 特異書式を用 いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、
特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキスト データ中に書き込む特異書式タグ書き込みステップ、
タグ復帰処理手段が、該タグ記憶手段から書式設定タグ及び位置情報を読み出し 、特異書式タグ書き込み処理手段力 出力されたテキストデータに対し、位置情報に 従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰ステップ、
表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステップ を含むことを特徴とするデータ表示方法。
少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する 際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方 法であって、
タグ抽出処理手段が、該テキストデータ力 該書式設定タグの少なくとも一部を抽 出するタグ抽出ステップ、
タグ序列置換処理手段が、該抽出された書式設定タグを所定の置換文字で置換 すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタ グ序列置換ステップ、
特異表示文字列抽出処理手段が、タグ置換後のテキストデータ力 特異書式を用 いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、
特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキスト データ中に書き込む特異書式タグ書き込みステップ、
タグ序列逆置換処理手段が、タグ序列置換ステップで置換された文字を、該タグ序 列記憶手段から順に読み出した書式設定タグに序列の順に再度置換するタグ序列 逆置換ステップ、 表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステップ を含むことを特徴とするデータ表示方法。
[22] 少なくともテキストの書式を設定する書式設定タグを含むテキストデータを表示する 際に、テキストデータの一部の文字列を所定の特異書式で表示可能なデータ表示方 法であって、
タグ抽出処理手段が、該テキストデータ力 該書式設定タグの少なくとも一部を抽 出するタグ抽出ステップ、
タグ置換処理手段が、該抽出された書式設定タグを予め備えたタグ置換データべ ースに基づいて所定の符号に置換するタグ置換ステップ、
特異表示文字列抽出処理手段が、タグ置換後のテキストデータ力 特異書式を用 いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、
特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキスト データ中に書き込む特異書式タグ書き込みステップ、
表示処理手段が、該書式設定タグに従ってテキストデータを表示する表示ステップ を含むことを特徴とするデータ表示方法。
[23] 前記データ表示方法において、
表示状態設定手段により特異書式を用いた表示を行う特異表示状態と、通常の表 示を行う通常表示状態を切り替え可能とする
請求項 20な 、し 22の 、ずれかに記載のデータ表示方法。
[24] 前記テキストデータが少なくとも自然科学で用いられる記号又は式 (以下、科学記 号と呼ぶ)を含む構成において、
前記特異表示文字列抽出ステップが、
科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件とを 予め格納した科学記号データベースを用い、
科学記号抽出処理部により該科学記号データベースを参照して該テキストデータ から科学記号候補文字列を抽出する科学記号抽出処理過程、
文字列表示決定処理部により該発現条件と照合して該科学記号候補文字列の表 示態様を決定する文字列表示決定処理過程 を含み、
前記特異書式タグ書き込みステップにお!、て、該表示態様に従った書式設定タグ を書き込む
請求項 20な 、し 23の 、ずれかに記載のデータ表示方法。
[25] 少なくとも自然科学で用いられる記号又は式 (以下、科学記号と呼ぶ)を含むテキス トデータを表示するデータ表示装置におけるデータ表示方法であって、
入力処理部がテキストデータを入力する入力ステップ、
次 (a)な 、し (b)の各処理過程を含む科学記号文字列抽出ステップ:
(a)科学記号として用いる 1文字以上の文字列と当該文字列が発現する発現条件と を予め格納した科学記号データベースを参照し、科学記号抽出処理部が該テキスト データから科学記号候補文字列を抽出する科学記号抽出処理過程、
(b)該発現条件と照合して文字列表示決定処理部が該科学記号候補文字列の表 示態様を決定する文字列表示決定処理過程:
表示部が決定された表示態様の科学記号候補文字列を含むテキストデータを表示 する表示ステップ
を含むことを特徴とするデータ表示方法。
[26] 前記文字列表示決定処理過程において、
テキストデータの基本文字色を予め設定すると共に、
該科学記号候補文字列の表示色を該テキストデータの表示に用いる基本文字色 から変化させる処理を行う
請求項 24又は 25に記載のデータ表示方法。
[27] 前記文字列表示決定処理過程において、
科学記号確度算出部が、科学記号候補文字列が科学記号である確度を算出する 科学記号確度算出処理過程を行った後に、
該算出結果に基づいて確度が閾値よりも高い科学記号候補文字列については基 本文字色と色相の異なる表示色を設定すると共に、確度が閾値よりも低い科学記号 候補文字列については基本文字色と彩度又は明度が異なる表示色を設定する 請求項 26に記載のデータ表示方法。 [28] 前記データ表示方法において、
形態素解析処理部が前記テキストデータを形態素解析する形態素解析処理過程 を前記科学記号抽出処理過程の前に実行し、
科学記号確度算出処理過程において、該科学記号候補文字列の前後所定個数 の形態素の少なくとも文字列情報又は文法情報の!、ずれかを用い、前記科学記号 データベースに備えた少なくとも文字列情報又は文法情報のいずれかを参照して確 度を算出する
請求項 27に記載のデータ表示方法。
[29] 前記科学記号確度算出処理過程において、
前記科学記号候補文字列の前後に同一又は異なる科学記号候補文字列が連続し て出現した場合に当該科学記号候補文字列の確度を所定値だけ高める処理を含む 請求項 27又は 28に記載のデータ表示方法。
[30] 前記科学記号抽出処理過程において、
予め定めた科学記号を構成する特定表現を抽出し、
前記科学記号確度算出処理過程において、
該特定表現が前後所定個数の形態素内、又は同一文、又は同一テキストデータ中 に出現した場合に、当該科学記号候補文字列の確度を所定値だけ高める処理を含 む
請求項 27な 、し 29の 、ずれかに記載のデータ表示方法。
[31] 前記特定表現を、特定表現データベースに格納する構成において、
着目している科学記号候補文字列と共に、テキストデータの同一文又は所定個数 の形態素内に特定表現候補が出現する回数 N1を計数する一方、該特定表現候補 がその他の文において単独に出現する回数 N2を計数し、 NlZN2 (N2≠0)又は N 1/ (N1 +N2) (N2が 0のときも含む)の少なくともいずれかの値が閾値以上の場合 に、該特定表現データベースに格納する処理を含む
請求項 27な 、し 30の 、ずれかに記載のデータ表示方法。
[32] 前記データ表示方法がテキストの差分を検出して表示する構成にぉ 、て、
前記特異表示文字列抽出ステップにおいて、 テキストデータの差分として出力する対象の単位である抽出単位とテキストデータ の差分を検出するために比較する領域の単位である検出領域とについて、予め定義 されているか、入力部と抽出'検出領域設定部とを備えて該入力部から入力された設 定情報に基づいて該抽出'検出領域設定部で設定されるか、記憶部と抽出'検出領 域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出'検出領域 設定部で設定されるか、のいずれかにより決まる該抽出単位及び該検出領域を用い 抽出部が、入力されたテキストデータの現在の該検出領域以外の領域から全ての 該抽出単位に相当するものを抽出して格納部に格納し、現在の該検出領域におい て、該格納部に格納されていない該抽出単位に相当するものを特異表示文字列とし て抽出する抽出単位抽出処理を行い、
該抽出単位抽出処理を該検出領域ごとに繰り返した後、
前記特異書式タグ書き込みステップにお!、て、該表示態様に従った書式設定タグ を書き込む
請求項 20な 、し 23の 、ずれかに記載のデータ表示方法。
前記データ表示方法がキーワードとなる語句を特異書式で表示する構成において 前記特異表示文字列抽出ステップにおいて、
予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定される 力 のいずれかにより決まる抽出の単位を用い、
抽出表現設定部が、特異表示する抽出表現を設定する抽出表現設定処理、 抽出領域設定部が、抽出領域の場所を設定する抽出領域設定処理、
の各処理を同時又は!/、ずれかの順で処理した後、
抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表 現に該当するものを格納部に格納し、前記テキストデータ中に現在の該抽出の単位 に相当するものと同じもの力 該格納部に格納されている場合は、それを特異表示 文字列として抽出した後、
前記特異書式タグ書き込みステップにお!、て、該表示態様に従った書式設定タグ を書き込む
請求項 20な 、し 23の 、ずれかに記載のデータ表示方法。
PCT/JP2006/312350 2005-06-20 2006-06-20 データ表示装置及び方法 WO2006137412A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005179703A JP4229457B2 (ja) 2005-06-20 2005-06-20 データ表示装置及びデータ表示方法
JP2005-179703 2005-06-20
JP2006060337A JP2007241482A (ja) 2006-03-06 2006-03-06 デ−タ表示装置及び方法
JP2006-060337 2006-03-06

Publications (1)

Publication Number Publication Date
WO2006137412A1 true WO2006137412A1 (ja) 2006-12-28

Family

ID=37570441

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/312350 WO2006137412A1 (ja) 2005-06-20 2006-06-20 データ表示装置及び方法

Country Status (1)

Country Link
WO (1) WO2006137412A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109339211A (zh) * 2018-11-14 2019-02-15 南京合工智能环保研究院有限公司 一种雨污分流处理装置及处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110384A (ja) * 1997-07-01 1999-04-23 Hitachi Ltd 構造化文書検索表示方法及び装置
JPH11134341A (ja) * 1997-10-24 1999-05-21 Nec Corp ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム
JP2001067348A (ja) * 1999-06-21 2001-03-16 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP3682535B2 (ja) * 2002-10-03 2005-08-10 独立行政法人情報通信研究機構 文書差分検出装置及びプログラム
JP2005228344A (ja) * 2004-02-11 2005-08-25 Microsoft Corp 電子文書に含まれる数値データを視覚的に目立たせる方法および装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110384A (ja) * 1997-07-01 1999-04-23 Hitachi Ltd 構造化文書検索表示方法及び装置
JPH11134341A (ja) * 1997-10-24 1999-05-21 Nec Corp ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム
JP2001067348A (ja) * 1999-06-21 2001-03-16 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
JP3682535B2 (ja) * 2002-10-03 2005-08-10 独立行政法人情報通信研究機構 文書差分検出装置及びプログラム
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP2005228344A (ja) * 2004-02-11 2005-08-25 Microsoft Corp 電子文書に含まれる数値データを視覚的に目立たせる方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKAKI T.: "Tango Shutsugen Kyoki Kankei o Mochiita Bunsho Juyodo Fuyo no Kento", JOHO SHOCHI GAKKAI KENKYU HOKOKU, vol. 96, no. 34, 18 April 1996 (1996-04-18), pages 61 - 68, XP003006922 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109339211A (zh) * 2018-11-14 2019-02-15 南京合工智能环保研究院有限公司 一种雨污分流处理装置及处理方法

Similar Documents

Publication Publication Date Title
Saad et al. Arabic morphological tools for text mining
EP0686286B1 (en) Text input transliteration system
CN101887414B (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
US20050131931A1 (en) Abstract generation method and program product
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Faili et al. Vafa spell-checker for detecting spelling, grammatical, and real-word errors of Persian language
Mohamed et al. Arabic Part of Speech Tagging.
Thabet Stemming the Qur’an
Shvedova et al. Handling of nonstandard spelling in GRAC
JP4229457B2 (ja) データ表示装置及びデータ表示方法
Zamorano et al. Design and development of Iberia: a corpus of scientific Spanish
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
WO2006137412A1 (ja) データ表示装置及び方法
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
US20150309991A1 (en) Input support device, input support method, and input support program
JP2007241482A (ja) デ−タ表示装置及び方法
Moghadam et al. A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
Dhanju et al. Design and implementation of Shahmukhi spell checker
Nedjo et al. Challenges of Diacritical Marker or Hudhaa Character in Tokenization of Oromo Text.
Byun et al. Automatic spelling correction rule extraction and application for spoken-style korean text
Lancioni et al. Semi-Automatic Data Annotation, POS Tagging and Mildly Context-Sensitive Disambiguation: the eXtended Revised AraMorph (XRAM)
De Joode Digital Masorah: Toward an Index of Orthographic and Morphological Variation at the Lexical Level

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06767009

Country of ref document: EP

Kind code of ref document: A1