NL1028923C2

NL1028923C2 - Werkwijze, toestel en software voor het extraheren van chemische gegevens.

Info

Publication number: NL1028923C2
Application number: NL1028923A
Authority: NL
Inventors: Johnston Alexander Lawson; Stefan Roller; Helmut Grotz; Janusz Leon Wisniewski; Libuse Goebels
Original assignee: Mdl Information Systems Gmbh
Priority date: 2004-04-30
Filing date: 2005-04-29
Publication date: 2006-09-06
Also published as: DE102005020083A1; US7933763B2; DE102005020083B4; EP1615154A3; NL1028923A1; EP1615154A2; US20050246316A1; US20110202331A1; GB0508849D0; GB2413664A

Description

WERKWIJZE, TOESTEL EN SOFTWARE VOOR HET EXTRAHEREN VAN CHEMISCHE GEGEVENS

5

Achtergrond

Namen, chemische formules en structuurdiagrammen zijn de taal van de chemie. In elk onderwerp waarin objecten uitgedrukt kunnen worden in een variëteit van talen, is er 10 een interesse in en een behoefte aan vertaling tussen verschillende uitdrukkingen die deze objecten beschrijven.

Een behoefte aan nomenclatuur treedt op wanneer chemici de informatie over samenstellingen via gesproken of geschreven woord moeten communiceren, in het laatste geval gewoonlijk 15 wanneer een structuurdiagram (ondubbelzinnig en uniek) om welke reden dan ook ongeschikt is of niet gebruikt kan worden.

De nomenclatuur die gebruikt wordt om chemische structuren te beschrijven, is een taal en kan, wanneer deze 20 vertaald wordt in een andere representatie, aldus afgehandeld worden door gebruik te maken van linguïstische werkwijzen1-3. Het menselijke mentale proces om te komen tot een structuur van een chemische naam lijkt een op regels gebaseerde linguïstische benadering. Zoals in de linguïstiek is er een 25 strijd tussen de pragmatici, die elk willekeurig woord als voldoende beschouwen wanneer het woord de bedoelde betekenis uitdrukt, en de puristen, die er op staan dat regels moeten worden gevolgd waarbij, helaas voor de computer, de pragmaticus het voordeel heeft. Het betreffende 30 organisatielichaam, de Commission on the Nomenclature of

Organic Chemistry (CNOC) van de International Union of Pure and Applied Chemistry (IUPAC) (http:/www.iupac.org), die sinds 1938 verantwoordelijk is voor het uitvinden, bewaken, 1028923 2 en herzien van aanbevelingen die richtsnoeren zijn voor de systematische nomenclatuur, tracht de nomenclatuur als geheel te zien, waarbij reeds bestaand gebruik in regels wordt gecodificeerd en waarin slechts zeer zelden nieuwigheden4 5 worden gesuggereerd. Alhoewel het systeem ontwikkeld is gedurende 110 jaar (geïnitieerd door de historische "Geneefse conferentie" in 1892), is het systeem verre van perfect en is het niet een universele standaard geworden5.

In de tussentijd is de CNOC opgehouden te bestaan en 10 is deze vervangen (in januari 2002) -eveneens binnen de IUPAC- door de Division of Chemical Nomenclature and Structure Representation htto://www.iupac.ora/divisions/VIII/).

De hoofdtaken hiervan zijn het coördineren van de pogingen 15 tot het systematiseren van de nomenclatuur en het onder toezicht houden van alle relevante activiteiten en projecten van de chemische gemeenschap in richting van ondubbelzinnige structuur-representatie(s). Kenmerkend omvat dit computerrepresentatie6'8 voor lokale berekening alsmede voor 20 verdeelde berekening op intranet en Internet (hoofdzakelijk op het web gebaseerd).

Voor de duidelijkheid bij de voorselectie van voorkeursnamen, hebben de twee belangrijkste producenten en distributeurs van chemische informatie (Chemical Abstract 25 Service (htto://www.cas.ora)) en het Beilstein Institute (het Beilstein bestand wordt nu verschaft en onderhouden door MDL (htto://www.mdli.com)) niet-gedocumenteerde ad hoe subregels uitgedacht, die slechts het probleem van het op unieke wijze een naam geven van organische samenstelling hebben versterkt. 30 Deze regels waren noodzakelijk aangezien de IUPAC- aanbevelingen vaak meer dan één naam voor een gegeven chemische samenstelling toestaan. Als resultaat hiervan hebben beide instituten het IUPAC-systeem herzien en hebben 1028923 3 beide instituten eigen "systematische" IUPAC-compatibele (in plaats van door de IUPAC gesanctioneerde) nomenclaturen gecreëerd. Bovendien hebben triviale namen en handelsnamen, welke korter en bondiger zijn, op succesvolle wijze 5 systematische namen voor een aantal chemische samenstellingen vervangen, welke samenstellingen van commercieel belang zijn of onderworpen zijn aan publieke zorg, bijvoorbeeld farmaceutica, insecticiden en verontreinigers). Zowel CAS als Beilstein claimen conform de IUPAC regels te zijn en over het 10 algemeen is dit waar. De IUPAC aanbevelingen zijn bewust geformuleerd om aanzienlijke vrijheid in hun toepassing toe te staan en in veel gevallen zijn zij niet geheel conform hun logische conclusie gedefinieerd. In de praktijk betekent dit dat een willekeurige gegeven structuur niet 15 noodzakelijkerwijs gerelateerd is aan één unieke correcte naam. De specifieke "dialecten" die ondersteund worden door CAS en Beilstein, kunnen aldus nog steeds systematische nomenclatuur representeren ongeacht hoever zij van elkaar verwijderd zijn. Voor zover het computergebruik betreft, is 20 dit de grootste zwakte van de nomenclatuur.

De gemiddelde gebruiker kan geen duidelijk gedefinieerde "dialecten" van IUPAC vinden. Dit heeft tevens het oplossen van de moeilijkheden verhinderd bij het tot stand brengen van een ondubbelzinnige nomenclatuurstandaard. 25 Als een dergelijke standaard niet bestaat, zal de praktiserende chemicus zich in grote mate vervreemd voelen van de systematische nomenclatuur. Maar zelfs indien een soort consensus tot stand wordt gebracht en een ondubbelzinnige nomenclatuurstandaard uitgewerkt wordt en 30 aangenomen wordt, bestaat nog steeds het probleem van de complexiteit van de nomenclatuur. Het is algemeen geaccepteerd dat IUPAC nomenclatuur log is, met een groot aantal regels, die vaak zeer moeilijk te volgen zijn. De vaak 1 028923 4 voorkomende alternatieven die zijn toegestaan bij de toewijzing van een naam, tegengestelde aanbevelingen, de afwezigheid van regels in bepaalde gebieden en een overdreven vrijheid bij de interpretatie van de regels leiden tot 5 dubbelzinnigheid en specifieke nomenclatuurchaos.

Eén basisprobleem van het geven van namen is dat een correcte naam niet noodzakelijkerwijs de enige correcte naam voor een structuur is. Om zaken te compliceren zijn de regels om te komen tot een correcte naam, zoals boven beschreven is, 10 complex en kunnen zeer weinig chemici deze regels behandelen. Erger nog, de belangrijke centra voor chemische documentatie in de wereld behandelen de regels niet uniform, hetzij intern, hetzij extern. Dit is niet het resultaat van onachtzaamheid of gebrek van inspanningen; het is 15 eenvoudigweg een weerspiegeling van de moeilijkheid om overeen te komen hoe een multidimensioneel probleem geforceerd kan worden in een enkele universele tekstbeschrijving. De in Figuur 5 getoonde structuur illustreert het probleem.

20 In principe is er niks mis met een meervoudigheid van namen voor structuren. Zolang als elke naam een adequate representatie is van de structuur, zijn er weinig echte problemen, behalve het verzekeren dat chemici tamelijk vertrouwd zijn met de regels in passieve zin (dat wil zeggen 25 een naam kunnen interpreteren, in tegenstelling tot een naam kunnen creëren). Het traditionele (geprobeerde) gebruik van nomenclatuur heeft echter een veel groter bereik gehad. Vóór de computerisatie was het ideaal om elke significante structurele sub-eenheid van de structuur te indexeren door 30 gebruik te maken van nomenclatuur. De structuur zou intuïtief opgebroken moeten worden in van belang zijnde gebieden (acetaldehyde, benzeen, ethaan) en deze zouden verbonden moeten worden in een tekst door gebruik te maken van 1 028923 5 locatieparameters (1, 2, α) . Deze benadering is gebaseerd op chemische ervaring en is geenszins slecht. Maar de benadering bevat de beperkingen van zijn eigen toepasbaarheid in zoverre de gebruikte vocabulaire nooit geheel gestandaardiseerd is in 5 de strikt gedefinieerde zin en de intuïtieve onderverdeling nooit geheel vrijgemaakt kan worden van interne tegenspraak. Dit heeft betekend dat het gebruik van indices gebaseerd op namen of delen van namen tot op de dag van vandaag een gevaarlijke zaak blijft. Om het bovenstaande voorbeeld te 10 gebruiken, is het niet onmiddellijk duidelijk voor de meeste chemici of zij onder A (voor acetaldehyde), B (voor benzeen) of E (voor ethaan) zouden moeten zoeken. Een computersysteem dat in staat is om namen algoritmisch te genereren en dat dezelfde regels van relevantie zou gebruiken, zou altijd 15 leiden tot dezelfde indexnaam, waardoor het probleem voor eens en voor altijd zou worden opgelost. Dergelijke namen zouden dan reversibel en ondubbelzinnig terugvertaald kunnen worden in hetzelfde structurele diagram.

Dit is helaas geenszins het geval. Systematische 20 nomenclatuur zoals aanbevolen door de IUPAC, is geen standaard geworden. Zoals boven beschreven is, hebben triviale namen of handelsnamen, die korter en bondiger zijn, op succesvol wijze de systematische namen voor een aantal chemische samenstellingen, die van commercieel belang zijn of 25 het onderwerp zijn van publieke zorg, vervangen. Een veel omvattend computerprogramma dat ontworpen is om om te gaan met chemische nomenclatuur uit het echte leven moet semi-systematische, a-systematische, verouderde, dubbelzinnige en op andere wijze "gecorrumpeerde" namen kunnen omzetten, welke 30 namen de realiteit van de huidige chemische communicatie zijn.

Vertaling van de chemische namen in structuren kan in het algemeen behandeld worden als een probleem van 1 028923 6 gecomputeriseerde syntactische en semantische analyse van nomenclatuur als een artificiële taal. Teneinde een dergelijke analyse tot stand te brengen, moet een formele grammatica van de nomenclatuur als eerste afgeleid worden uit 5 informele regels. Uit het gezichtspunt van de linguïstiek, is het een belangrijke observatie dat de basistaal van alle benamingssystemen in organische chemie in hoofdzaak dezelfde zijn. Alhoewel twee chemici dezelfde samenstelling verschillend zullen benoemen, zullen ze beiden in staat zijn 10 om hetzelfde structurele diagram te tekenen. In deze zin correspondeert het bovengenoemde gebruik van verschillende benamingspraktijken met het probleem van het afhandelen van dialecten, in plaats van een behandeling van afzonderlijke en gescheiden talen.

15 De kennis van de formele grammatica van de chemico- linguïstiek vereist de creatie van een woordenboek van fragmenten (zogenoemde morfemen) uit welke de namen gevormd kunnen worden en de verheldering van de juiste syntaxregels om die vorming2 te sturen. De fragmenten worden vervolgens 20 gegroepeerd in genummerde klassen en in termen van deze klasse geschreven regels om frasen te definiëren zodat na elke regel verwezen wordt door zijn bijbehorende frasennaam. Eén regel kan bijvoorbeeld tegelijkertijd de fragmenten "meth", "eth", "prop", etc. toestaan in dezelfde context. De 25 morfemen moeten vervolgens gelokaliseerd zijn en herkend zijn binnen een geleverde naam. Het proces omvat het eerst ontleden (parsing) van de naam door deze op te breken in de langst mogelijke tekstfragmenten en vervolgens de fragmenten voor te leggen aan lexicale analyse teneinde de fragmenten te 30 identificeren volgens een verzameling syntaxregels onder gebruikmaking van de vooraf gedefinieerde woordenlijst9. Wanneer we rekening houden met talrijke semi-systematische fragmenten die bewaard zijn door de IUPAC (bijvoorbeeld 1028923 7 azijnzuur in plaats van de systematische ethanoïsch zuur), zal alleen een functionerende ontleder (parser) moeten werken met een extreem groot woordenboek van morfemen. Indien eenmaal een valide naam (het probleem van toegestane valide 5 namen is hierboven reeds genoemd) succesvol ontleed is, worden de juist routines aangeroepen teneinde semantische informatie te verwerken als voldaan wordt aan elke syntaxregel. De in de naam gelokaliseerde morfemen worden vervolgens geassocieerd met corresponderende structurele 10 fragmenten die zijn opgeslagen in een compacte vorm als kleine verbindingstabellen. Deze worden vervolgens gecombineerd en samen geordend in de uiteindelijke complete verbindingstabel (CT) corresponderend met de complete naam. Grafische routines transformeren de verbindingstabellen in 15 structuurdiagrammen en leveren deze als uitvoer aan de terminals of leveren deze in afgedrukte vorm10.

Omzettingen van de hierboven uiteengezette soort hebben een lange traditie. Het eerste gebruik van een gecomputeriseerde grammatica-analyseproces, met een zeer 20 beperkt woordenboek van nomenclatuurtermen in vergelijking met het brede bereik van de constructies zoals is toegestaan in de IUPAC nomenclaturen, was door Elliot11. Later zijn praktische operationele computerprogramma's, die zijn gebaseerd op dergelijke procedures , gerapporteerd door CAS12, 25 waarin zij gebruikt werden om de CAS-index voor het CAS indexbestand te valideren. Ongeveer op hetzelfde moment rapporteerde Stilwell13 en later Cooke-fox et alu een zeer interessante, op grammatica gebaseerde nomenclatuurvertaling voor steroïde nomenclatuur. Een ander systeem, dat echter 30 semi-systematisch en triviale fragmenten van het woordenboek van de morfemen uitsluit, werd gerapporteerd door Carpenter15. De meest geavanceerde research op dit moment van de op grammatica gebaseerde vertaling van IUPAC nomenclatuur in 1 028923 8 structurele diagrammen is uitgevoerd door het team aan de Universiteit van Huil2'9-10'14'16-17.

Het eerste functionerende praktische systeem voor het vertalen van namen in structuren (VICA genoemd) dateert van 5 1986 en werd ontwikkeld door Domokos en Goebels voor de IBM

mainframe computer in het Beilstein Instituut in Frankfurt/Main, Duitsland. Het systeem is succesvol toegepast in Beilstein (met een succesratio van tot aan 95%) voor slechts Beilstein nomenclatuur of werd nooit gebruikt buiten 10 Beilstein. Behalve voor de interne Beilstein memo's en technische documenten, zijn er geen gereviewde publicaties waarnaar men zou kunnen verwijzen. Het formaat van de door VICA (geschreven in Pascal en Fortran programmeertalen) geaccepteerde ingevoerde chemische naam was strikt 15 gedefinieerd voor de syntax van de systematische nomenclatuur zoals gebruikt in het "Beilstein dialect" (specifieke beperkers, specifieke afhandeling van post-suffixen zoals esters en amiden, specifieke syntax van multicomponent-structuren, etc.).

20 Een ander interessante poging op het gebied van algoritmische naamomzetting is ROXY, een door Lawson18 in 1993 ontworpen en geprogrammeerd systeem. Dit Visual Basic programma werkt met een zeer klein woordenboek (ongeveer 500 items) van vooraf gedefinieerde naamfragmenten, genereert op 25 zeer succesvolle wijze samengesmolten en geannelateerde ringsysteem verbindingstabellen waarbij gebruik wordt gemaakt van strikt algoritmische mechanismen (zonder opzoeking in een database) en bereikt, voor namen uit het echte leven, een succesratio tot 21%.

30 Recent zijn een paar interessante praktische, en commercieel beschikbare, computersystemen uitgebracht voor het vertalen van nomenclatuur in verbindingstabellen. Het eerste systeem komt van CambridgeSoft Corporation, Cambridge, 1028923 9

Mass., USA en is bekend onder de naam "Name=Stru". De laatste versie is opgenomen in het structuurredigeerpakket ChemDraw Ultra en de chemische office suit ChemOffice Ultra19. De succesratio (ratio van correct gegenereerde structuren ten 5 opzicht van het totale aantal structuren in het testmonster) zoals gerapporteerd door Brecher in zijn artikel20, varieerde van 92% tot 33,5%, afhankelijk van de kwaliteit van de namen in het brontestmonster.

Het "Name=Stru" systeem heeft een paar beperkingen.

10 Cahn-Ingold-Prelog (CIP)stereochemie (R/S, E/Z) wordt niet ondersteund en sommige klassen van overbrugde ringsystemen zijn verwaarloosd. Het systeem is niet in staat om namen van polymeren en die van anorganische coördinaat complexen af te handelen. Tevens zijn subtractieve nomenclatuur (de-, des-15 etc.) geheel niet ondersteund.

Het artikel door Brecher omvat een gedetailleerde beschrijving en classificatie van problemen die tegengekomen worden door iedereen die een automatische nomenclatuur omzeteenheid tracht te ontwerpen. Deze problemen treden -20 volgens Brecher- hoofdzakelijk op wegens de dubbelzinnigheid van de huidige nomenclatuurpraktijk.

Advanced Chemistry Development heeft een ander programma van dit type vrijgegeven. (ACD Labs, Toronto, Canada). Dit programma is in staat om in veel gevallen de 25 succesratio van het "Name=Stru" programma te overstijgen. "ACD/Naam naar structuur" wordt aangeboden als een interactieve of een batch versie (een omzettingssessie kan gelanceerd worden niet voor een enkele naam, maar voor een bestand van invoernamen). ACD Labs21 claimt dat het programma 30 in staat is chemische structuren te genereren voor namen van de meeste klassen algemene organische samenstellingen, vele afgeleiden van meer dan 150 basis natuurlijke product 1 028923 10 ouderstructuren en semi-systematische en triviale namen van gewone organische samenstellingen.

De batch versie van de naamomzetter van ACD Labs ("Naam naar Structuur Batch") genereert structuren uit 5 systematische en uit niet-systematische chemische namen van algemene organische, sommige biochemische en sommige anorganische samenstellingen. De invoer tot dit programma kan een ACD ChemFolder*.cfd formaat bestanden, gewone ASCII tekstbestanden of MDL*.db of *.sdf bestanden zijn. De 10 functionaliteit van het programma werd recent uitgebreid en de Naam naar Structuur Batch kan tevens SMILES reeksen direct in chemische structuren omzetten. Het programma is tevens beschikbaar voor UNIX platforms. Dit is in het bijzonder belangrijk aangezien de meeste intranetsystemen voor 15 chemische databases op kleine schaal draaien op UNIX minicomputers.

Nog een andere naam-naar-structuur omzetter komt van Chemlnnovation Software, Ine., een bedrijf dat zijn basis heeft in San Diego, California. Het programma wordt 20 Naamexpert genoemd. Het programma is meer academisch dan praktisch (hoofdzakelijk wegens een onacceptabel lage succesratio)22. Het programma begrijpt strikte systematische IUPAC organische nomenclatuur. Voor een invoer IUPAC chemische naam creëert het de corresponderende structuur in 25 één van drie stijlen: korte uitdrukkingswijze (shorthand),

Kekule, of semi structurele formule. Bovendien kan het labels toevoegen aan juiste atomen en groepen. De nieuwste versie ondersteunt nu beperkte stereochemie en omvat 8000 medicijnnamen en structuren.

30 Om de lijst van beschikbare naam-naar-structuur softwarepakketten compleet te maken moet nog een ander programma genoemd worden, namelijk IUPAX Drawlt, dat uitgegeven is door Bio-Rad Laboratories Corporate, Hercules, 1028923 11

California., USA. Dit programma kan niet onder welke omstandigheden dan ook beschouwd worden als een nomenclatuurgereedschap voor praktisch bedrijfsmatig gebruik23. De belangrijkste restrictie is het maximum aantal 5 zware atomen dat toegestaan is in de resulterende uitvoerstructuur, welke ingesteld is op 10. Het programma is relatief effectief voor strikt systematische IUPAC namen, maar voor gewone nomenclatuur zoals de nomenclatuur die gevonden is in de hedendaagse literatuur, kan het programma 10 niet meer dan een succesratio van een enkel cijfer leveren. Het programma kan onder geen enkele omstandigheid beschouwd worden als een alternatief of als competitie voor Naam=Stru of voor ACD/Naam naar Structuur.

Chemische nomenclatuur en organische nomenclatuur in 15 het bijzonder, welke is gepubliceerd in de literatuur (bladen, patenten, technische documentaties, etc.) heeft over het algemeen een slechte kwaliteit. Gepubliceerde regels (bijvoorbeeld IUPAC) worden gewoonlijk genegeerd, verkeerd geïnterpreteerd, gecorrumpeerd of naar wens uitgebreid. De 20 nomenclatuur die hedentendage beschouwd wordt als zijnde "systematisch" wordt gedefinieerd door de consensus van de opinies van de gebruikers. Een "correcte naam" bestaat niet. Er is een praktijk van "gezond verstand" benamingen bijvoorbeeld benamingen die binnen de Beilstein of CAS 25 "dialecten" vallen.

Eerdere software voor het extraheren van informatie uit tekst produceerde vaak onacceptabele resultaten in termen van nauwkeurigheid en veelomvattendheid. Teneinde extracties met een acceptabele nauwkeurigheid en veelomvattendheid voort 30 te brengen, zou een menselijke indexeur gebruikt worden. Het gebruik van een menselijke indexeur is echter tijdrovend en duur.

1 028923 12

OVERZICHT

Een voorkeursuitvoeringsvorm van de onderhavige uitvinding omvat software die ontwikkeld is om automatisch chemische gegevens van documenten te extraheren. Deze 5 voorkeursuitvoeringsvorm is gefocusseerd op, maar niet beperkt tot identificatie en extractie van chemische structuren, reacties en sommige gewone fysieke waarden van patenten.

De kern van de software is bij voorkeur gebouwd op 10 een commercieel product (bijvoorbeeld, "Insight Discoverertin Extractor" (IDE) van Temis GmbH; zie http://www.temis-aroup.com). die standaardinformatie extractietechnologie gebruikt. Terwijl eerdere technologie kenmerkend herinnerings -en precisiewaarden van ongeveer 60% tot stand 15 brachten, geven voorkeursuitvoeringsvormen van de uitvinding betere resultaten door het combineren van chemische kennis, tekstmining werkwijzen en linguïstische kennis met een intelligente pre- en post-verwerking, waaronder, in tenminste sommige uitvoeringsvormen, plausibiliteit controleurs.

20 Voorbeeldresultaten omvatten waarden van ongeveer 70% voor herinnering en meer dan 90% voor precisie (zie onder).

"Precisie" en "herinnering" zijn gewone maten voor het succes van informatie-extractieprogramma' s. "Herinnering (recall)" heeft betrekking op de hoeveelheid die is 25 gedefinieerd als de verhouding van de reacties die correct geïdentificeerd zijn door de software vergeleken met alle reacties die geïdentificeerd zijn door de menselijke lezer (correct geïdentificeerde reacties/alle reacties). "Precisie" geeft een maat voor de kwaliteit van de resultaten en is 30 gedefinieerd als de verhouding van die reacties die correct geïdentificeerd zijn door de software vergeleken met alle reacties die geïdentificeerd zijn door de software (correct geïdentificeerde reacties/alle geïdentificeerde reacties).

1028923 13 Eén doel van een voorkeursuitvoeringsvorm is om chemische informatie te extraheren uit documenten en deze informatie op te slaan in een database, waardoor automatisch een index naar de onderliggende documenten gecreëerd wordt.

5 Belangrijke zoektermen voor chemici zijn chemische structuren in vector-grafische vorm (verbindingstabel). Chemische namen die gevonden worden in een document (bijvoorbeeld een patent) worden aldus onderworpen aan een naam-naar-structuur vertaling.

10 Een ander doel is om de hoeveelheid gegevens zo groot mogelijk te maken en om de foutratio op een niveau te houden dat vergelijkbaar is met het niveau dat gecreëerd wordt door een menselijke indexeur.

Onder de doelen die een voorkeursuitvoeringsvorm kan 15 identificeren, zijn: (1) bibliografische gegevens; (2) chemische namen; (3) chemische reactieschema's; en (4) fysieke gegevens behorend bij samenstellingen. De bevoorkeurde architectuur is gebaseerd op externe regels (concepten). Dit maakt het eenvoudig om het bereik te 20 expanderen naar andere objecten, zoals door de vakman herkend zal worden. De geïdentificeerde objecten en gegevens worden geëxtraheerd uit een document en in een database geladen.

Voorkeursuitvoeringsvormen van de onderhavige uitvinding omvatten werkwijzen en software voor het verwerken 25 van tekstdocumenten en het extraheren van chemische gegevens daarin. Bevoorkeurde werkwijze-uitvoeringsvormen omvatten: (a) het identificeren en het taggen van een of meer chemische samenstellingen binnen een document; (b) het identificeren en taggen van fysieke eigenschappen die zijn gerelateerd aan een 30 of meer van deze samenstellingen; (c) het vertalen van een of meer van deze samenstellingen in een chemische structuur; (d) het identificeren en taggen van een of meer chemische reactiebeschrijvingen binnen het tekstdocument; en (e) het 1 028 923 14 extraheren van tenminste sommige van de getagde (geëtiketteerde) informatie en het opslaan daarvan in een database.

Een andere uitvoeringsvorm omvat het identificeren 5 van een opbrengst van een product binnen een reactie. Een andere uitvoeringsvorm omvat het vertalen van geëxtraheerde getagde informatie in een formaat dat geschikt is voor het opslaan in een database. Een verder uitvoeringsvorm omvat het identificeren en taggen van atoomeigenschappen binnen een 10 tekstdocument; optioneel omvatten de atoomeigenschappen een of meer van: molecuulformules, getallen, bereiken van getallen, fysieke waarden, labels en referenties binnen de tekst.

In een uitvoeringsvorm is het tekstdocument een 15 document van het XML-type; in andere uitvoeingsvormen is het tekstdocument niet een document van het XML-type en omvat de werkwijze het analyseren van tekst gebaseerd op lijnafbrekingen, nummeringsschema's en speciale sleutelwoorden.

In verscheidene andere uitvoeringsvormen worden 20 tenminste sommige van de chemische samenstellingen beschreven door hun namen; tenminste sommige van de chemische samenstellingen worden beschreven door molecuulformules; en wordt de chemische structuur gerepresenteerd door een verbindingstabel. In een verdere uitvoeringsvorm omvat een 25 stap van het identificeren en het taggen van een of meer chemische samenstellingen binnen een tekstdocument het vergelijken met een woordenboek van chemische naamfragmenten. In een andere uitvoeringsvorm omvat de werkwijze het identificeren en taggen van een speciale regel die 30 geselecteerd is uit een verzameling vooraf gedefinieerde regels voor een geïdentificeerde en getagde samenstelling binnen een geïdentificeerde en getagde reactie; optioneel worden regels gedefinieerd in termen van concepten. Regels 1028923 15 kunnen omvatten: startmateriaal, reagens, oplosmiddel, katalysator en product.

Volgens een ander aspect van de uitvinding wordt een toestel, bij voorkeur een computer of een soortgelijke 5 elektronische inrichting, verschaft die werkzaam is om de werkwijze en de software zoals hierin gedefinieerd, uit te voeren.

KORTE BESCHRIJVING VAN DE TEKENINGEN 10 Figuur 1 toont de werkstroom van een eerste voorkeursuitvoeringsvorm;

Figuur 2 toont de werkstroom van een tweede voorkeursuitvoeringsvorm;

Figuur 3 toont een getagged document waarin de meeste 15 relevante tags geïdentificeerd zijn;

Figuur 4 toont een reactie die geëxtraheerd is uit een patent;

Figuur 5 toont de dubbelzinnigheid van chemische nomenclatuur in een chemische structuur; 20 Figuur 6 toont nomenclatuurstijlen die gebruikt worden voor het geven van een naam aan chemische structuren;

Figuur 7 toont de dubbelzinnigheid van chemische namen die verduidelijkt zijn door empirische analyse en gemeenschappelijk gebruik; 25 Figuur 8 toont inconsistent gebruik van spatie in de nomenclatuur;

Figuur 9 toont een voorbeeld van de "backtracking" en "look forward" bewerkingen gedurende de interpretatie van een gelokaliseerd fragment in een chemische naam; 30 Figuur 10 toont de invoernaam en de resulterende structuur van het Reverse AutoNom programma;

Figuur 11 toont de modulariteit van een voorkeursuitvoeringsvorm; 1028923 16

Figuren 12-15 tonen een getagd document in meer detail.

Figuur 16 toont de werkstroom van een NaamService zoals beschreven in verband met Figuur 1; en 5 Figuur 17 toont een representatieve uitvoer van het TEMIS programma zoals beschreven in verband met Figuur 2.

GEDETAILEERDE BESCHRIJVING VAN VOORKEURSUITVOERINGSVORMEN

Chemische namen zijn complexe objecten die opgebouwd 10 zijn uit naamfragmenten, locants, vermenigvuldigers, voorvoegsels, achtervoegsels en haakjes. Zoals hieronder beschreven, identificeert een leesmachine met (een voorkeursuitvoeringsvorm van de uitvinding, hierin tevens "RM" genoemd) met behulp van een fragmentwoordenboek alle 15 chemische naamfragmenten in een document. De tekstomgeving van elk fragment wordt geanalyseerd om te bepalen welke fragmenten en omgevingen locants een enkele chemische naam vormen. Aan de gevonden chemische namen wordt een tag (naamtag) toegewezen.

20 Figuur 1 beschrijft de algehele gegevensstroom van een voorkeursuitvoeringsvorm.

In stap 102 worden de chemische gegevens binnen de tekst van een document geïdentificeerd. Veel geschikte ontledingswerkwijzen zijn in het vakgebied bekend en elke 25 werkwijze of combinatie ervan kan gebruikt worden om chemische gegevens in de tekst te identificeren. Een database welke een lijst chemische fragmenten bevat, kan bijvoorbeeld dienst doen als basis voor een gegevensontleder.

Chemische gegevens omvatten chemische structuren, 30 chemische fragmenten, molecuulformules en "atomistische eigenschappen". "Atomistische eigenschappen" zijn die eigenschappen die getagd kunnen worden zonder het analyseren 1028923 17 van de context van de chemische gegevens. De volgende tekstelementen kunnen bijvoorbeeld atomistisch zijn: — getallen of bereiken van getallen; - Fysieke waarden (getallen voor fysieke eenheid), 5 bijvoorbeeld "mp: 100-120K"; — Labels en referentiewaarden binnen de tekst, bijvoorbeeld "Voorbeeld 2a", "3b"; - Som formules

Figuur 12 beeldt de identificatie van een chemische 10 structuur in een document af. Figuur 13 beeldt de identificatie af van fysieke waarden in een document. Figuur 14 beeldt de identificatie van chemische namen en molecuulformules in een document af.

Zoals herkend zal worden, kunnen andere chemische 15 gegevens geïdentificeerd worden in het document. Acronymen, triviale namen of handelsnamen, en/of formules )zoals hieronder beschreven) kunnen bijvoorbeeld tevens geïdentificeerd worden in een documenttekst. Verder kunnen de rollen van chemische gegevens geïdentificeerd worden 20 (bijvoorbeeld samenstellingen, proteïnen, soorten, ziekten, etc.) alsmede relaties tussen chemische gegevens (bijvoorbeeld product, reagens, bindt, verbiedt, onderdrukt, heeft effect op, wordt gebruikt voor, etc). Zoals verder herkend zal worden, kunnen bijbehorende gegevens tevens 25 geïdentificeerd worden voor relationele database doeleinden (bijvoorbeeld bedrijfsnamen, uitvinders, brondocument(en) of willekeurige andere gewenste gegevens).

De geïdentificeerde chemische gegevens worden geëvalueerd in stap 104 en indien een chemisch fragment 30 geïdentificeerd wordt, gaat de bewerking door naar stap 106. Wanneer echter een molecuulformule geïdentificeerd wordt, gaat de bewerking door naar stap 110. Verder gaat voor 1028923 18 geïdentificeerde atomistische eigenschappen en bijbehorende gegevens de bewerking door naar stap 114.

In stap 106 wordt een woordenboek geconsulteerd om te verifiëren of het geïdentificeerde fragment correct is. In 5 een voorkeursuitvoeringsvorm zorgt deze verificatie ervoor dat de bewerking doorgaat naar stap 108. In andere voorkeursuitvoeringsvormen wordt syntaxinformatie met betrekking tot het fragment vanuit het woordenboek opgehaald.

Deze informatie kan verder het fragment identificeren. De 10 informatie kan bijvoorbeeld specificeren dat het fragment een naam op zichzelf kan zijn of dat het fragment slechts toegestaan is aan het begin, in het midden of aan het einde van een chemische naam.

In stap 108 wordt de context rondom het fragment 15 geïdentificeerd, bij voorkeur door het identificeren van die fragmenten die verbonden zijn door een verzameling toelaatbare karakters in de chemische naam. Een voorbeeld van potentieel toelaatbare karakters omvatten haakjes, getallen, accenten, Griekse letters, enkele karakters, streepjes, 20 komma's, punten, punt-komma's, dubbele punten, spaties en woorden of frasen uit een vooraf bepaalde lijst (bijvoorbeeld " het zout", "anionisch" etc.). Combinaties van deze karakters zijn toegestaan volgens vooraf bepaalde regels. In een voorkeursuitvoeringsvorm worden IOPAC regels gevolgd 25 (bijvoorbeeld wordt een enkele ”e" toegestaan, maar niet "ee"). In andere uitvoeringsvormen kunnen andere gestandaardiseerde regels gevolgd worden. In verdere uitvoeringsvormen kunnen de regels propriëtair zijn of kunnen ad hoe gecreëerd worden.

30 In één voorkeursuitvoeringsvorm gaat, wanneer de context van het fragment geïdentificeerd is, de bewerking door naar stap 110. In andere voorkeursuitvoeringsvormen kan i echter het woordenboek van stap 106 opnieuw geconsulteerd 1028923 19 worden om te verifiëren of elk fragment, waaronder de omgevende context, nog steeds geldig is.

In stap 110 kan de molecuulformule of het fragment en de omgevende tekst gebruikt worden om een chemische naam te 5 genereren. Zoals in meer detail hieronder beschreven wordt, kunnen verschillende benamingsconventies verschillende namen opleveren. Deze benamingsconventies kunnen gestandaardiseerd zijn (bijvoorbeeld IUPAC benaming) of een naam van een structuur kan, zoals bekend is in het vakgebied, op 10 nauwkeurige wijze een structuur beschrijven zonder op juiste wijze zich te conformeren aan welke conventie dan ook. In één voorkeursuitvoeringsvorm wordt slechts één benamingsconventie gebruikt om slechts één naam te genereren. In een andere uitvoeringsvorm worden twee benamingsconventies gebruikt om 15 twee of meer chemische namen te genereren. In nog een andere uitvoeringsvorm, wordt een combinatie van benamingsconventies gebruikt om een verzameling namen te genereren. Zoals hieronder beschreven is, kunnen, ondanks de aanwezigheid van een aantal conventioneel (of onconventioneel) gegenereerde 20 namen voor een structuur, alle namen een unieke chemische structuur verklaren. Zoals bijvoorbeeld illustratief is getoond in Figuren 5 en 6, representeert een verzameling "dubbelzinnige" chemische namen bijvoorbeeld dezelfde chemische structuur.

25 In stap 112 worden de in stap 110 genereerde gevonden chemische namen bij voorkeur omgezet in chemische structuren. In een voorkeursuitvoeringsvorm gebruikt de vertaling van een chemische naam in een chemische structuur het programma Reverse Autonom, dat hieronder gedetailleerd beschreven wordt 30 onder de sectie getiteld "Reverse Autonom". In een andere uitvoeringsvorm gebruikt de vertaling een database die naam-naar-structuur relaties bevat (zoals een database ACD, een product van MDL Ine, dat alle commercieel beschikbare 1 028923 20 chemicaliën met structuren en chemische namen bevat; http://www.mdli.com). In nog een andere uitvoeringsvorm wordt het programma NameToStructure (ACD Labs; http://www.acdlabs.com) gebruikt om namen om te zetten in 5 chemische structuren. Zoals herkend zou worden, kunnen andere programma's in deze stap gebruikt worden.

Deze bronnen worden samengebundeld teneinde een "NaamService" te vormen, een service met een SOAP interface die chemische namen omzet in chemische structuren en die de 10 coördinaten (met behulp van het programma Cheshire, een product van MDL) berekent. Een illustratief voorbeeld van een NaamService is getoond in Figuur 16.

NaamService verschaft: (a) vertaling naar chemische structuur via een "beste bron" algoritme; (b) verbetering van 15 de coördinaten; en (c) berekening van metagegevens (somformule, unieke registratiereeks ("regstring")). De "registratiereeks" is een binaire reeks die op unieke wijze een samenstelling identificeert. Wanneer twee samenstellingen een identieke registratiereeks hebben, zijn ze identiek en ze 20 zijn daarentegen niet identiek indien zij verschillende registratiereeksen hebben.

In nog een andere voorkeursuitvoeringsvorm kan één of meer van deze bronnen gebundeld worden teneinde een "NaamService" te vormen. De NaamService is bij voorkeur een 25 service met een SOAP interface en omvat: naam-naar-structuur vertaling, coördinaat berekening (via MDL Informatie Systems programma Chesire ® - http://www.mdli.com). en berekening van metagegevens (bijvoorbeeld somformule, unieke registratie reeks, etc.). Zoals herkend zal worden, kan de NaamService 30 een willekeurige combinatie van deze functies omvatten of kan andere gerelateerde functionaliteiten omvatten. Verder kan de NaamService een interface hebben met de RM via willekeurige acceptabele programmeermiddelen.

1028923 21

In stap 114 worden de gevonden chemische namen in het document getagd. In een voorkeursuitvoeringsvorm zijn deze tags in een XML formaat. In een andere voorkeursuitvoeringsvorm zijn deze tags in HTML, SGML, of een andere 5 gestandaardiseerd formaat of in een propriëtair tag-formaat.

In stap 116 wordt de chemische informatie opgeslagen in een database. In een voorkeursuitvoeringsvorm worden bijvoorbeeld de chemische namen en structuur opgeslagen in de ! database. In andere voorkeursuitvoeringsvormen kunnen de 10 metagegevens, coördinaten, chemische namen, chemische structuren en/of elke willekeurige andere informatie uit stappen 102-116 in de database worden opgeslagen.

NORMALISATIE VAN DOCUMENTEN

15 In één voorkeursuitvoeringsvorm verwerken stappen 102-116 van Figuur 1 bij voorkeur documenten in XML formaat.

In een andere voorkeursuitvoeringsvorm worden andere formaten (bijvoorbeeld SGML, HTML, ....) van te voren omgezet in XML.

In nog een andere voorkeursuitvoeringsvorm wordt het document 20 verwerkt zonder enige omzetting. In nog een andere voorkeursuitvoeringsvorm wordt één formaat omgezet in een ander formaat voor verwerking (bijvoorbeeld optische karakter herkenningstekst (OCR) wordt omgezet in HTML). Wanneer een brondocument omgezet moet worden, heeft elk documenttype bij 25 voorkeur een documenttypedefinitie (DTD) bestand dat de omzettingswerkwijze opsomt. Wanneer een document een formele structuur (dat wil zeggen een bepaald documenttype) heeft, specificeert bijvoorbeeld een DTD bij voorkeur hoe structuren (bijvoorbeeld tagged structuren) in het brondocument omgezet 30 moeten worden. In andere instanties, waarin het brondocument geen formele structuur heeft, kan een DTD specificeren dat slechts een basisknooppunt gecreëerd moet worden welke de hele brontekst bevat.

1 028923 22

Figuur 2 illustreert de werkstroom van een andere voorkeursuitvoeringsvorm.

REACTIE-IDENTIFICATIE

5 In stap 202 worden de chemische reacties geïdentificeerd binnen de tekst van een document. In één voorkeursuitvoeringsvorm wordt de documentstructuur (bijvoorbeeld XML of een andere formele structuur) geanalyseerd om het begin en het eind van een reactie te 10 identificeren. In een andere voorkeursuitvoeringsvorm kunnen documentkoppen het begin en het einde van een reactie identificeren. In nog een andere voorkeursuitvoeringsvorm kunnen atomistische eigenschappen het begin en het einde van een reactie (bijvoorbeeld Voorbeeld 2a) aanduiden. Verder 15 kan, zoals hierboven beschreven is, documentnormalisatie structuur verschaffen om het begin en het einde van de chemische reactie te bepalen. In een andere voorkeursuitvoeringsvorm kan het begin en het einde van een reactie gecreëerd worden of gemodificeerd worden gebaseerd op 20 de reeks van gevonden en getagde informatie. Een chemische "workup"-sectie, gevolgd door een educt identificeert het begin van een nieuwe reactie of een nieuwe reactiestap.

Rolherkennina (grammatica! 25 De volgende stap (204) is om de rol van de samenstelling binnen een reactie te identificeren. In een voorkeursuitvoeringsvorm kan de rol zijn: (a) educt (startmateriaal); (b) product; (c ) reagens; (d) katalysator; of (e) oplosmiddel. De identificatie van de rollen wordt bij 30 voorkeur uitgevoerd door gebruik te maken van gelicenseerde programma's van derden. Eén van dergelijke programma's is "Insight Discoverer™ Extractor" (IDE) van TEMIS. IDE heeft een ingebouwde bibliotheek die linguïstische analyse van de 1028923 23 tekst uitvoert (XELDA software van XEROX) en tags de tekst met het gevonden deel van spraak voor elk woord (bijvoorbeeld werkwoord, zelfstandig naamwoord, bijvoeglijk naamwoord, etc.) en zijn basisvorm. De basisvorm van het woord "getest" 5 is test. Elk woord wordt getagd met deze informatie.

Deze getagde tekst wordt geanalyseerd door gebruik te maken van "concepten" die vooraf gedefinieerde regels zijn die zijn uitgedrukt als gewone uitdrukkingen. Elk concept is een verzameling linguïstisch soortgelijke termen; meer 10 basisconcepten worden gecombineerd in meer complexe concepten. Een concept (of patroon) is een regel die relaties definieert tussen woorden, uitdrukkingen en andere concepten in een tekst. Indien een concept "overeenkomt" met de tekst, bevat dat deel van de tekst de informatie die wordt 15 uitgedrukt door dat concept. De betekenis van elke zin wordt gedetecteerd door de overeenstemmende concepten. Tekst wordt getagd met zijn corresponderende concept(en). Zoals hieronder gedetailleerder wordt beschreven, kan tekst getagd worden met meer dan één concept. Een illustratief voorbeeld van getagde 20 tekst is getoond in Figuur 17.

Een zin zoals "fenol werd gemengd met natriumalanaat in hexaan" wordt eerst getagd met namen, resulterend in "namtag werd gemengd met namtag in namtag". Het juiste concept om het oplosmiddel te extraheren zou zijn: 25 <conceptnaam="Coplosmiddel"autonoom="WAAR"> ((REACTANT:namtag})?/in/{OPLOSMIDDEL:namtag} </concept>

Dit concept vindt een namtag na het woord "in" en wijst de 30 rol oplosmiddel toe aan deze namtag. Indien een namtag voor de "in" is, zal deze namtag de rol "reactant" krijgen. Als een verder voorbeeld definieert de zin "....leverde op <namtag>" <namtag> als een product.

1028923 24

Regels worden gedefinieerd door het analyseren van een batch documenten om alle relevante werkwoorden die een product definiëren, te vinden. Tabel 1 illustreert bijvoorbeeld enige van de verscheidene woordvormen die een 5 product zouden definiëren.

TABEL 1 5604 Geven geven #VB (werkwoord)

2214 Veroorloven veroorloven #VB

10 1835 Verschaffen verschaffen #VB

1582 Geprepareerd prepareren #VBN (deelwoord)

1317 Verkregen verkrijgen #VBN

1200 Gegeven geven #VB

640 Opleveren opleveren #VB

15 540 Veroorloofd veroorloven #VBD (verleden tijd) 528 Gebruiken gebruiken #VBG (gerundivum)

523 Gereduceerd reduceren #VBN

479 Gedroogd drogen #VBN

440 Verkrijgen verkrijgen #VB

20

Zoals verder is geïllustreerd in Bijlage A, wordt een aantal "concepten" bij voorkeur gedefinieerd, waarin elk concept één wijze beschrijft om de rol van een samenstelling (bijvoorbeeld educt, product, etc.) uit te drukken. Zoals is 25 getoond in Bijlage A, wordt een reeks van conceptbestanden gedefinieerd in het bestand MDLProdReact.scp. Alle concepten van niveau 0 worden toegepast op de gegeven tekst, terwijl elk concept een deel van een tekst markeert. Indien twee gemarkeerde tekstfragmenten overlappen, wordt het linker en 30 langste fragment gebruikt voor verder analyse. Dezelfde stappen worden herhaald voor het volgende niveau tot een maximum niveau van 4.

1028923 25

Anafoor resolutie

Een "anafoor" is een linguïstische wijzer naar een ander object. Voorbeelden zijn "het verkregen zout" (wijzend naar de chemische naam van het zout), "het product van 5 voorbeeld 2b" (wijzend naar de chemische naam voor het product van het voorbeeld), "de alcohol werd toegevoegd" (wijzend naar de chemische naam voor het alcohol), etc. In stap 206 worden anaforen getagd als anaforen, alsmede getagd met hun chemische naam. De anafoor zelf behoudt zijn rol als 10 chemische naam en het doel wordt bepaald binnen de gegeven context. De identificatie van een anafoor is weergegeven in Figuur 15.

Validatie van resultaten 15 De resultaten in de reactie worden bij voorkeur gevalideerd gebaseerd op een berekend kwaliteitsniveau (stap 208). In deze stap wordt het kwaliteitsniveau van de verkregen resultaten vergeleken met enige pragmatische parameters (bijvoorbeeld (a) aantal educten; (b) aantal 20 producten; (c) aantal niet-geïdentificeerde samenstellingen). Reacties met een kwaliteitsniveau onder een pragmatisch gedefinieerde drempel worden buiten beschouwing gelaten. Reacties waarin bijvoorbeeld geen of teveel producten gevonden worden met een laag kwaliteitsniveau, worden buiten 25 beschouwing gelaten. Wanneer een aantal educten resulteert in een acceptabel aantal producten, kan de reactie een hoog kwaliteitsniveau hebben en zou deze dienovereenkomstig geaccepteerd worden.

Na deze stap worden alle relevante objecten getagd in 30 het document. Figuur 3 beeldt een getagde reactie af waarin de meest relevant tags gevisualiseerd zijn.

Figuur 4 illustreert een reactie die is geëxtraheerd uit een patent en de relevante patenttekst. Zoals is getoond 1028923 26 in Figuur 4, representeert onderdeel 402 de geëxtraheerde gegevens. Product PRN representeert bijvoorbeeld het product dat geëxtraheerd is uit de patenttekst (deel 406). Deel 404 beeldt de bijbehorende structuur en het reactieschema af.

5 Deel 408 identificeert het referentiepatent dat gebruikt is om de relevante gegevens te extraheren.

Extractie

In stap 210, (zie Figuur 2) worden gevonden objecten 10 bij voorkeur geëxtraheerd uit het document. In één voorkeursuitvoeringsvorm worden de geëxtraheerde objecten omgezet in XML formaat. In een andere voorkeursuitvoeringsvorm worden de geëxtraheerde objecten omgezet in een propriëtair formaat (bijvoorbeeld PEP 15 formaat). Zoals herkend zal worden, kunnen de geëxtraheerde gegevens omgezet worden in een willekeurig formaat (ASCII, Binair, HTML, etc.).

Plausibiliteitscontroles 20 Zoals getoond is in stap 212, worden de gevonden reacties gecontroleerd op hun chemische plausibiliteit. Dit wordt bij voorkeur uitgevoerd door het detecteren van de reactiecentra en het projecteren (mapping) van de atomen van het startmateriaal of de startmaterialen op de atomen van 25 het/de product(en). Omdat alle beschikbare projectiegereedschappen hun sterktes en zwaktes kennen, gebruikt een voorkeursuitvoeringsvorm twee of meer verschillende gereedschappen, bijvoorbeeld "Classficeer (Classify)" van InfoChem en "Cheshire" een commercieel 30 product van MDL. In deze uitvoeringsvorm worden reacties die voldoen aan twee van de drie plausibiliteitscontroles bijvoorbeeld, geaccepteerd en opgeslagen in een database (stap 214). In een andere voorkeursuitvoeringsvorm wordt 1 028923 slechts één van deze projectiegereedschappen gebruikt. In nog een andere voorkeursuitvoeringsvorm wordt, een willekeurige combinatie van deze gereedschappen gebruikt.

27

In tenminste één uitvoeringsvorm wordt een reactie 5 geaccepteerd gebaseerd op een projectiescore. Afhankelijk van het percentage van de acceptabele projecties, wordt een projectiescore gegeven door één of meer van de bovengenoemde gereedschappen. Wanneer de score een drempelwaarde passeert, wordt de reactie geaccepteerd. In deze uitvoeringsvorm kunnen 10 speciale chemische regels geëvalueerd worden om het percentage acceptabele projecties te bepalen (bijvoorbeeld mate van overlap, redelijke verlatingsgroepen, is het niveau van ladingsbalans redelijk, zijn de valenties van alle atomen plausibel). Elke acceptabele projectie heeft een puntwaarde. 15 Zoals herkend zal worden door de vakman, kan elke combinatie van deze regels of additionele regels gebruikt worden om het percentage acceptabele projecties te bepalen. In deze uitvoeringsvormen wordt, indien de reactie slaagt (plausibel is), deze opgeslagen in een database (stap 214). Indien de 20 reactie niet slaagt, wordt deze verworpen. Verder kunnen inherent inplausibele reacties verworpen worden (bijvoorbeeld een reactie kan inplausibel zijn wegens fouten in het document (auteurfouten, OCR fouten), dubbelzinnige namen, verkeerde interpretatie van namen of wegens andere redenen 25 die niet gerelateerd zijn aan de reactie zelf).

Indien de reactie niet slaagt, kan in een uitvoeringsvorm een tweede plausibiliteitscontrole, gebruik makend van verschillende uitvoeringsvormen, gepoogd worden. Zoals herkend zal worden, kan een willekeurige combinatie van 30 de bovengenoemde projectiegereedschappen of additionele projectiegereedschappen gebruikt worden om de chemische plausibiliteit te verifiëren. Zoals verder herkend zal worden, kan elke combinatie van de bovengenoemde 1 028 923 28 uitvoeringsvormen gebruikt worden om de plausibiliteits-controle te verifiëren.

Modulariteit 5 In een voorkeursuitvoeringsvorm is er software geconstrueerd uit modules waarin elke module werkzaam om een of meer stappen (zie Figuur 11) uit te voeren. Het voordeel van een dergelijke modulariteit zal duidelijk zijn voor de vakman.

10

Resultaten

Tabel 2 hieronder illustreert de herinnerings- en precisie-ratio's van RM. Tenminste 10.000 patenten werden verwerkt en vervolgens werd een handmatige 15 Kwaliteitsverzekering (Quality Assurance) op enige duizenden reacties uitgevoerd.

Tabel 2

Stap Herinnering Precisie 20 Chemische namen 98% >95%

Reactie identificatie >80% >80%

Naam naar structuur 65% >98%

Meer dan 80% van alle reacties zijn gevonden met 25 correcte educten en producten. De vertaling van de namen naar structuren is de grootste flessenhals; desalniettemin hebben ongeveer 50% van alle reacties structuren toegewezen en deze zijn van een goede kwaliteit.

30 Technische details

Tabel 3 duidt de technische details van een RM aan. Verdere voorkeursuitvoeringsvormen kunnen gecreëerd worden 1028923 29 door het toevoegen of het verwijderen van elementen. Verder kan elk aantal elementen uit Tabel 3 gecombineerd worden om additionele uitvoeringsvormen te vormen. In de ene uitvoeringsvorm kan bijvoorbeeld RM slechts het Microsoft 5 Windows® operating systeem ondersteunen. In een andere uitvoeringsvorm kan RM zowel Windows® en AIX van IBM ondersteunen. De vakman zal begrijpen dat Tabel 3 voorziet in een aantal voorkeursuitvoeringsvormen die zijn gebaseerd op de combinatie van elementen. De vakman zal verder begrijpen 10 dat andere besturingssystemen, besturingsmodi, ondersteunde invoer- of uitvoerformaten, en ingebedde producten gebruikt kunnen worden en dat hetgeen opgesomd is in Tabel 3 slechts een illustratieve lijst is in plaats van een volledige lijst.

15 Tabel 3

Ondersteunde besturingssytemen Windows, AIX

Besturingsmodus Batch, lijst van bestandsnamen

Ondersteunde invoerformaten XML, SGML

Uitvoerformaten HTML, XML, SSF

20 Ingebedde gelicenseerde IDE van TEMIS, Naam naar producten Structuur van ACD/Labs

Omgekeerde Autonom (reverse Autonom)

Het Omgekeerde AutoNom (Reverse AutoNom) 25 computerprogramma vertrouwt niet op het concept van een zogenoemde "correcte naam". Zoals de vakman zal begrijpen, kunnen Omgekeerde AutoNom algoritmes "worst case scenarios" verwachten voor zover het gaat om syntax en gebruikte semantiek van de invoernamen. Aangenomen moet worden dat iets 30 zoals "systematische nomenclatuur" slechts een vage uitspraak is van academici en niet in de praktijk gevolgd wordt.

Omgekeerde AutoNom neemt aan dat de zogenoemde systematische namen zeldzaam zijn en dat aldus Omgekeerde 1028923 30

AutoNom zijn best doet om elke willekeurige naam die als invoer gepresenteerd wordt, om te zetten.

ALGEMEEN ONTWERP

5 Alhoewel de naam "Omgekeerde AutNom" verwijst naar "AutoNom", hebben de twee programma's in werkelijkheid weinig gemeenschappelijk. De AutoNom (van Automatische Nomenclatuur) nomenclatuur generator was het eerste baanbrekende programma op het gebied van de door de computer geassisteerde 10 organische nomenclatuur die structuurdiagrammen direct in chemische namen24'28 vertaalt. Het gebruik van de term "AutoNom", voorafgaand door "Omgekeerd" is slechts beschrijvend en is gekozen om aan een potentiële gebruiker aan te duiden welke omzetting zij/hij van het programma kan 15 verwachten.

In een naam-naar-structuur vertaling is de dubbelzinnige en in grote mate ongedefinieerde of "fuzzy" invoer de naam met alle mogelijke "dialecten", toegestane notaties en vage syntax. De uitvoer -het structurele diagram-20 is aan de andere kant absoluut uniek en gedefinieerd tot in de kleinste details.

Het Omgekeerde AutoNom programma werd ontworpen door rekening te houden met de linguïstiek van de gewoonlijk gebruikte namen. Het "gewoonlijke gebruik" is bekend in het 25 vakgebied. Als basis voor kwaliteitsanalyse zijn meer dan 8 miljoen gepubliceerde namen van Europese, Amerikaanse en Japanse octrooipublicaties van de jaren 1980-2000 gegrasduind (browsed) teneinde een willekeurig monster van 1130 namen te produceren, welke namen vervolgens handmatig geanalyseerd 30 werden door een chemische nomenclatuurspecialist. De volgende resultaten werden verkregen: 1028923 31

Tabel 4

Kwaliteit van namen voor een monster van 1130 namen die zijn 5 geëxtraheerd op willekeurige basis uit octrooipublicaties die verschenen zijn in de jaren 1980-2000.

Kwaliteitsratio beschrijving % van

Namen

Conform IUPAC: geen stereochemische symbolen in de 34,10 naam 10 Conform IUPAC en AutoNom 0,07

Conform IUPAC: stereosymbolen aanwezig en triviale 19,90 delen aanwezig

Conditioneel aan IUPAC geconformeerd, triviale 13,60 delen aanwezig, stereosymbolen aanwezig (slecht 15 conditioneel omzetbaar)

Niet aan IUPAC geconformeerd (slechts conditioneel 6,60 omzetbaar)

Syntaxfouten in naam, formele of logische fouten in 16,40 naam (slechts conditioneel omzetbaar 20 Niet-converteerbare namen (conform geen regels) 9,30

Namen met ontbrekend aantal standaard (default) 0,03 locants (niet-omzetbaar)

De bovenstaande statistieken werden vermeerderd door 25 de AutoNom's prestatie7 resultaten die zijn gemeten uit een monster van meer dan 63.000 structuren die willekeurig gekozen zijn uit de Beilstein database voor de nieuwste uitgave van het programma (AutoNom 2000 en AutoNom TT). Door beide gegevens beschikbaar te hebben is het mogelijk gemaakt 30 om een verzameling relevante richtlijnen te formuleren die 1028923 32 gevolgd dienen te worden indien een naam-tot-structuur algoritme in redelijke mate succesvol moet zijn: 1) IUPAC regels of aanbevelingen worden gebruikelijk genegeerd, geschonden of gebroken.

5 De aanname dat de chemische wereld "De Regels" kent is verkeerd. De meeste chemici trachten, indien zij dit al doen, zich te conformeren aan hetzij het CAS- hetzij het Beilstein nomenclatuursysteem. Zeer vaak mengen zij deze in een enkele naam. Adamantaan (behouden door IUPAC - verboden 10 door CAS - toegestaan door Beilstein) ringnaam als equivalent aan de systematische van Baeyer naam tricyclo [3.3.1.13'7] decaan treedt vaak op als een fragment in een enkele naam samen met andere fragmenten zoals 3,1-benzoxazine (toegestaan door UIPAC - verboden door Beilstein 15 - toegestaan door CAS). Zoals is getoond in Figuur 6, werden alternatieve namen (voor dezelfde structuur) in het testmonster tegengekomen.

Omgekeerde AutoNom zet elk van de namen van Figuur 6 om in de correcte structuur.

20 2) IUPAC regels of aanbevelingen worden gewoonlijk naar wens uitgebreid.

De naam "2-(2,2-difenylethylamino)-1,4,5,6,7-pentahydro-1,3-diazepinehydrochloride" werd gevonden in één van de geteste monsters. Voor sommige 25 nomenclatuurspecialisten zou deze naam shockerend kunnen zijn. Dit is duidelijk een zeer incorrecte naam. Oneven aantallen "hydro" prefixen (pentahydro) zijn strikt verboden in alle nomenclatuursystemen of praktijken. Het aantal moet even zijn (tetrahydro) en een additioneel aangeduid 30 waterstofprefix (1H) zou gebruikt moeten worden. Aan de andere kant is voor de auteur van deze naam deze regel waarschijnlijk onbekend of te beperkt en ziet hij/zij niets verkeerds in de uitbreiding ervan. Zowel de chemicus als het 1028923 33 computerprogramma kunnen deze gemakkelijk omzetten in de correcte structuur. Een dergelijke benadering voor "De Regels" is wijd verspreid in de chemische wereld.

Er is niks verkeerds (voor chemici) aan het toestaan 5 van onbeperkte substitutie van koolstoffen in triviale namen (behouden door IUPAC), zoals myristische, stearische of laurische zuren (IUPAC en CAS staan dit slechts toe voor het twee koolstofazijnzuur). Aceton wordt toegestaan door IUPAC, maar triviale namen zoals butyron, valeron, stearon etc. voor 10 langere ketonen zijn verboden (CAS en Beilstein volgend in dit geval de IUPSC). Voor chemici wordt de "ketonregel" van aceton vrij uitgebreid voor andere ketonen.

Op soortgelijke wijze lijkt het gerenommeerde Hantzsch-Widman systeem voor het een naam geven van 15 monocyclische ringen met heteroatoomvervangingen naar wens uitgebreid te worden. De laatste pre-gedefinieerde IUPAC lijst29 van toegestane 19 (Het Blauwboek van 1979 specificeert een lijst van 22 atomen6) heteroatomen voor dergelijke vervangingen lijkt geen verplichting in te stellen voor 20 chemici. Indien 1,3-oxathiolaan is toegestaan is, waarom zou dan 1,3-oxapolonaal niet toegestaan zijn. Er is niks geks in deze arbitraire benadering, wanneer rekening wordt gehouden met het feit dat zelfs Beilstein en CAS slechts gedeeltelijk conform deze IUPAC aanbeveling zijn. Beilstein gebruikt de 25 originele uitgebreide lijst van 22 atomen, terwijl CAS

slechts 14 atomen van de lijst van 19 atomen gebruikt waarbij alle haliden en kwik verwijderd zijn.

Een ander voorbeeld van een tamelijk rare interpretatie van de IUPAC regels is geïllustreerd door de 30 naam "1,4-dihydrobenzeen" die tegengekomen wordt in één van de testvoorbeelden. Het gebruik van de "hydro" prefix om toegevoegde waterstofatomen (additieve nomenclatuur), is absoluut verboden voor een benzeenring. IUPAC beveelt het 1028923 34 gebruik aan van subtractieve nomenclatuur ("-een" en "yne") over cycloalkanen. In dit specifieke geval is de correcte naam "cyclohexa-1,3-dieen". Aan de andere kant is er geen informatie in de exotische naam "1,4-dihydrobenzeen" zodat de 5 naam omgezet wordt door het Omgekeerde AutoNom programma in de correcte structuur.

3)Dubbelzinnigheid in namen is gewoon en kan slechts opgelost worden door empirische werkwijzen.

De gepubliceerde namen zijn dubbelzinnig en men heeft 10 ermee te leven. Aan de andere kant is het mogelijk door gedetailleerde en vaak zeer uitgebreide analyse van gemeenschappelijk gebruik (onder de voorwaarde dat men statistisch representatieve monsters van moderne nomenclatuur moet zien te bereiken) om een soort logica in de 15 dubbelzinnigheid van namen te bepalen.

De eerste fase van het Omgekeerde AutoNom project concentreerde zich exclusief op een dergelijke analyse (zie Tabel 4). Namen uit bladen en andere databases van hoge kwaliteit (bijvoorbeeld het Beilstein bestand) werden in het 20 algemeen genegeerd aangezien de verwachte redactionele interventie per definitie de frequentie van de dubbelzinnigheid zou hebben gereduceerd. In plaats daarvan selecteerden we een monster van meer dan 8 miljoen namen uit Europese, Amerikaanse en Japanse octrooipublicaties van de 25 jaren 1980-2000. Zij werden geëxtraheerd uit de bron octrooirapporten door het aftasten (scannen) van de papieren hard-copy documenten en door gebruik te maken van OCR (Optische Karakter Herkenning) teneinde een invoer samen te stellen voor verdere complexe, op een computer gebaseerde 30 bewerking door een toepassingsgericht programma dat de leesmachine genoemd werd. De uitvoer van de leesmachine leverde onder andere de karakterreeksen op van alle chemische namen die tegengekomen werden in de brondocumenten. Na het 1028923 35 monster opgehaald te hebben kon men de namen analyseren en de principes formuleren van het gewone gebruik voor het Omgekeerde AutoNom project.

Om het probleem van dubbelzinnigheid te illustreren, 5 kan men twee eenvoudige namen (zoals getoond in Figuur 7) beschouwen. In het geval van "dimethylacetamide" kan de standaard locant voor vermenigvuldigd methyl hetzij stikstof van de amine post-suffix of het koolstof op positie 2 van de ethaanketen in het "acet" zijn. Het gewone gebruik principe 10 wijst in de meeste gevallen op stikstof op amide.

In het laatste geval van pyrazol met carboxamide-suffix zijn er twee keuzes voor de interpretatie van de stikstoflocant "N" in de naam: hetzij als positie op amide of op de laagst mogelijke N op pyrazol. Gewoon gebruik analyse 15 toont aan dat het amidestikstofatoom meestal de voorkeur heeft.

Zelfs de meest algemene inspectie van chemische namen zoals zij daadwerkelijk gepubliceerd worden in documenten, toont dat zij behoefte hebben aan "lexografische optilling". 20 Punctie en het gebruik van hoofdletters treedt op in alle mogelijke variëteiten. Spaties (belangrijk voor herkenning van multicomponentnamen) en andere afbakeners (belangrijk, bijvoorbeeld voor esters, ethers of anionen) worden geheel verkeerd gebruikt. Namen zoals "4-acetyl-2-(6-oxo-25 pentadecyl)-fenoxazine-10-carboxylzuur ethylester" zijn even gewoon als hun even slechte equivalent "4-acetyl-2-(6-oxo-pentadecyl)-fenoxazine-10-carboxylzuur-ethylester" die als hetzelfde bedoeld zijn.

Na de bovengenoemde principes uiteengezet te hebben, 30 werd een voorkeursuitvoeringsvorm van de Omgekeerde AutoNom ontworpen. Het algoritme voert bij voorkeur de volgende stappen uit: - lexografische afhandeling (en automatische correctie) 1028923 36 van de invoernaam; — naamsplitsing en ontleding; — interpretatie van herkende fragmenten; stam, suffixen, prefixen, infixen en post-suffixen; 5 — fragmentordening in zogenoemde niveaus van de naam; en fragmentnaam samenstelling (hieronder in meer detail besproken).

Gedurende de eerste vier fases creëert en 10 identificeert een voorkeursuitvoeringsvorm van het algoritme objecten alsmede brengt het algoritme onderlinge relaties daartussen tot stand. Zij worden vervolgens op juiste wijze geordend en gecompileerd in een complete structuur gedurende de laatste fase van de omzetting.

15 In het eerste prototype van de Omgekeerde AutoNom, was lexografische afhandeling (en automatische correctie) van de invoernaam afwezig. Aangenomen werd dat namen dubbelzinnig konden zijn, echte fouten konden bevatten, of een inadequate grammatica konden hebben. De laatste twee zouden het 20 algoritme reeds in de fase van het ontleden doen stoppen. De eerste daarvan kon doorgestuurd worden ter afhandeling in de interpretatie en ordeningsstappen van het algoritme. Kort na de compilatie en de gedetailleerde syntactische analyse van het piloot-representatieve-testmonster van de vanuit de 25 octrooidocumenten geëxtraheerde namen, moest deze aanname geverifieerd worden.

De statistieken toonden dat binnenkomende namen een slechte syntax hadden, in het bijzonder op het gebied van punctuatie, spaties en het gebruik van hoofdletters. De 30 meeste van dergelijke namen gebruikten wat de auteur dachten dat het CAS styling was, maar in werkelijkheid weinig van doen had met standaarden die gedefinieerd zijn door de ACS Style Guide handleiding30. In het "Beilstein dialect" van de 1028923 37 nomenclatuur gepubliceerde namen hadden een veel betere kwaliteit, maar ook in dit geval werden de richtlijnen door Beilstein31 vaak genegeerd of verkeerd geïnterpreteerd.

De alfabetische ordening van substituenten (zoals 5 gestipuleerd door IUPAC, CAS en Beilstein) werd vaak genegeerd. Moedertaal (niet-Engels) van de auteurs beïnvloedde zichtbaar de syntax van de gepubliceerde namen en aldus werden vaak "sulphonyl", "alkohol", "alfa", of "gama" gebruikt in plaats van het correcte "sulfonyl", "alcohol", 10 "alpha", en "gamma".

Afbakeners (aanhalingstekens, komma's, punt-komma's, punten, etc.) werden inconsistent gebruikt. Koolwaterstofring samenstellingen, gebrugde koolwaterstoffen (van Baeyer systemen) en spiro koolwaterstofklassen zijn hier de beste 15 voorbeelden. De extreme gevallen omvatten: "<1-1'><3'-1">-ter-cyclo-octaan" voor het correcte (IUPAC/CAS) "1,1';3',1”-tercyclooctaan (of [1,1';3',1"]tercyclooctyl door Beilstein), "tricyclo(5,4,0,0-2_9)-undecaan" voor het correcte "tricyclo [5, 4,0, O2,9] undedaan" (komma's in plaats van punten, 20 aanhalingstekens en onderstreep karakter in de secundaire brugspecificatie in plaats van superscripten en komma).

Een spatie als de harde afbakener is extreem belangrijk in de nomenclatuur. Fragmenten aan beide zijden van dergelijke spatie kunnen geïnterpreteerd worden als twee 25 componenten (disjunct) van slechts dezelfde structuur wanneer bepaald wordt dat de spatie correct gebruikt is. Gewoonlijk is het onmogelijk om een dergelijke uitspraak te doen voor voltooiing van de interpretatie en ordening van het fragment in naamdelen aan beide zijden van een dergelijk 30 spatiekarakter. Om dit probleem te illustreren, is het interessant om op te merken dat voor een enkele structuur (zoals getoond in Figuur 8) geen van de vijf in het testmonster gelokaliseerde namen correct waren.

1 028923 38

Als resultaat van de inspectie van de invoernamen werd opgemerkt dat de invoeging in het algoritme als eerste stap van een intelligente lexografische voorverwerker de kwaliteit van de namen verbetert (duidelijk zonder 5 verandering van hun betekenis) zodanig dat de geschatte succesratio zoveel als 4,5 en 7,8% zou toenemen voor twee willekeurige monsters van ongeveer 6.500 namen elk. Een dergelijke voorverwerker werd geprogrammeerd en geïmplementeerd. Deze bevat samen 10 verschillende routines 10 voor het aanpassen van namen vóór deze te zenden ter ontleding en opsplitsing hetgeen in de volgende stap van het algoritme wordt uitgevoerd. Deze elimineert, reeds in dit vroege stadium van de bewerking, de namen die zeker niet conform de vooraf gedefinieerde standaarden van het 15 Omgekeerde AutoNom programma zijn.

De lexografische voorverwerker bevat tevens een toepassingsgerichte routine die globale variabelen instelt (en corresponderende informatiegegevens verzamelt) bij het optreden van dergelijke karakteristieken van de invoernaam 20 als de aanwezigheid van functionele, maar niet CT-fragmenten zoals esters, amiden of oximen.

Een andere belangrijke routine onderzoekt een invoernaam en verwijdert de expliciete stereoschrijver zoals bijvoorbeeld E/Z, R/S, trans/cis, racera, (+/-), etc. Eén 25 uitvoeringsvorm van de Omgekeerde AutoNom ondersteunt stereochemie alleen onder voorwaarde (conditioneel), dat wil zeggen alleen waarin deze geïmpliceerd wordt door de partiaire namen (gewoonlijk triviaal) van potentiële sterische fragmenten die gelokaliseerd zijn in de complete 30 naam. Een gebruiker kan aldus verwachten sterische structuren te ontvangen van namen fragmenten bevatten zoals bijvoorbeeld fumarisch zuur (E), maleïsch zuur (Z) of nicotine (S), etc.

1 028923 39

Een dergelijke structuur vereist interpretatie van stereochemie teneinde een bepaalde betekenis te bezitten.

De laatste in de lexografische voorverwerking uitgevoerde taak, vervangt gepaarde haakjes, accolades en 5 vierkante haakjes ({,[,(,),],}) met een geünificeerd paar: < voor het openen en > voor het sluiten. Ze worden behandeld door het algoritme als absolute afbakeners en zijn bedoeld om de reeks van naamfragmenten behorend bij een enkel niveau te openen en te sluiten. De bevoorkeurde volgstappen van het 10 algoritme betreffen vervolgens het recursief verwerken van alle geneste niveaus.

Omgekeerde AutoNom implementeert eenvoudige ontleding en splitsing. Het verdeelt namen in herkende fragmenten van maximale lengte, startend met het eerste karakter en gaat 15 sequentieel door. Dit proces wordt gestuurd door een tabel (opgeslagen als een ASCII bestand, of een zogenoemd woordenboek) welke karakterreeksen bevat van chemische termen die geïndexeerd zijn als morfemen. In dit stadium bevat het woordenboek 34.498 termen die zorgvuldig geselecteerd zijn 20 door de nomenclatuurspecialist van MDL. Elke term in het woordenboek wordt gekoppeld met zijn corresponderende korte code (tevens een ASCII reeks) die de functionaliteit daarvan specificeert. De termen en hun code worden geladen in gescheiden tabellen die zijn toegewezen aan het 25 computergeheugen bij de initialisatiecyclus van het

Omgekeerde AutoNom programma. Het algoritme ondervraagt vervolgens (gedurende het splitsen en ontleden) deze tabellen teneinde de invoernaam op te breken in herkenbare fragmenten.

Deze op syntax gerichte ontleding functioneert door 30 het beschouwen van syntactische klassen (locant, schelder, substituent, ring, keten, suffix, post-suffix, aanpasser, etc.) en door de vooraf gedefinieerde hiërarchie van deze klassen. De naameenheden resulterend uit de ontleding worden 1 028923 40 verklaard te behoren bij een bepaalde klasse en elk daarvan ontvangt een "hiërarchie stempel" (naam ouder, prefix voor de ouder, niveau stam, prefix voor het niveau stam, suffix, post-suffix, locant, scheider binnen het ouderniveau, 5 aanpasser binnen het niet-niveau, etc.)· Er zijn geen publicaties die een dergelijke complete hiërarchie beschrijven. Voor het doel van het Omgekeerde AutoNom project is deze hiërarchie empirisch ingesteld waarbij gedeeltelijk gebruik wordt gemaakt van expertise en ervaring uit het 10 verleden (AutoNom project.)

Na deze hiërarchie tot stand te hebben gebracht, breekt de naamsplitsing en ontleding niet alleen een naam op in fragmenten, maar relateert deze onmiddellijk ook aan wat beschreven is als "betekenis". De parallelle tabel van de 15 eerder genoemde codes levert de betekenis. Dit kan een enkel geheel getal zijn (zoals bijvoorbeeld om aan te geven de waarde van de vermenigvuldigingsterm, de lengte van de koolwaterstofketen, of de vermenigvuldigingsfactor voor een ringsamenstel, de factor van onverzadiging), indexwijzer naar 20 een compleet gescheiden verbindingstabel (zoals in het geval van samengegane ringsystemen) of een tekstueel korte mnemoniek welke de type bewerking (voornamelijk geïmplementeerd als een enkele functie in het programma) beschrijft welke uitgevoerd zou moeten worden op het volgende 25 of het voorafgaande fragment (hydrogenatie of aangeduide waterstof, cyclo, onverzadiging, ladingen, etc.).

In de fase van de interpretatie en de ordening van herkende fragmenten, vindt de complete op nomenclatuur gebaseerde interpretatie plaats. De meeste van de door 30 IUPAC/CAS/Beilstein tot stand gebrachte triviale nomenclatuurregels, aanbevelingen en uitzonderingen, die over de jaren zijn ontwikkeld, moeten beschouwd worden (en t 028 923 41 geïmplementeerd worden als routines en functies in het omzettingsprogramma).

Bij voorkeur' worden alle fragmenten geïnterpreteerd als behorende tot een van de volgende nomenclatuur klasse-5 eenheden: - Stam (ouder in het geval van hoogste ”0" niveau; gerelateerd aan verbindingstabel) - CT prefix (gerelateerd aan verbindingstabel) - Functieprefix (gerelateerd aan functie, bijvoorbeeld 10 "aza" als heterocyclische vervanging) - Hydrogenatieprefix (bijvoorbeeld "hydry", aangeduid H beschrijver; gerelateerd aan een voorwaartse functie) - Suffix (gerelateerd aan verbindingstabel) - Post-suffix (bijvoorbeeld ester, amide, oxime, ion, 15 etc.; gerelateerd aan een functie) - Radicaal suffix ("-yl", "-ylideen", "-ylidyne"; gerelateerd aan een achterwaartse functie) - Onverzadiging- en verzadigingsbeschrijver ("-ene", "- ine", "ane-"; gerelateerd aan een achterwaartse 20 functie) - Vermenigvuldiger ("di-", "tri-", "bis-", "tris-", "bi-", "tert-", etc.; gerelateerd aan een functie) - Voorwaartse functie prefix ("cyclo-", "bicyclo[-", "tricyclo[-", "spiro[-", "dispiro[-", etc.; 25 gerelateerd aan een functie) - Informatiecontainer (bijvoorbeeld "4.4.1.11*5" voor secundaire bruggenspecificatie in von Baeyer systemen, of "5.1.7.2" voor dispiro subring groottespecificatie) 30 - Locant (bijvoorbeeld "1,2-", "meta", "N-", "C-", "alpha-", "(1)-") - Stereobeschrijver (bijvoorbeeld "(E)-", "(R)-", "racem", "alpha-D") 1028923 42 — Scheider (aanhalingstekens, komma, punt, puntkomma, haakjes, accolades, vierkante haakjes, etc.)

De aan een verbindingstabel (CT) gerelateerde 5 fragmenten zijn ringen, ketens of functionele groepen. De laatste zijn fragmenten die gerepresenteerd zijn in de resulterende, uiteindelijke structuur als acyclische delen van hetero-atoomrangschikkingen met onverzadigde verbindingen (kunnen tevens enkele heteroatomen zijn zoals bijvoorbeeld 10 chalcogens in alcoholen, thioalcohol, etc.) De skeletdelen die zijn gerelateerd aan de CT fragmenten worden hetzij direct opgehaald vanaf een toepassingsgerichte database die het Omgekeerde AutoNom programma vergezelt, hetzij geconstrueerd "on the fly" door het algoritme zelf. Dit is 15 bijvoorbeeld het geval voor alle von Baeyer gebrugde koolwaterstoffen en heterocycli. Het fragment "3,6,8-trioxabicyclo[3.2.2]niet-7-yl" wordt opgesplitst in: 3,6,8- locant tri vermenigvuldiger 20 oxa voorwaartse functie prefix ("vervanging") bicyclo[ voorwaartse functie prefix ("bicycling") 3.2.2] informatiecontainer (secundaire bruggenspecificatie) niet CT prefix (keten) 25 -7 locant -yl radicaal suffix

Het algoritme lokaliseert het kernfragment "niet" bij voorkeur als de hoofdketen (9 koolstof atomen) en het 30 algoritme werkt vervolgens door gebruik te maken van "backtracking" technieken achterwaarts om de informatie voorafgaand aan de ketenbeschrijver te verzamelen. De informatiecontainer "3.2.2]" direct ter linker zijde alsmede 1028923 43 de voorwaartse functie prefix "bicyclo[" maken het mogelijk om zeker te zijn dat het von Baeyer ringsysteem wordt tegengekomen. Na deze informatie te hebben geïnterpreteerd, genereert het algoritme, (on the fly) de verbindingstabel van 5 het bicyclo[3.2.2]nonaan ringsysteem. Het algoritme gaat door met het backtracken teneinde te stoppen bij de locant "3,6,8”.

Aangezien de "oxa" voorwaartse vervangingsfunctie gelokaliseerd is, wordt deze onmiddellijk gebruikt op de 10 verbindingstabel van bicyclo[3.2.2]nonaan om de koolstoffen op de posities 3,6 en 8 te vervangen door zuurstofatomen. Om de werking van de gegenereerde CT te voltooien wordt de "kijk voorwaarts" routine aangeroepen. De radicale suffix "-yl" wordt geïnterpreteerd en de locant "-7” wordt gevonden. Het 15 atoom op positie "7” van het bicyclo[3.2.2]nonaan krijgt een stempel met het label "bovenste verbinding". Het gehele fragment "3,6,8-trioxabiyclo[3.2.2]niet-7-yl" wordt aldus verwerkt en al zijn sub-onderdelen worden gemarkeerd wanneer ze geïnterpreteerd worden (zoals is getoond in Figuur 9).

20 Na de interpretatie, worden in de volgende stap van het algoritme alle herkende fragmenten gestempeld met een zogenoemde niveau-index volgens het naamniveau waarop zij gelokaliseerd werden: [0,lo...No] voor het ouderniveau [0,1, 1J...MJ voor het hoogste substituentniveau direct verbonden 25 met de ouder, [0,1,2,2X. . ,K2] voor het volgende substituentniveau direct verbonden met het hoogste niet-ouder niveau, enz. Aan het einde van het proces is de gehele invoernaam geheel gerepresenteerd als een boomstructuur van alle gelokaliseerde naamfragmenten en worden hun onderlinge 30 relaties geregistreerd in een zogenoemde naammatrix, een multidimensionele rij indices [0, [lx.. .MJ , [2j...K2] .. . ] . Deze structuur wordt vervolgens geïmplementeerd als een dubbel-gekoppelde lijst wijzers naar dynamisch toegewezen en gede- 1028923 44 alloceerde variant records in een formaat dat is gebaseerd op een geordende binaire boom32. Een dergelijke implementatie maakt de complete projectie van de invoernaam op de uiteindelijke chemische structuur mogelijk wanneer de boom 5 eenmaal geheel doorlopen wordt vanaf de basis van de boom tot zijn bladeren.

Deze twee stappen, het herkennen van fragmenten en hun ordening, vormen de kernbewerkingen van het Omgekeerde AutoNom algoritme. Zij werden geprogrammeerd in ongeveer 10 25.000 regels C++ code verdeeld in 88 verschillende functies.

In een voorkeursfragment naamsamenstellingstrap van de Omgekeerde AutoNom werkwijze, worden aan de herkende en geordende naamfragmenten hun verbindingstabellen toegewezen (genomen uit de vooraf gedefinieerde database of "on the fly" 15 algoritmisch gegenereerd zoals bijvoorbeeld voor koolwaterstofketens) of geïnterpreteerd (zoals voor vermenigvuldigers zoals "penta" of "terfc"). De fragmenten representeren in deze fase van het algoritme complete liganden of kerngroepen. Startend met het hoogste (basis = 20 ouder) knooppunt van de geconstrueerde geordende binaire boom welke de invoernaam (en de onderliggende structuur) representeert en welke de naamboom neerwaarts doorloopt, worden de partiële verbindingstabellen geconsolideerd. Teneinde een constant volgen van het pad en de sequentiële 25 volgorde van de knooppunten die bezocht worden terwijl gereisd wordt vanaf een gegeven knooppunt naar de basis van de boom (ouder CT) te volgen, wordt de Naam Matrix die de knooppuntindices bevat, bereikt. Aangezien de door de Naam Matrix geïndiceerde fragmenten zich in strikt sequentiële 30 volgorde bevinden, is het mogelijk om de opslag en de ophaling van de partiële CT's te programmeren op een "eerste-in-laatste-uit" stapel (stack) gegevensstructuur.

1028923 45

Voor multi-componentnamen (gewoonlijk zouten, pseudo-ionische samenstellingen, soms met grote organische vervangingen) ontvangt elke component zijn eigen afzonderlijke Naam Matrix. Deze wordt vervolgens bereikt 5 gedurende het consolidatieproces en alle bewerkingen worden herhaaldelijk uitgevoerd (op een recursieve wijze) voor alle fragmenten in deze component. Daarna wordt de resulterende complete CT voor het component samengevoegd in de tot dan toe samengestelde CT voor alle eerdere componenten.

10 Het fragmentnaamsamenstelproces wordt bij voorkeur vanaf het allereerste begin ononderbroken gecontroleerd door zogenoemde intelligente "illegaliteit" besturingsroutines. De besturingseenheid (geïmplementeerd als een verzameling van meer dan 30 C++ functies) is verantwoordelijk voor het volgen 15 van het spoor van uiteindelijke fouten, die niet opgelost kunnen worden binnen de frames van de getolereerde dubbelzinnigheid en/of standaard chemieregels. Een kenmerkend voorbeeld van dergelijke fouten is de expliciete collisie met waardeconventies (valence conventions). Voor de hand liggende 20 fouten in namen zoals "tetrachloroazijnzuur" of "fluorocyclopropyne" en minder voor de hand liggende fouten zoals in "1-(3-methyl-butyl)-4-nitro-lH-pyrrol-2-carboxylzuur[2-(1,4,5,6-tetrahydropyrimidin-3-ylideen)-ethyl]-amide" worden verworpen door de 25 illegaliteitsbesturingseenheid (te groot geworden valentie op stikstofatoom van pyrimidin op de radicale suffixpositie van "-3-ylideen").

In de naam "1-(3,7,11-trimethyloctyl)azacycloheptaan-2-on" zal de besturingseenheid de niet bestaande locant "11" 30 verwerpen als positie voor een van de drie methylvervangingen op de octylketen (slechts acht koolstofatomen).

Een ander geval voor de besturingseenheid is de identificatie van foute gegevens die zijn geleverd door de 1028923 46 informatiecontainer fragmenten. De twee componentnaam "6,8-diazoniadispiro[5.1.6.3]hexadecaan dichloride" wordt verworpen nadat de illegaliteit van de informatiecontainer prefix "5.1.6.3" (specificerend de groottes van de terminale 5 ringen en de lengte van de bruggen tussen beide spiro-atomen in de drie koolwaterstofringen in de dispirojunctie) gecontroleerd op toegestane waarden. De berekende waarde van 17 (5+1+6+3+2) is groter dan de lengte van het onderliggende koolwaterstof van onafgetakte keten koolwaterstof (16, 10 bijvoorbeeld hexadecaan) met één hetgeen leidt tot verwerping van een dergelijke naam.

Het proces van de fragmentnaamsamenstelling eindigt bij het samenvoegen van alle componenten CT's (indien meer dan een component aanwezig) in een enkel, uiteindelijk 15 structuurdiagram dat geleverd wordt als uitvoer vanaf het Omgekeerde AutoNom programma. De uitvoer wordt gegenereerd als een MOLbestand formaat verbindingstabel32 (toegestaan standaard formaat voor structuur editors die hedentendage beschikbaar zijn in de wereld) en afgebeeld samen met de 20 invoernaam (zoals is getoond in Figuur 10).

De prestaties van het programma zijn gemeten in verscheidene contexten en met gebruikmaking van testmonsters welke een zeer breed spectrum van nomenclatuurstijlen gebruikt binnen huidige nomenclatuur praktijken 25 representeren.

Aan het begin van het Omgekeerde AutoNom project, werden twee zogenoemde referentiemonsters gecompileerd. Het eerste, welke de naam "hondenvoermonster" (dog food sample/DF-S) gekregen heeft, bevatte een selectie van strikte 30 Autonom namen die willekeurig geëxtraheerd zijn vanaf het Beilstein bestand. De inhoud van het monster van meer dan 1000 namen werd vastgezet en nooit veranderd gedurende het project. Gevraagd werd dat het programma (als omzetting naar 1 028923 47 zijn structuur-naar-naam voorganger AutoNom) als een absoluut minimum om in staat zou zijn om de systematisch met de computer gegenereerde naam geheel om te zetten; de naam "hondenvoer" dus. Een ander referentiemonster van namen, 5 zogenoemd "1312 monster" (1312-S) werd geconstrueerd door gebruik te maken van namen die willekeurig geselecteerd waren uit tijdschriften (niet-AutoNom dubbelzinnige namen, echter met,verwachte redactionele kwaliteit). Deze twee monsters, DF-S en 1312-S werden gebruikt voor testen als referentie 10 (nooit veranderd) bestanden bij elke belangrijke actualisering van het Omgekeerde AutoNom programma tijdens de ontwikkeling ervan. Deze hebben bovendien de observatie en de meting van de voortgang gedurende het programmeren eenvoudiger gemaakt.

15 De meest veelomvattende testen concentreerden zich echter op namen uit het echte leven die waren geëxtraheerd uit het monster van meer dan 8 miljoen gepubliceerde Europese, Amerikaanse en Japanse octrooischriften in de jaren 1980-2000. Hun kwaliteit werd geschat aan het begin van het 20 project (zie Tabel 4) en deze schattingen werden vervolgens vergeleken met de uiteindelijke statistische gegevens resulterende uit het verwerken van het gehele monster van meer dan 8 miljoen namen.

Omgekeerde AutoNom is een succesratio programma en er 25 is nooit verwacht dat het alle namen zou ontzetten die als invoer worden aangeboden. Sommige namen hebben eenvoudigweg geen bijbehorende structuren, zelfs met behulp van de meest uitgebreide algoritmes. Programmering van een nomenclatuuromzetter is mogelijk, maar slechts onder de 30 voorwaarde dat men rekening houdt met de bestaande beperkingen van gepubliceerde nomenclatuur.

t 028923 48

Namen die niet geïnterpreteerd kunnen worden door de Omgekeerde AutoNom, worden gegroepeerd in de volgende algemene klassen: 1. geheel onontleedbare namen: hier is een groep namen, 5 die slechts volgens de mening van hun auteurs behandeld kunnen worden als chemische nomenclatuur. Namen zoals "D(1)(4)-pregnane-derivative", "#2-RE-Rose Bengal", "D(l)(4)-demethylase enzyme", ''D (6) -palmitoyl-acyl-carrier protein composition", of ”1,25-dihydroxynated Vitamin D(3)" hebben 10 een betekenis slecht in de context van de auteur.

2. geheel asystematische namen: hiertoe behoren bijvoorbeeld namen met triviale of op catalogus gebaseerde nomenclatuur alsmede grote groepen handelsnamen. Namen zoals "linopiridine", "sevin", "carbaryl", "fluctin", of "dyrene" 15 verwijzen naar specifieke substanties; de enige denkbare oplossing voor hun interpretatie zou echter zijn via directe karakter op karakter database ophaling. Deze benadering werd in het algemeen niet beschouwd voor de huidige versie van het Omgekeerde AutoNom algoritme.

20 3. namen van natuurlijke producten 4. macromoleculen 5. namen van strikt anorganische structuren: behalve voor tweede (of hogere) componenten (zoals aangeduid in de eerste, organische component) gerepresenteerd als anorganische 25 zouten, pseudo-ionische, etc.

De testen werden uitgevoerd op namen "zoals ze binnenkomen" vanuit de brondocumenten die geëxtraheerd worden vanaf het monster van meer dan 8 miljoen gepubliceerde Europese, Amerikaanse en Japanse octrooischriften vanuit de 30 jaren 1980-2000. Geen eerder redigeerwerk werd uitgevoerd op deze namen. De gehele verzameling namen werd verdeeld in 17 monster tekstbestanden, elk van ongeveer 500.000 namen. De 1028923 49 volgende herinnering (recall) (aantal uitvoer CT's versus aantal invoernamen) werd berekend (Tabel 5):

Tabel 5 5

Prestatie van het Omgekeerde AutoNom programma zoals gemeten voor verscheidene naammonsters.

Monster Aantal Aantal CT's Herinnering Commentaar namen DF-S 912 908 99,56% AutoNom namen 10 1312-S 1312 1247 95,05% . Tijdschrift namen 0001. nam 491200 178822 36,41% Octrooinamen 0002. nam 491227 164061 33,40% Octrooinamen 0003. nam 490436 161288 32,89% Octrooinamen 0004. nam 490356 147880 30,16% Octrooinamen 15 0005.nam 487728 145173 29,77% Octrooinamen 0006. nam 485972 116409 23,95% Octrooinamen 0007. nam 500000 117700 23,54% Octrooinamen 0008. nam 489932 124937 23,50% Octrooinamen 0009. nam 520047 116627 22,43% Octrooinamen 20 0010.nam 490375 89038 18,16% Octrooinamen 0011. nam 490460 70404 14,35% Octrooinamen 0012. nam 492419 47225 9,59% Octrooinamen 0013. nam 493002 44915 9,11% Octrooinamen 0014. nam 543190 32117 5,91% Octrooinamen 25 0015.nam 489233 25144 5,14% Octrooinamen 0016. nam 179334 8011 4,47% Octrooinamen 0017. nam 507076 21272 4,20% Octrooinamen

De resultaten voor de twee eerste referentiemonsters 30 (DF-S en 1312-S) worden hier gerepresenteerd teneinde te 1028923 50 illustreren hoe effectiever het algoritme zou kunnen zijn indien de namen strikt ondubbelzinnig systematisch (DF-S) of tenminste op dubbelzinnige wijze systematisch (1312-S) zouden zijn. De statistieken voor monsters 0001.nam tot en met 5 0017.nam worden gerepresenteerd in Tabel 5 in een oplopende volgorde van de waarde van de berekende herinnering. Het was om duidelijke redenen niet mogelijk om een compleet overzicht van alle namen in het monster te verkrijgen, maar een vluchtig onderzoek bevestigde hun afnemende kwaliteit (meer 10 geheel onontleedbaar of asystematische namen) met een afnemende waarde van de herinnering.

Meer interessant dan de herinnering zelf was de analyse van de correctheid van het algoritme en aldus de betrouwbaarheid. Deze konden slechts handmatig onderzocht 15 worden. Een willekeurig monster van 6182 namen werd aangeboden als invoer tot het Omgekeerde AutoNom programma. Elk van de 1383 resulterende structurele uitvoerdiagrammen (herinnering van 22,37%) werd vervolgens gecontroleerd ten opzichte van het structurele referentiediagram dat bepaald 20 was als zijnde correct. Het aantal incorrecte omgezette namen was 10 hetgeen een foutratio van 0,72% geeft, dat wil zeggen relevant minder dan 1%.

REFERENTIES

25 (1) Garfield, E. Chemco-Linguistics: Computer Translation of Chemical Nomenclature. Nature 1961, 192, 196.

(2) Kirby, G.H.; Rayner, J.D. Computer Translation of IÜPAC Systematic Organic Nomenclature. 1. Introduction and 30 Background to a Grammar-Based Approach. J. Chem. Inf. Comput. Sci. 1989, 29, 101-105.

1 028923 51 (3) Cooke-Fox, D. I.; Kirby, G. H../ Rayner, J. D. From Names to Diagrams - by Computer. Chem. Br.. 1985, 21, 467-471.

(4) International Union of Pure and Applied Chemistry. Nomenclature of Organic Chemistry, Sectie A-F en H, Pergamon, 5 Oxford, U.K., 1979 (5) Smith Jr, Η. A. The Centenial of Systematic Organic Nomenclature. J. Chem. Edu. 1992, 69, 863-865.

(6) International Union of Pure and Applied Chemistry. "Huidige projecten; IUPAC Chemical identifier (IChl), 10 http://www.iupac.org/divisions/VIII/cp8.html, (toegang verschaft in januari 2004) .

(7) Wisniewski, J L. Chemical Nomenclature and Structure Representation: Algorithmic Generation and Conversion. In Handbook of Chemoinformaties: From Data to Knowledge in 4 15 Volumes, Gesteiger, J., Ed. Willey-VCH, Weinheim, 2003, Vol.

1, blz 51-79.

(8) Kirby, G. H.; Polton, D. J. Systematic Chemical Nomenclature in the Computer Age. J. Chem. Inf. Comput. Sci. 1993, 33, 560-563.

20 (9) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D.

Computer Translation of IUPAC Systematic Organic Nomenclature. 2. Development of a Formal Grammar. J. Chem.

Inf. Comput. Sci. 1989, 29, 106-112.

(10) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D.

25 Computer Translation of IUPAC Systematic Organic

Nomenclature. 4. Concise Connection Tables to Structure Diagrams. J. Chem. Inf. Comput. Sci. 1990, 30, 122-127.

(11) Elliot, P. M. Translation of Chemical Nomenclature by Syntax Controlled Techniques. Ohio State University, 1969.

30 (12) Van der Stouw, G. G.; Elliot, P. M.; Isenberg, A. C.

Automated Conversion of Chemical Substances Names to Atom Bond Connection tables. J. Chem. Doe. 1974, 14, 185-193 1 028923 52 (13) Stilwell, R. W. Computer Translation of Systematic Chemical Nomenclature to Structural Formulas - Steroids. J. Chem. Doe. 1973, 13, 107-109.

(14) Cooke-Fox, D. I.; Kirby, G. H..; Lord, M. R.; 5 Rayner, J. D. Computer Translation of IUPAC Systematic

Organic Nomenclature. 5. Steroid Nomenclature. J. Chem. Inf. Comput. Sci. 1990, 30, 128-132.

(15) Carpenter, N. Syntax Directed Translation of Organic Chemical Formulae into Their 2-D Represenataion. Comput.

10 Chem. 1975, 1, 25-28.

(16) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D. Computer Translation of IUPAC Systematic Organic Nomenclature. 3. Syntax Analysis and Semantic Processing. J. Chem. Inf. Comput. Sci. 1989, 29, 112-118.

15 (17) Cooke-Fox, D. I.; Kirby, G. H..; Rayner, J. D.

Computer Translation of IUPAC Systematic Organic Nomenclature. 6. (Semi)Automatic Name Correction. J. Chem. Inf. Comput. Sci. 1991, 31, 153-160.

(18) Lawson, A. Internal communictation, MDL Information 20 Systems GmbH, Frankfurt am Main, Germany, 2003.

(19) CambridgeSoft Corporation* Cambridge, MA. USA, http://products.cambridgesoft.com/ProdInfo.cfm?pid=295, (toegang verschaft in januari 2004).

(20) Brecher, J. Name=Stru: A Practical Approach to the 25 Sorry State of Real-Life Chemical Nomenclature. J. Chem. Inf.

Comput. Sci. 1999, 39, 943-950.

(21) ACD Labs. Products: ACD/Name, http://www.acdlabs.com/products/name_lab/name/, (toegang verschaft in januari 2004).

30 (22) Chemlnnovation Software Ine. CA, USA, http://www.cheminnovation.com/products/nameexpert.asp, (toegang verschaft in januari 2004).

! 1 028923 53 (23) Bio-Rad Laboratories Corporate, Hercules, Ca., USA, http://www.chemwindow.com, (toegang verschaft in january 2004).

(24) Wisniewski, J. L. AUTONOM: System for Computer 5 Translation of Structural Diagrams into IUPAC-Compatible

Names. 1. General Design. J. Chem. Inf. Comput. Sci., 1990, 30, 324-332.

(25) Goebels, L., Lawson, A.J., Wisniewski, J.L.: AUTONOM: System for Computer Translation of Structural 10 Diagrams into IUPAC-Compatible Names. 2. Nomenclature of

Chains and Rings. J. Chem. Inf. Comput. Sci., 1991, 31, 216-225.

(26) Wisniewski, J. L. Autonom- A Chemist's Dream: System for (Micro) Computer Generation of IUPAC-Compatible Names 15 from Structural Input. In Chemical Structures 2, Warr, W.A., Ed. Springer-Verlag, Berlin, Heidelberg, 1993, pp 55-63.

(27) Wisniewski, J. L. AutoNom. In The Beilstein System: Strategies for Effective Searching, Heller, S. R, Ed.

American Chemical Society, Washington, DC, 1997, pp 161-197.

20 (28) Wisniewski, J. L. Nomenclature: Automatic Generation and Conversion. In Encyclopedia of Computational Chemistry, von Rague Schleyer, P.; Allinger, N. L.; Clark, T.;

Gesteiger, J.; Kollman, P.A.; Schaefer III, H. F.; Schreiner, P.R., 25 Eds. John Wiley & Sons Ltd., Chichester, 1998, Vol. 3, pp 188-202.

(29) International Union of Pure and Applied Chemistry. A Guide to IÜPAC Nomenclature of Organic Chemistry, Recommendations 1993; Panico, R., Powell, W. H., Richer, J.

30 C., Eds.; Blackwell Science, Oxford, U.K., 1993;

Recommendations R-2.3.3.1.3; blz. 2591-2601.

1028923 54 (30) The ACS Style Guide: A Manual for Authors and Editors, 2nd ed.; Dodd, J. S., Ed.; American Chemical Society, Washington, DC, 1997, blz. 56-67.

(31) Prefix List: Beilstein Handbook of Organic

5 Chemistry, Springer-Verlag, Heidelberg, 1990, blz. LV-CXXXV

(32) Hubbard, J. R. Data Structures with C++. McGraw-Hill, New York, 2000, blz. 174-182.

(33) Dalby, A., Nourse, J. G., Hounshell, W .D.,Gushurst, A. K. I.,Grier, D. L., Leland, B. A., Laufer, J.: Description 10 of Several Chemical Structure File Formats Used by Computer Programs Developed at Molecular Design Limited. J. Chem. Inf. Comput. Sci., 19921, 32, 244-255.

1028923 55

Bijlage A

Het concept -NAAM behelst verschillende vertegenwoordigers van een samenstelling.

<concept naam="NAAM" display="nooit” autonoom="waar"> 5 (~NamTag)+ (-ClassTag)+ (-LabTag)+ (-SufTag)+ (~BezTag)+ 10 </concept>

Bij voorbeeld het concept -NAAM wordt gebruikt in het concept -TechnischNoemen:

Cconcept naam="-TechnischNoemen" afbeeld="nooit" niveau="l"> ( (-ValTag|-ComplexWaarden) / (\%)? / of )? / (de)? / 15 (:gewenst|ruw|kristallijn)? / (titel)? / (PRODUKT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)?

Zijn / tgeladen / met / (-ComplexWaarden / (\%)? / of)? / ( pure )? / (REACTANT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? 20 zijn / :behandeld / met / (-ComplexWaarden / (\%)? / of)? / ( puur )? / {REACTANT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? </concept> ... welke deel uitmaakt van het concept -SamenstellingNoemen: 25 cconcept naam="~SamenstellingNoemen" afbeeld="wanneerverwezen" niveau="l"> -TechnischNoemen -GeneriekNoemen -AnaforischNoemen 30 (-AnaforischNoemen|-TechnischNoemen) / (-Afbakener / (-AnaforischNoemen|-TechnischNoemen))* / (-Afbakener)? / (of|en) / (AnaforischNoemen|-TechnischNoemen) </concept>

Het concept -YieldAct detecteert het werkwoord opbrengen in 35 de actieve vorm: 1 028923 56

Cconcept naam="~YieldAct" zoekOp="vorin" afbeeld="nooit" autonoom="waar"> het / opbrengen opbrengen 5 opgebracht opbrengend opbrengsten </concept>

Cconcept naam="~CProduktAct" niveau="l" afbeeld="altijd"> ~ActProduktWerkwoordRechts / (WILLEKEURIGE|~Interfrase|~WelkeReactantVanProduktInvis)* / ~SamenstellingNoemen 25 ~SamenstellingNoemen / ~ActProduktWerkwoordLinks </concept> 1 028923 57 PRODUKT_Contexts.scp <?xml versie = '1.0'?> 5 <!— sc versie = 'VI.20.0009' datum = '2003-12-17' —> <!— <auteursrecht>(c) auteursrecht 2001, MDL</auteursrecht --> 10 <component> <!__***************************************__> <!— naamwoorden die potentieel gevolgd worden door een a 15 produkt —> <concept naam="~ProduktNaamwoord" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> <!— SR, 2003-05-23: ingevoegd —> (#AT)? / (successvol|#JJ)* / 20 (verzameling|vorming|opwekking|precipitatie|preparatie|produk tie|resultaat#NN|opbrengst#NN) / (\:|van|vanaf)? conversie / naar </concept> 25 <!— werkwoorden die voorkoem in contexten met een | -ProduktieNaamwoord --> | <concept naam="~WerkwoordInNominalisatieContext" | zoekOp="vorm" afbeeld="nooit" autonoom="waar"> geobserveerd 30 begint start </concept> i 35 <i— ***************************************__> 1028923 58 cconcept naam="~VeroorloofAct" afbeeld="nooit" autonoom="waar" zoekOp="vorm"> het / veroorloven veroorloofd 5 veroorlovend veroorloven veroorlooft </concept> 10 <concept naam="-VeroorloofPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / veroorloven </concept> 15 cconcept naam="~VeroorloofDeelwoord" afbeeld=”nooit" autonoom="waar"> veroorloofd </concept> 20 < !— ***********************·****************__> <!— SR, 2003-11-14 —>

Cconcept naam="~Comprising" afbeeld="nooit" autonoom="waar" zoekOp="vor]n"> comprising 25 c/concept>

Cconcept naam="~ZetomIntoAct" afbeeld="nooit" autonoom="waar"> omzetten / (#NN|#RB)? / (inInaar) 30 C/concept> <!— x werd omgezet vanaf y —> cconcept naam="~ZetomFromPass" afbeeld="nooit" autonoom="waar"> 35 (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / omzetten / vanaf c/concept> 1028923 59 <!— y werd omgezet in x --> <concept naam="~ZetomIntoPass" afbeeld="nooit" autonoom="waar"> 5 (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / omzetten / (#NN|#RB)? / (in|naar)? </concept> <concept naam="~ZetomFromDeelwoord" afbeeld="nooit" 10 autonoom="waar" zoekOp="vorm"> omgezet / (vanaf)? </concept> <!-- SR, 2003-05-13: nieuw werkwoord —> 15 Cconcept naam="~CrystalliseerPass" afbeeld=,,nooit" autonoom="waar" zoekOp="vorm"> gekristalliseerd|geherkristalliseerd </concept> 20 <!__ *************************************** __> <concept naam="~ExtraheerAct" afbeeld="nooit" autonoom=,,waar" zoekOp=”vorm,,> to / extract 25 extraherenend </concept> <concept naam="~ExtraheerPass" afbeeld=”nooit" autonoom="waar"> 30 (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / extraeer / (vanaf)? </concept> <concept naam=,,~ExtraheerDeelwoord" afbeeld="nooit" 35 autonoom="waar" zoekOp="vorm"> geëxtraheerd / (vanaf)? </concept> 1028923 60 < J __ * * * * * ★ ★ Ά· * * * * * * * * * -A* * * * * * * St * * * * * * * *· * * Ά* * * * — — > <concept naam="~ToFormAct" zoekOp="vorm" afbeeld="nooit" 5 autonoom="waar"> het / vormen vormende </concept> 10 <concept naam="~VormAct" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> gevormd

vormt#VBZ

</concept> 15 <concept naam="~VormPass" afbeeld=,,nooit,, autonoom="waar”> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / vormen </concept> 20 <concept naam="~FormDeelwoord" zoekOp=”vorm" afbeeld="nooit" autonoom="waar"> gevormd </concept> 25 <i__***********-*·***************************__> <concept naam="~GiveAct" zoekOp="vorm" afbeeld=”nooit" autonoom="waar"> geven 30 gaven

gaven / IN

gaven / direct het / geven gevend 35 geeft 1028923 61 </concept> <!— Er is geen ~GeéfPass en geen ~GegevenDeelwoord aangezien het woord "gegeven" meestal gebruikt wordt om de tekst te 5 structureren en niet om een produkt te markeren —> < I — — k'k'k *********** * ·*·**★**·* * * * 'k * •kie-k-k ★ > <concept naam="~IsoleerAct" afbeeld="nooit" autonoom="waar" 10 zoekOp="vorm"> het / isoleren isolerend geïsoleerd </concept> 15 <concept naam="~IsoleerPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / isoleer / (vanaf? </concept> 20

Cconcept naam="~IsoleerDeelwoord" afbeeld="nooit" a u t onoom="waar" zoe kOp="vorm"> geïsoleerd / (vanaf)? </concept> 25 < I__'k-k'k-k'k'k’k-k'k-k'k'k'k'k'k'k-k-k'k-k'k-k'k'k'kic'k-k’kir'kir'k'k'k'k'je-k'k cconcept naam="~LeaveAct" afbeeld="nooit" autonoom="waar" zoekOp="vorm"> 30 het / achterlaten achterlatend laat achter </concept> 35 <!-- Er is geen ~LaatachterPass en geen ~LaatachterDeelwoord aangezien het woord "links" niet in het lichaam (corpus) gebruikt is. —> 1 028923 62 <ι__ *************************************** __> <!— SR, 2003-03-13: optionele komma ingevoegd —> 5 cconcept naam="~VerkrijgPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD|#CM)? / zijn / (#RB|#OD|#WPO)? / verkrijgen </concept> 10 cconcept naam="~VerkrijgAct" afbeeld="nooit" autonoom="waar"> het / verkrijgen verkrijgend verkrijgt </concept> 15

Cconcept naam="~VerkrijgDeelwoord" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> verkregen c/concept> 20 C!— SR, 2003-03-13/7: specifieke vormen—> c!— SR, 2003-05-20: ... meer ... —>

Cconcept naam="~VerkrijgDeelwoordVoorbeeld" afbeeld="nooit" autonoom="waar,,> 25 C!— SR, 2003-11-10: "above" more general —> -VerkrijgDeelwoord / (als)? / (in|door|(boven / onder)) / (de|deze)? / (boven)? / (Voorbeeld|Trap|Step|wijze|~IgnLabTag) / (~LabTag)? -VerkrijgDeelwoord / als / :beschreven / (( in / 30 Voorbeeld / (-LabTag)? )|( boven )) c!— SR, 2003-06-02 —> -VerkrijgDeelwoord / boven c!— SR, 2003-08-27: "vanaf de eerdere reactie" —> -VerkrijgDeelwoord / vanaf / ( -WelkeBedrijven | ( de / 35 eerdere / reactie ) ) c/concept> 1 028923 63 cconcept naam="~VerkrijgFrom" afbeeld="nooit" autonoom="waar"> (zo)? / (-VerkrijgPass|~VerkrijgDeelwoord) / (vanaf I in 5 | #VBG | zijn) </concept> __ SR, 2003-03—11 ************************ > <concept naam=,,~RemainAct" zoekOp="vorm" afbeeld="nooit" 10 autonoom="waar"> blijf <!— SR, 2003-05-13: die, dat —> (datldie)? / blijft </concept> 15 <| *************************************** > <concept naam="~HaalterugAct" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> 20 terughalen het / terughalen teruggehaald haalt terug </concept> 25

Cconcept naam="~HaalterugPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / terughalen </concept> 30

Cconcept naam="~HaalterugDeelwoord” zoekOp=,,vorm', afbeeld="nooit" autonoom="waar"> teruggehaald c/concept> --★★★**** **★*★*★***★* ·*·*** * ·********·*·**★*·* * — — > 35 1028923 64 <concept naam="~PrecipiteerAct" zoekOp="vorm” afbeeld="nooit" autonoom="waar"> het / precipiteren 5 precipiteer#VB / (uit)? precipiterend <!— SR, 2003-12-17 —> <!— precipiteert —> <!— geprecipiteerd —> 10 ( toevoeging / van / -NamTag )? / precipiteert ( toevoeging / van / ~NamTag )? / geprecipiteerd </concept> <concept naam="~PrecipiteerDeelwoord" afbeeld="nooit" 15 autonoom=”waar" zoekOp="vorm"> geprecipiteerd </concept> <concept naam="~PrecipiteerPass" afbeeld="nooit" 20 autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#0D|#WPO)? / precipiteer#VBN :precipiteer#VBN :precipiteer#VB :precipiteren#VBD 25 </concept> <!— SR, 2003-11-07 —> cconcept naam="~PrecipiteerActVerberg" afbeeld="nooit" autonoom="waar" zoekOp="vorm"> 30 geprecipiteerd / in </concept> <i— *****************************·*·**·*****·** — 35 Cconcept naam="~PrepareerAct" afbeeld="nooit" autonoom="waar"> 1028923 65 het / prepareren het / zijn / prepareren preparerend prepareert 5 </concept> <concept naam="~PrepareerDeelwoord" afbeeld="nooit" autonoom="waar" zoekOp=,,vorm"> <!— SR, 2003-05-13: by; so —> 10 (zo)? / geprepareerd / (daarvan|van|door)? </concept> <!— SR, 2003-05-13: specifiek —> <concept naam="~PrepareerPassReactant" afbeeld="nooit" 15 autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / :geprepareerd / door </concept> 20 Cconcept naam="~PrepareerPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / prepareren / (van)? </concept> 25 <!— SR, 2003-03-21 —> <concept naam="~PrepareerDeelwoordVoorbeeld" afbeeld="altijd" autonoom="waar"> <!— SR, 2003-05-20 —> 30 <!— -PrepareerDeelwoord / ( ( als / :beschreven ) | ( in / trap ) ) —> <!— SR, 2003-06-02: "dezelfde wijze" —> -PrepareerDeelwoord / (als)? / (in|door|(boven / onder)) / (deldeze)? / 35 (Voorbeeld|Stadium|Stap|wij ze|~IgnLabTag| (dezelfde/wijze)) / (~LabTag)? ~PrepareerDeelwoord / als / :beschreven / (( in / (voorbeeld|trap|~WelkeOctrooiBureaus) )|( boven )) 1028923 66 <!— SR, 2003-08-27: "uit de eerdere reactie" —> ~PrepareerDeelwoord / ( de / eerdere / reactie ) <!-- SR, 2003-06-02: specifieke ... —> {REACTANT: -NAAM} / -PrepareerDeelwoord / :toevoegend / 5 {REACTANT: -NAAM} zijn / :toegevoegd / {REACTANT: -NAAM} / (oplossing)? / (in / (OPLOSMIDDEL: -NAAM})? / -PrepareerDeelwoord zijn / :opgelost / in / #AT / oplossing / van / {REACTANT: -NAAM} / (in / {OPLOSMIDDEL: -NAAM})? / 10 -PrepareerDeelwoord </concept> < | __ 'k'k'Je'k'k'k'k'k-k'k'k-kic'k'k'k'k-k-k’k-kic'k'k'k'k'k'k'k'k'k'k'k'k'k'k'k'kic ^ cconcept naam="~ProduceerAct" afbeeld="nooit" autonoom="waar" 15 zoekOp="vorm"> het / produceren producerend produceert </concept> 20 <concept naam="~ProduceerPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / produceert </concept> 25 <concept naam="~ProduceerDeelwoord" afbeeld="nooit" autonoom="waar" zoekOp="vorm"> geproduceerd </concept> 30 <!— SR, 2003-03-21 —> <concept naam="~ProduceerDeelwoordVoorbeeld" afbeeld="altijd" autonoom="waar"> -ProduceerDeelwoord / :in overeenstemming / met / 35 voorbeeld -PrepareerDeelwoord / :in overeenstemming / met <!— SR, 2003-11-18: specifiek —> 1 028923 67 met / (REACTANT: -NAAM} / in / {OPLOSMIDDEL: -NAAM} / -ProduceerDeelwoord </concept> ^ I__'kielc-k-k-k-k'k'k'k'k'k'k'k'k’k'k'k'k'jc’k-k'k-k-k'kieic'kie'k'kic'k'k'kic'k'k __ 5 <concept naam="~VerschafAct" afbeeld="nooit" autonoom="waar" zoe kOp="vorm"> om te / verschaffen verschaft 10 verschaffend verschaft verschaffen </concept> 15 <concept naam="-VerschafPass" afbeeld="nooit" autonoom="waar"> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / verschaffen / (van)? </concept> 20 cconcept naam="~VerschafDeelwoord" afbeeld="nooit" autonoom="waar" zoekOp="vorm"> vreschaft </concept> 25 <1 * * ·** * * ·* 'k ******* * * * ****** -k -k -k ******* * <concept naam="~ResultInAct" afbeeld="nooit" autonoom="waar" zoe kOp="vorm"> 30 resulterend / (in)? result / in resulteert / in geresulteerd / in </concept> 35 1028923 68 <!— Een passieve context voor het werkwoord resultaat is niet noodzakelijk. —> <!— SR, 2003-05-13: nieuw —> 5 <concept naam="~ScheidPass" afbeeld="nooit" autonoom="waar"> geworden / :gescheiden / door </concept> <!— SR, 2003-05-28: verberg substitutie —> 10 <concept naam="~SubstitueerAct" afbeeld="altijd" autonoom="waar"> (maar|behalve) / :substituerend / {REACTANT: -NAAM) / voor / {HELPER: (-NamTagAlle)} </concept> 15 <concept naam="~SynthetiseerPass" afbeeld="nooit" autonoom="waar"> <!— SR, 2003-05-20: "s" —> (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / 20 (synthetiseer|:gesynthetiseerd) </concept>

Cconcept naam=,,~SynthetiseerVan” afbeeld="nooit" autonoom="waar"> 25 ~SynthetiseerPass / van </concept> <|__ *************************************** __> <!— SR, 2003-03-11: sluit term (nomen) uit —>

Cconcept naam="~YieldActExclude" zoekOp=,,vorm" 30 afbeeld="nooit" autonoom="waar"> <!— SR, 2003-05-14: "from" —> -ValTag / (opbrengst)? / ( ( gabaseerd / op )|van ) / (:teruggehaald)? </concept>

Cconcept naam="~YieldAct" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> 35 1 028923 69 het / opbrengen opbrengen opgebracht opbrengend 5 <!— SR, 2003-12-03 —> opbrengsten / ( (#CM)? / respectievelijk / (#CM)? )? </concept> <concept naam="~YieldPass" afbeeld="nooit" autonoom="waar"> 10 (hebben|#MD)? / zijn / (#RB|#OD|#WPO)? / opbrengst </concept> <concept naam="~YieldDeelwoord" afbeeld="nooit" autonoom="waar" zoekOp="vorm"> 15 opgebracht </concept> </component> 1028923 70 PRODUKT_SamenstellingNoemen.spc <?xml versie = '1.0'?> <!— sc versie = 'VI.20.0009' datum = '2003-12-17' —> 5 <!— auteursrecht> (c) auteursrecht 2001, MDL</auteursrecht — > <component> 10 <!-- specificeert potentiële eerdere uitdrukkingen —>

Cconcept naam="~AnaforischTerm" afbeeld="nooit" autonoom="waar" niveau="l"> <!— AH, 2002-10-31: EX —> (ex | Ex | EX) / (\.I\-|\))* 15 voorbeeld <!— AH, 2002-10-31: Voorbeeld —>

Voorbeeld formule werkwij ze 20 trap stap </concept>

Cconcept naam="~AnaforischNoemen" afbeeld="nooit" niveau="l"> 25 <!— Als het wenselijk is om alleen een anaforische term te extraheren moet het concept van -AnaforischeTerm hier toegevoegd worden.—> -WELKEProdAlsAnaforisch <!— EX: de titel namtag —> 30 {ANAFORISCH_PRODUKT: (titel|getiteld) / -NAAM) <!— EX: het namtag produkt —> <!— SR, 2003-03-19 —> {PRODUKT: ~NAAM) / -WELKEProdAlsAnaforisch <!— EX: the namtag labtag —> 35 -NAAM / {ANAFORISCH_PRODUKT: -LabTag } <!— EX: het titel produkt of voorbeeld labtag —> <!— EX: the samenstellingen van voorbeeld labtag naar voorbeeld labtag—> ( -WELKEProdAlsPotKind|-AnaforischTerm ) / (of|(\())? / 40 (-AnaforischTerm)? / {ANAFORISCH_PRODUKT: -LabTag) / ((#CM)? / {ANAFORISCH_PRODUKT: -LabTag})* / (\))? / ( (naar|van) / (-WELKEProdAlsPotSoort|-AnaforischeTerm) / {ANAFORISCH_PRODUKT: -LabTag})? / ((#CM|en)? / {ANAFORISCH_PRODUKT: -LabTag})* 45 <!— EX: masstag van de witte vaste stof —> -ComplexWaarden / of / -WELKEProdAlsAnaforisch </concept> 1028923 71  5 <concept naam="~Interfrase" niveau="l" afbeeld="nooit"> -Afbakener / (#CS|#IN) / (WILLEKEURIGE|-NAAM)* / -Afbakener -Afbakener / (Ahaving / a)? / (m\.p\.|mp) / (of)? / -ValTag / -Afbakener 10 \( / (#CS|#IN) / (WILLEKEURIGE|-NAAM)* / \) \( / (Ahebbende / a)? / (m\.p\.|mp) / (of)? / -ValTag / \) </concept> 15 <concept naam="~TechnischNoemen" afbeeld="nooit" niveau="l"> <!— SR, 2003-04-30: gewenst ... —> <!— SR, 2003-05-06: ( in / totaal )? toegevoegd —> <!— ( in / totaal )? / (-ComplexWaarden / (\%)? / of)? / (:gewenst)? / (PRODUKT: (-NAAM)} / (of)? / (#JJ)* / 20 (-ComplexWaarden)? —> <!— SR, 2003-05-23: -ValTag ... —> <!— SR, 2003-05-28: kristallijn ... —> <! — SR, 2003-06-03: titel —> ( (-ValTag|-ComplexWaarden) / (\%) ? / of )? / (de)? / 25 (:gewenst|ruw|kristallijn)? / (titel)? / {PRODUKT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? <!-- SR, 2003-03-21: maar ... —> <!-- SR,. 2003-05-06: behandeld ... —> zijn / :geladen / met / (-ComplexWaarden / (\%)? / of)? / 30 ( puur )? / {REACTANT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? zijn / :behandeld / met / (-ComplexWaarden / (\%)? / of)? / ( puur )? / {REACTANT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? 35 </concept> <concept naam="~GeneriekNoemen" afbeeld="nooit" niveau="l,,> -AnaforischNoemen / WILLEKEURIGE / -ComplexWaarden -ComplexWaarden / WILLEKEURIGE / -AnaforischNoemen 40 <!— EX: precipiteer van namtag —> {SOORT_PRODUKT: -WELKProdAlsPotSoort} / of / (#AT|#DT) / -TechnischNoemen -TechnischNoemen / als / {SOORT_PRODUKT: -WELKEProdAlsPotSoort} 45 <!-- namtag (labtag) —> {PRODUKT: -NAAM} / \( / -LabTag / \) </concept> <!— SR, 2003-03-21: nooit -> wanneerverwezen —> 1 028923 72

Cconcept naam="~SamenstellingNoemen" afbeeld="wanneerverwezen" niveau="l"> ~TechnischNoemen -GeneriekNoemen 5 -AnaforischNoemen <!— namtag, namtag en namtag —> <!— SR, 2003-06-03: fout met -Afbakener gecorrigeerd —> (-AnaforischNoemen|-TechnischNoemen) / (~Afbakener / (-AnaforischNoemen|-TechnischNoemen))* / (-Afbakener)? / 10 (of|en) / (AnaforischNoemen|-TechnischNoemen) <!— SR, 2003-12-03 —> ( numtag )? / ( \. )? / {PRODUKT: -NAAM} / ( -RefTag )? / ( (-Afbakener)? / ( numtag )? / ( \. )? / {PRODUKT: -NAAM} / ( -RefTag )? )+ 15 </concept> </component> PRODUKT_Constituent.scp 20 <?xml versie = '1.0'?> <!— sc versie = 'VI.20.0009' datum = '2003-12-17' —> <!— auteursrecht>(c) auteursrecht 2001, MDL</auteursrecht — > 25 <component> <!— utiliteit chemische concepten —> <concept naam="~LabTag" afbeeld="nooit"> labtag 30 </concept> <!— SR, 2003-05-19 —> <concept naam=,,~BezTag" afbeeld="nooit”> beztag 35 </concept> <!— SR, 2003-05-06 —> cconcept naam="~IgnLabTag" afbeeld="nooit"> ignlabtag 40 </concept> 1 028923 73 <concept naam="~NamTag" afbeeld="nooit"> namtag </concept> 5 <!— SR, 2003-05-19 —> <concept naam="~ClassTag" afbeeld="nooit"> classtag </concept> 10 <!— SR, 2003-05-19 —> <concept naam="~SufTag" afbeeld="nooit"> suftag </concept> 15 <!— SR, 2003-05-13 —> <concept naam="~NamTagAll" afbeeld="nooit"> namtag ignnamtag 20 labtag <!— ignlabtag —> </concept> <!— SR, 2003-12-03 —> 25 Cconcept naam="~RefTag" afbeeld="altijd" autonoom="waar"> ( \( )? / reftag / ( \) )? </concept> <! — SR, 2003-05-14 —> 30 <!— <concept naam="~PropTag" afbeeld="nooit"> —> <!— (proptag)+ —> <!— n / D / numtag / (\.)? / numtag / numtag —> <!— m\.p\, / (#CM)? / proptag —> <!— </concept> —> 1028923 74 <!— SR, 2003-05-13 —> <concept naam="~MeassurementSamenstellings" zoekOp="vorm” afbeeld=”altijd" autonoom="waar"> 5 {HELPER: (~NamTagAll)} / activity / of ( in tonder ) / #AT / atmosfeer / of / ({HELPER: (-NamTagAll)})? ( in tonder ) / #AT / ({HELPER: (-NamTagAll)})? / atmosfeer 10 ( geadsorbeerd|geabsorbeerd ) / ( in|op|op ) / ( valtag / van )? / ({HELPER: (-NamTagAll)}) <!— SR, 2003-08-27 --> {HELPER: (-NamTagAll)} / ( buis | kolom ) <!— SR, 2003-08-27 --> 15 ( bevattende | met ) / een / spoor / van / {HELPER: (~NamTagAll)} <!— SR, 2003-11-06, 2003-12-03 —> ( verzuurd | geëxtraheerd ) / ( door | met ) / {HELPER: (~NamTagAll)} 20 <!— SR, 2003-11-19 — > #AT / lucht / in / #AT / systeem <!— SR, 2003-12-03 —> in / #AT / kleine / hoeveelheid / van / {HELPER: (~NamTagAll)} 25 <!— SR, 2003-12-12 —> #AT / resulterend / licht-gevoelig / samenstelling in / plaats / van / {HELPER: (~NamTagAll)} </concept> 30 <!— SR, 2003-05-15: — > <concept naam="~AlternativeSamenstellings" zoekOp="vorm" afbeeld="altijd" autonoom="waar"> maar / :gebruikend / {REACTANT: (~NamTag)} </concept> 35 <!— SR, 2003-03-11: Additionele fragmenten om te omvatten onnodige samenstellingen —> 1 028923 75 <!— SR, 2003-03-21: gekristalliseerd ... —> <!— SR, 2003-04-30: gepartitioneerd .... —> <concept naam="~HelperSamenstellingen" afbeeld="altijd" autonoom="waar"> 5 <!— SR, 2003-05-06: tijden... —> <!— (:gekristalliseerd|:reherkristalliseerd) / ?? (-WelkeVermenigvuldigers)? / from / {HELPER: (-NamTagAll)} / ( \/ / {HELPER: (-NamTagAll)} )? —> 10 <!— SR, 2003-05-14, 20, 28 —> (:gekristalliseerd|:geherkristalliseerd|recrystallization I:eluding|(elution / :gebruikend)) / (-WelkeVermenigvuldigers)? / (from|met)? / ( een / mengsel / van )? / {HELPER: (-NamTagAll)} / { ( \/|en ) / {HELPER: 15 (-NamTagAll)} )? tussen / ( ( -WelkeModificatoren )? / (valtag)? / {HELPER: (-NamTagAll)} / ( \( / valtag / \) )? ) / ( ( #CM )? / ( en )? / ( -WelkeModificatoren )? / (valtag)? / {HELPER: (-NamTagAll)} / ( \( / valtag / \) )? )* 20 :opgelsot / in / (valtag)? / (of)? / {OPLOSMIDDEL: (-NamTagAll)} (:aangelengd | :gewassen | :gedroogd) / (-WelkeVermenigvuldigers)? / (met lover) / {HELPER: (-NamTagAll)} 25 <!— SR, 2003-05-06 —> {HELPER: (-NamTagAll)} / ( :vegen | :spoelen ) onder / ( #AT / (zacht)? / stroom / van )? / {HELPER: -NamTagAll} <!— SR, 2003-05-14 —> 30 {HELPER: (-NamTagAll)} / (contaminant)? / die / zijn / :gevormd <!— SR, 2003-06-03, 04 —> (:gekoeld|:verwarmd)/ (at / ignvaltag )? / (in|met)? / #AT / (#JJ)? / -NamTagAll / ( \- / -NamTagAll )? / bad 35 <!— SR, 2003-12-12 —> on / #AT / -NamTagAll / plaat </concept> <!— SR, 2003-05-23: autonoom="waar" —> 1028923 76 <concept naam="~ValTag" afbeeld="nooit" autonoom="waar"> (valtag)+ ignvaltag <!— SR, 2003-05-23: kan hier niet werken! —> 5 <!— opbrengst / (\:|\=|of) / valtag —> valtag / opbrengst V / \- / numtag (valtag|ignvaltag) / x / numtag numtag / \— / (valtag|ignvaltag) 10 \: / (valtag|ignvaltag) numtag / (\:|x) / (valtag|ignvaltag) purity / (of)? / (valtag|ignvaltag) (valtag|ignvaltag) / puriteit <!— ... Idee ... \( / namtag / #CM / valtag / \) —> 15 <!— SR, 2003-06-04 —> :corresponderend / met / valtag </concept> cconcept naam="~ComplexWaarden" afbeeld="altijd" 20 autonoom="waar"> <!— SR, 2003-05-08: "numtag" toegevoegd —> \(? / ( (minder|meer|groter|hoger|lager) / dan )? / ( numtag / #CM )? / -ValTag / ((\,|\;|en|of|x|X|\/) / ~ValTag)* / \)? 25 <!— SR, 2003-05-13: —> \( / -ValTag / (#CM / -ValTag)? / in / {OPLOSMIDDEL: -NamTagAll} / \) <!— SR, 2003-05-15: —> \( / -ValTag / #CM / (referentie / voorbeeld)? / 30 (-LabTaglnumtag) / ( \( / (-LabTag|numtag) / \) )? / \) \( / (#RB)? / ~ValTag / of / #AT / -ValTag / oplossing / in / {OPLOSMIDDEL: -NamTagAll) / \) <!— SR, 2003-05-19: —> \( / -ValTag / in / {OPLOSMIDDEL: namtag|numtag} / ( \, / 35 -ValTag)+ / \) <!— AH, 2002-10-31: ~ toegevoegd. —> 1 028923 77 <!— SR, 2003-05-20: ANAFORISCH_REACTANT ... —> <!— SR, 2003-11-06: "ongeveer" toegevoegd —> -ValTag / \( / (ongeveer)? / -ValTag / ( ( \,|\;|en lof|x|X|\/ ) / -ValTag )* / \) / ( of / #AT / 5 {ANAFORISCH_REACTANT: (samenstelling|produkt)})? <!— de aanname is dat de namtags tussen haakjes in uitdrukkingen zoals een mengsel van gedestilleerd namtag ( valtag namtag / valtag namtag / valtag namtag ) geen reactanten van produkten zijn —> 10 \( / -ValTag / namtag / (\/ / -ValTag / namtag)* / \) </concept> <concept naam="~NAAM" afbeeld="nooit" autonoom="waar">  <!— Labtag nu gerepresenteerd door -AntecedentExpressie —> <!— (~NamTag)+ / (-LabTag|-IgnLabTag)? —> 25 </concept>

Cconcept naam="~Katalysator" afbeeld="altijd" autonoom="waar">  1028923 78 (:gekatalyseerdI:katalyseerde) / door / ( spoort / van )? / {KATALYSATOR: -NAAM} / { en / {KATALYSATOR: -NAAM} )? in / #AT / aanwezigheid / van / {KATALYSATOR: -NAAM} </concept> 5 </component> 1 028923 79 PRODUKT_GramxnaticalConstituent. scp <?xml versie = '1.0'?> 5 <!— sc versie = 'VI.20.0009' datum = '2003-12-17' —> <!— auteursrecht>(c) auteursrecht 2001, MDL</auteursrecht --> 10 <!— Dit bestand is nu zeer kort aangezien alle Barrier concepten weggehaald zijn. —> <component> 15 ; utiliteit grammaticale concepten cconcept naam="~Afbakener" afbeeld="nooit" autonoom="waar"> #CM \: </concept> 20 </component> 25 30 35 1 028923 80 1 028 923 81 PRODUKT_REACTANT_Welke.scp <?xinl versie = '1.0'?> 5 <! — sc versie = 'VI.20.0009' datum = '2003-12-17' —> <!— auteursrecht>(c) auteursrecht 2001, MDL</auteursrecht — > <component> 10 <!— SR, 2003-05-06: Definitie van pure apparatuur (interfereert met contexten). —> <concept naam="~WelkeApparatuur" zoekOp="vorm" afbeeld="altijd" autonoom="waar"> 15 in / #AT / ( numtag / ( \- )? / ml )? / (reactie)? / flacon </concept> <!— SR, 2003-05-06: Definitie avn pure apparatuur 20 (interfereert met contexten). —>

Cconcept naam="~WelkeBedrijven” zoekOp="vorm" afbeeld="nooit" autonoom="waar">

Aldrich

Strem / Chemicals 25 </concept> <! — SR, 2003-06-03 --> <concept naam="~WelkeOctrooiBureaus" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> 30 U\.S\. / Pat </concept> <!— SR, 2003-05-08: Definitie van modificaties van samenstellingen. —> 35 <concept naam="~WelkeModifier" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> :verzadigd 1028923 82 :waterachtig :wtach\.

</concept> 5 <!— SR, 2003-05-15: —> <concept naam="~WelkeVermenigvuldigers" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> (eenmaal|tweemaal|( (verscheiden keren|numtag) / :keren)) </concept> 10 <concept naam="~WelkeModificatoren" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> ( -WelkeModificator) / ( -WelkeModificator )? </concept> 15 <!— SR, 2003-05-20 —> <concept naam="~WelkeReferenties" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> ( referentie )? / voorbeeld / labtag 20 </concept> cconcept naam="~WelkProdukt" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> <!— SR, 2003-02-28: slechts op vorm, singulair —> 25 <!— onnodig, kristallen alleen als meervoud —> een / slurry / van <!—toegevoegd zuur vanwege resultaten van SR—> zuur agent 30 staaf blok steen component <!—toegevoegd concentraat—> 35 concentraat 1028923 83 kristallen kubus diastereoisomer diastereomer 5 <!—toegevoegde emulsie—> emulsie enantiomeer epimeer extract 10 vezel film schilfer schuim fractie / (a|beta)? 15 gas <!—toegevoegd gel—> gel glas gum 20 isomeer blad vloeistof massa  pasta 35 fase 1028923 84 plaat plaatje polymeer <!—toegevoegd aangezien gevonden in corpus—> 5 copolymeer poeder <!—toegevoegd aangezien gevonden in corpus—> precipiteer#NN coprecipiteer#NN 10 preparatie prisma staaf <!—toegevoegd zout vanwege resultaten van SR—> zout 15 half-vaste stof reekds <!— SR, 2003-08-29 —> siroop plak 20 structuur </concept> <concept naam="~WelkeReactant" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> 25 <!-oplossing : SR, 2003-02-28: verwijderd —> suspensie </concept> <!— SR, 2003-03-19: oplossing nodig voor andere resolutie — 30 > <concept naam=,,~WelkeReactantInvis" zoekOp='’vorm" afbeeld="nooit" autonoom="waar"> oplossing </concept> 35 1028923 85 cconcept naam="~WelkeReactantOfProdukt" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> <!— residu : SR, 2003-02-28: verwijderd —> <!— SR, 2003-03-21: titel toegevoegd —> 5 ( eind | titel )? / samenstelling filtraat <!— SR, 2003-02-28: voorafgaand, uiteindelijk —> <!— SR, 2003-08-27: titel -->  10 <!— SR, 2003-11-19: gewenst —> (eind|reactie|doel|hoofd|voorafgaande|uiteindelij ke|titel I verkregen|gewenst)? / produkt <!— mengsel : SR, 2003-02-28: verwijderd —> <!— toegevoegde afgeleide —> 15 afgeleide | derivaat vaste stof substantie substraat </concept> 20 <!— SR, 2003-03-19: dezelfde truc als hierboven —> <!— SR, 2003-03-21: van —>

Cconcept naam="~WelkeReactantVanProduktInvis" zoekOp="vorm" afbeeld="nooit" autonoom="waar"> 25 residu <!— SR, 2003-08-27: "resulterend" toegevoegd —> (resulterend)? / mengsel / ( of )? </concept> 30 Cconcept naam="~WELKEProdAlsAnaforischHoofd" afbeeld="altijd" autonoom="waar"> (-WelkProdukt|samenstelling) / ignlabtag / ( \. | \, ) c/concept> 35 Cconcept naam="~WELKEProdAlsAnaforisch" afbeeld="nooit" autonoom="waar"> 1028923 86 <!— SR, 2003-05-08: "titel" verwijderd omdat eerder behandeld—> <!— (#RBC) ? / (#AT) ? / (getiteld | # JJ) * / {ANAFORISCH_PRODUKT: (-WelkProdukt|-WelkeReactantOfProdukt)} 5 --> <!— SR, 2003-02-28: gewenst —> <!— SR, 2003-05-08: "titel" verwijderd omdat eerder behandeld —> <!— SR, 2003-05-14: "als produkt naam" toegevoegd —> 10 (#RBC)? / (#AT)? / (getiteld|gewenst|#JJ)* / {ANAFORISCH_PRODUKT: (-WelkProdukt|-WelkeReactantOfProdukt)} / ( of / {PRODUKT: (namtag)})? <!— SR, 2003-08-29: zijn - identificeer —> (#RBC)? / (#AT)? / (getiteld|gewenst|#JJ)* / 15 {ANAFORISCH_PRODUKT: (-WelkProdukt|-WelkeReactantVanProdukt)} / (welke|#CM|( zijn / identify )) / (op / :staand)? / (:gekristalliseerd / als)? / (#AT)? / (:gewenst)? / {PRODUKT: (namtag)}  20 (#RBC)? / (#AT)? / (getiteld|gewenst|#JJ)* / {ANAFORISCH_PRODUKT: (-WelkProdukt|-WelkeReactantOfProdukt)} / :containing / ( {PRODUKT: (namtag)} / \( / valtag / \) / (en)? / (\,)? )* </concept> 25 <!— Elementen van de WELKE-Lijst die niet de rol krijgen van ANAFORISCH_PRODUKT maar die potentieel kunnen functioneren als SOORT_PRODUKT—> 30 Cconcept naam="~WELKEProdAlsPotSoort" afbeeld="nooit" autonoom="waar"> <!— SR, 2003-03-19: te algemeen —> <!-- (#RBC)? / (#AT)? / (#JJ)* / (-WelkProdukt|-WelkeReactantVanProdukt) —> 35 (als)? / (#AT) ? / (#JJ)* / (-WelkProdukt|-WelkeReactantVanProdukt) </concept> <concept naam="~WELKEReactAlsAnaforisch" afbeeld="nooit" 40 autonoom="waar"> 1 028923 87 <!— SR, 2003-05-20: te onspecifiek ... optioneel * verwijderd —> (#RBC)? / (#AT)? / (titel|getiteld|#JJ) / {ANAFORISCH_REACTANT: 5 (-WelkeReactant|-WelkeReactantOfProdukt)} <!— SR, 2003-05-08, -14: maar... —> (#RBC)? / (#AT)? / (titel|getiteldl#JJ)* / {ANAFORISCH_PRODUKT: (-WelkeReactant|-WelkeReactantVanProdukt)} / zijn / 10 :verzameld <!-- SR, 2003-03-19: ingevoegd; 2003-05-15: gecorrigeerd —> (#RBC)? / (#AT)? / (titel|getiteld|#JJ)* / (-WelkeReactantlnvis) 15 (#RBC)? / (#AT)? / (titel|getiteld|#JJ) / (-WelkeReactantVanProduktInvis) </concept> <!— SR, 2003-03-19 —> 20 cconcept naam="~WELKEReactAlsPotKind" afbeeld="nooit" autonoom="waar"> (#RBC)? / (#AT)? / (#JJ)* / (-WelkeReacfant|-WelkeReactantVanProdukt) </concept> 25 <!— SR, 2003-03-20 —> <concept naam="~WELKEProdWijzer" afbeeld="nooit" autonoom="waar"> (daar|{ANAFORISCH_PRODUKT: (het)}) 30 </concept> </component> 1 028923 88 PRODUKTJExtraction.scp <?xml versie = '1.0'?> 5 <!— sc versie = 'VI.20.0009' datum = '2003-12-17' —> <!— auteursrecht>(c) auteursrecht 2001, MDL</auteursrecht — > 10 <!— Nemend de grammatica VI.00.0000 van 30.10.01 als basis we combineren we nu de constructies voor verscheidene werkwoord contexten in één bestand. Dit maakt een eenvoudiger onderhoud mogelijk waarin de verschillende vormen (passief, gerundivum, ...) voor de verschillende werkwoorden 15 afgehandeld zullen worden. —> <component> i <!— CONTEXT actief — > 20 <!—actieve werkwoordvormen met het produkt daar rechts van —> <concept naam="~ActProduktWerkwoordRechts" niveau="l" afbeeld="nooit" autonoom="waar"> <!— SR, 2003-11-14: -Omvattende —> 25 (-VeroorloofAct| -Omvattende|-ZetomlnAct|-ExtraheerAct|~To

FormAct|-GeefAct|-IsoleerAct|-LaatachterAct|~VerkrijgAct|-Pre cipiteerAct|-PrepareerAct|-ProduceerAct|-VerschafAct|-Haalter ugAct|-ResultlnAct|-YieldAct) </concept> 30 <!—actieve werkwoordsvormen met the produkt daar links van en produkt-deelwoord-constructions —> <!—EX: totdat een witte vaste stof vormt —> 35 <!—EX: produkt gevormd —> <!— SR, 2003-03-11: -BlijfAct toegevoegd —> <!— SR, 2003-05-06: -KristalliseerPass toegevoegd —> 1028923 89 <concept naam="~ActProduktWerkwoordLinks" niveau="l" afbeeld="nooit" autonoom="waar"> (~VeroorloofDeelwoord|~ZetomVanafDeelwoord|-KristallieerP ass|-VormAct|-VormDeelwoord|-IsoleerDeelwoord|~VerkrijgDeelwo 5 ord|-PrecipiteerDeelwoord|-PrepareerDeelwoord|~ProduceerDeelw oord|-VerschafDeelwoord|-HaalterugDeelwoord|-Blij fAct|-Scheid Pass|-YieldDeelwoord) </concept> 10 <concept naam="~CProduktAct" niveau="l" afbeeld="altijd"> <!-- SR, 2003-03-19: -WelkeReactantVanProduktlnvis —> <!— SR, 2003-08-27: -WELKEProdAlsPotSoort; ( -ValTag / van ) toegevoegd —> -ActProduktWerkwoordRechts / 15 (WILLEKEURIGE|-Interfrase|-WelkeReactantVanProduktlnvis|( -ValTag / of ))* / -SamenstellingNoemen / ( -WELKEProdAlsPotSoort )? -SamenstellingNoemen / -ActProduktWerkwoordLinks </concept> 20 <!-- CONTEXT passief —> <!— VerkrijgVanaf lijkt gevaarlijk omdat er vele voorbeelden zijn waarin een reactant —> <!- genoemd wordt die is "verkregen uit" een eerdere reactie 25 —> <concept naam="~PassProduktWerkwoordHoofd" niveau="l" afbeeld="nooit" autonoom="waar"> (-VeroorloofPass|-ZetomFromPass|-ExtraheerPass|-VormPass| -IsoleerPass|-VerkrijgPass|-VerkrijgFrom|-PrecipiteerPass|-Pr 30 oduceerPass|-VerschafPass|-HaalterugPass|-SynthetiseerPass|~Y ieldPass) </concept> <!— SR, 2003-05-28: verplaatst van -PassProduktWerkwoord, 35 gescheiden. —> <concept naam="~PassProduktWerkwoordSpec" niveau="l" afbeeld="nooit" autonoom="waar"> (-PrepareerPass) </concept> 1028923 90 <concept naam="~CProduktPass" niveau="l" afbeeld="altijd"> <!— SR, 2003-05-19: -Afbakener —> -SamenstellingNoemen / WILLEKEURIGE / 5 (-Interfrase|-Afbakener)? / WILLEKEURIGE / (-PassProduktWerkwoordMain|-PassProduktWerkwoordSpec) i <!— SR, 2003-05-28: zeer specifiek; rest is gevonden via | -ComplexWaarde etc —> j -SamenstellingNoemen / -PassProduktWerkwoordSpec / 10 {REACTANT: -NAAM) / ( en / {REACTANT: -NAAM} )? <!— SR, 2003-05-13 —> <!— (er|{ANAFORISCH_PRODUKT: (het)}) / j -PassProduktWerkwoord / (WILLEKEURIGE|-Interfrase)* / -SamenstellingNoemen —> 15 <!— SR, 2003-05-20 —> -WELKEProdWijzer / (-PassProduktWerkwoordHoofdl-PassProduktWerkwoordSpec) / (WILLEKEURIGE|-Interfrase)* / -SamenstellingNoemen <!— SR, 2003-08-29 —> 20 -SamenstellingNoemen / zijn / identificeren / als / (PRODUKT: -NAAM} </concept> <!— SR, 2003-05-23: Verberg ... —> 25 Cconcept naam="~CProduktPassVerberg” niveau="l" afbeeld="altijd" autonoom="onwaar"> mengsel / van / -SamenstellingNoemen / WILLEKEURIGE / (-Interfrase|-Afbakener)? / WILLEKEURIGE / -PassProduktWerkwoord 30 </concept> <!— Ex: De opbrengst is x —>

Cconcept naam="~CProduktKopula" niveau=,,l" afbeeld="altijd"> -ProduktNaamwoord / (WILLEKEURIGE|-Interfrase)* / Azijn / 35 -SamenstellingNoemen </concept> 1028923 91 <concept naam="~CProduktNominalization" niveau="l" afbeeld="altijd"> <!— Ex: De opwekking van x —> -ProduktNaamwoord / (#AT)? / (#NN|#JJ)* / 5 -SamenstellingNoemen <!— Ex: namtag vorming begint —> {PRODUKT: -NAAM} / -ProduktNaamwoord / -WerkwoordlnNominalisatieContext <!— SR, 2003-08-29 —> 10 {PRODUKT: -NAAM} / in / the / vorm / van / (#NN|#JJ)* / -SamenstellingNoemen </concept> <!— SR, 2003-03-17: nieuwe regel toegevoegd. —> 15 <!— SR, 2003-03-21: Geprepareerd, geproduceerd ... —> <!— Dekt de citatie af van samenstellingen van eerdere locaties. —> cconcept naam=,,~CProduktVerkrijgedInVoorbeeld" niveau="l" afbeeld="altijd"> 20 {REACTANT: (-NAAM)} / ( \( )? / (-Verkrij gDeelwoordVoorbeeld|-PrepareerDeelwoordVoorbeeld|-Pr oduceerDeelwoordVoorbeeld) </concept> 25 </component> 1028923 92 REACTANT_SamenstellingNoemen.scp <?xml versie = '1.0'?> 5 <!— sc versie = 'VI.20.0009' datum = '2003-12-17' —> <!— auteursrecht>(c) auteursrecht 2001, MDL</auteursrecht — > <component> 10

Cconcept naam="~AnaforischNoemenReact" afbeeld="nooit" niveau="3"> <!— Indien het wenselijk is om alleen een anaforische term te extraheren, moet het concept ~AnaforischTerm hier 15 toegevoegd worden. —> -WELKEReactAlsAnaforisch <!-- Ex: de titel namtag —> {ANAFORISCH_REACTANT: (titel|getiteld) / -NAAM} <!— Ex: het namtag produkt —> 20 <!—SR, 2003-05-28: verkrijg slechts dee -NAAM zelf, niet omvattende de -WELKEReactAlsPotSoort —> {ANAFORISCH_REACTANT: -NAAM} / -WELKEReactAlsPotSoort <!— Ex: de namtag labtag —> -NAAM / {ANAFORISCH_REACTANT: -LabTag } 25 <!— Ex: de titel produkt van voorbeeld labtag —> <!— Ex: de samenstellingen van voorbeeld labtag naar voorbeeld labtag —> ( -WELKEReactAlsPotSoort|-AnaforischTerm ) / (van|(\())? / (-AnaforischTerm) / {ANAFORISCH_REACTANT: -LabTag} / 30 ((#CM)? / {ANAFORISCH_REACTANT: -LabTag})* / (\))? / ( (naar|van) / (-WELKEReactAlsPotSoort|-AnaforischTerm) / {ANAFORISCH_REACTANT: -LabTag})? / ((#CM|en)? / {ANAFORISCH_REACTANT: -LabTag})* </concept> <concept naam="~TechnischNoemenReact" afbeeld="nooit" niveau="3"> 1 028923 35 93 <!— (-ComplexWaarden)? / (\%)? / (of)? / {REACTANT: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? —> <!— SR, 2003-05-06 —> <!— SR, 2003-05-13: adjectief geïntroduceerd. -ValTag 5 toegevoegd. -14: artikel toegevoegd —> <!— SR, 2003-06-02: "vermalen" (waarom niet #JJ?) —> ({REACTANT: (-NAAM)} /en)? / (-ValTag|-ComplexWaarden)? / (\%)? / (of)? / (#AT)? / (#JJ)? / (:vermalen)? / {REACTANT: (-NAAM)} / (\()? / (-LabTag)? / (\)) ? / (of)? / (#JJ)* / 10 (-ValTag|-ComplexWaarden) (-ValTag|-ComplexWaarden) / (\%)? / (of)? / (#AT)? / (#JJ)? / (:vermalen)? / {REACTANT: (-NAAM)} / (\()? / (-LabTag)? / (\))? /(of)? / (#JJ)* / (-ValTag|-ComplexWaarden)? 15 <!— SR, 2003-05-19: —> :gehydrogeneerd / over / (-ValTag|-ComplexWaarden)? / (\%)? / (of)? / {KATALYSATOR: (-NAAM)} / (of)? / (#JJ)* / (-ComplexWaarden)? {REACTANT: (-NAAM)} / -RefTag 20 </concept>

Cconcept naam="~OplosmiddelNoemenReact" afbeeld="nooit" niveau="3"> <!— SR, 2003-05-06: "( {REACTANT: (-NAAM)} )?" 25 toegevoegd —> <!— SR, 2003-05-08: ( {REACTANT: (-NAAM)} )? / in / (WILLEKEURIGE | -ComplexWaarden)* / {OPLOSMIDDEL: -NAAM} / (WILLEKEURIGE | -ComplexWaarden)* —> <!— SR, 2003-05-20: "( (REACTANT: (-NAAM)} / (en|of) )? 30 /" toegevoegd —> <!— SR, 2003-06-02: "-ValTag" toegevoegd --> ( {REACTANT: (-NAAM)} / (en|of) )? / ( {REACTANT: (-NAAM)} )? / in / (WILLEKEURIGE | (-ComplexWaarden|-ValTag))* / {OPLOSMIDDEL: -NAAM} / 35 (WILLEKEURIGE | -ComplexWaarden)* / ({REACTANT: (-NAAM)} )? in / (#AT|#DT)? / (#JJ|#NN)* / oplosmiddel / (WILLEKEURIGE | -ComplexWaarden)* / ( (omvatten| ( bestaan / uit)) / (WILLEKEURIGE | -ComplexWaarden)* / {OPLOSMIDDEL: -NAAM} / (WILLEKEURIGE | -ComplexWaarden)* )* 1028923 94 in / (#AT|#DT)? / (#JJ|#NN)* / oplosmiddel / (WILLEKEURIGE|((bevatten|omvatte)? / (uit)? / -ComplexWaarden))* / (of)? / {OPLOSMIDDEL: -NAAM) <!— SR, 2003-06-03 —> 5 (reluding)? / oplosmiddel / -ValTag / {OPLOSMIDDEL: -NAAM} -WelkeReactant / (of)? / (WILLEKEURIGE|{REACTANT: (-NAAM)}|-ComplexWaarden)* / in / (#AT|#DT)? / (#JJ)* / {OPLOSMIDDEL: -NAAM} 10 </concept> <!-- SR, 2003-03-21: nooit -> altijd —>

Cconcept naam=,,~RSamenstellingNoemen,, afbeeld="altijd" autonoom="waar" niveau="3"> 15 -AnaforischNoemenReact -TechnischNoemenReact -OplosmiddelNoemenReact <!— SG: hier moeten we verwijzen naar de ...Noemen concepten van de —> 20 <!— Reactant Grammatica, not de Produkt Grammatica - -> <!— SR, 2003-06-03: fout met -Afbakener gecorrigeerd —> (-AnaforischNoemenReact|-TechnischNoemenReact) / (-Afbakener / 25 (-AnaforischNoemenReact|-TechnischNoemenReact))* / (-Afbakener)? / (of|en) / (-AnaforischNoemenReact|-TechnischNoemenReact) </concept> 30 </component> REACTANT_Extraction.scp 35 <?xml versie = '1.0'?> <!— sc versie = 'VI.20.0009' datum - '2003-12-17' —> 1028923 95 <!— <auteursrecht>(c) auteursrecht 2001, MDL </auteursrecht> —> <component> 5 <!— alle concepten die overgeslagen dienen te worden door de -CReactant Rule --> <concept naam="~ProduktExpr" afbeeld="nooit" niveau="3"> 10 -ZetomVanafPass -ZetomlnPass -ZetomVanafDeelwoord -ExtraheerAct -ExtraheerPass 15 -ExtraheerDeelwoord -VormAct -VormPass -VormDeelwoord -GeefAct 20 -IsoleerAct -IsoleerPass -IsoleerDeelwoord -LaatachterAct -VerkrijgPass 25 -VerkrijgAct -Verkrij gDeelwoord <!— SR, 2003-03-14: noodzakelijk -VerkrijgDeelwoordVoorbeeld ? —> -VerkrijgVanaf 30 -PrecipiteerAct -PrecipiteerDeelwoord -PrecipiteerPass -PrepareerAct -PrepareerDeelwoord 35 -PrepareerPass 1028923 96 <!— SR, 2003-03-21: noodzakelijk -PrepareerDeelwoordVoorbeeld ? —> -ProduceerAct -ProduceerPass 5 -ProduceerDeelwoord -VerschafAct -VerschafPass -VerschafDeelwoord -ResulteertlnAct 10 -SynthetiseerPass -SynthetiseerVanaf -YieldAct -YieldPass -YieldDeelwoord 15 -ActProduktWerkwoordRechts -ActProduktWerkwoordLinks -PassProduktWerkwoordMain -PassProduktWerkwoordSpec -Afbakener 20 ;-PostBarrier ;-WELKEProd -CProduktAct -CProduktPass -CProduktKopula 25 -CProduktNominalisatie </concept> <!— alle aangenomen reactant werkwoorden —> cconcept naam="~ReactantWerkwoord" afbeeld=”nooit" 30 autonoom="waar" niveau="3"> <!— SR, 2003-05-08: plaats—> <!— SR, 2003-05-14: mix —> (toevoegen|koken|bubbelen|laden|omzetten|koelen|oplossen| vallen|verdampen|voeren|verwarmen|houden|introduceren|mengen| 35 plaatsen|schenken|reageren|refluxen|hersuspendeer|roeren|roer en|suspendeer|behandel|warm) 1028923 97 </concept> <!— deze uitdrukkingen worden genomen uit het document dat is geschreven door MS --> 5 cconcept naam="~ReactantExpr" afbeeld="nooit" autonoom="waar" niveau="3"> zijn / gebruiken / als / start / materiaal de / opbrengst / van toevoeging / van 10 </concept> <!— de enkele extractie regel for reactanten —>

ProduktExpr)* / (~ReactantWerkwoord|~ReactantExpr) / (-RSamenstellingNoemen|-IFrase|~ComplexWaarden|WILLEKEURIGE|~ ProduktExpr)* <!— SR, 2003-05-13, 14 —> 20 ({OPLOSMIDDEL: (-NAAM)} / vrij)? / ({REACTANT: (-NAAM)} | -RSamenstellingNoemen) / (hebben)? / zijn / -ReactantWerkwoord <!— SR, 2003-05-08: In a lijst, niet alle samenstellingen moeten gegeven worden met -ComplexWaarden —> 25 ( {ANAFORISCH_PRODUKT: (het)} / -PrepareererPassReactant)? / (-ReactantWerkwoord) / (met)? / {REACTANT: (-NAAM)} / (en|#CM)? / (dan)? </concept> </component> 1 028923 98

Alhoewel de hierin getoonde en beschreven uitvoeringsvormen geheel in staat zijn om de doelen van de uitvinding te bereiken, dient men te begrijpen dat deze uitvoeringsvormen slechts getoond zijn voor weergavedoeleinden en niet ter beperking, en dat variaties duidelijk zullen zijn voor de vakman in het licht van de voorgaande beschrijving.

1028923

Claims

1. Een werkwijze voor het verwerken van tekstdocumenten en het extraheren van chemische gegevens daarin, omvattende: het identificeren en taggen van een of meer chemische 5 samenstellingen binnen een tekstdocument; het identificeren en taggen van fysieke eigenschappen die zijn gerelateerd aan een of meer van de genoemde samenstellingen; het vertalen van een of meer van de genoemde 10 samenstellingen in een chemische structuur; het identificeren en taggen van een of meer chemische reactiebeschrijvingen binnen het genoemde tekstdocument; en het extraheren van tenminste enige van de genoemde getagde informatie en het opslaan van de genoemde 15 geëxtraheerde getagde informatie in een database.

2. Werkwijze volgens conclusie 1, waarin tenminste sommige van de chemische samenstellingen met hun namen omschreven zijn.

3. Werkwijze volgens conclusie 1 of 2, waarin 20 tenminste sommige van de chemische samenstellingen beschreven zijn door molecuulformules.

4. Werkwijze volgens conclusie 1, 2 of 3, waarin de genoemde stap van het identificeren en taggen van een of meer chemische samenstellingen binnen een tekstdocument omvat een 25 vergelijking met een woordenboek van chemische naamfragmenten. 1028923

5. Werkwijze volgens een van de conclusies 1-4 waarin de genoemde gegevensstructuur gerepresenteerd wordt door een verbindingstabel.

6. Werkwijze volgens een van de conclusies 1 tot en 5 met 5 verder omvattende het identificeren en taggen van een specifieke regel die geselecteerd is uit een verzameling vooraf gedefinieerde regels voor een geïdentificeerde en getagde samenstelling binnen een geïdentificeerde en getagde reactie.

7. Werkwijze volgens conclusie 6, waarin de regels gedefinieerd zijn in termen van concepten.

8. Werkwijze volgens conclusie 6, waarin de regels omvatten: startmateriaal, reagens, oplosmiddel, katalysator en product.

9. Werkwijze volgens een van de conclusies 1-8, verder omvattende het identificeren van de opbrengst van een product binnen een reactie.

10. Werkwijze volgens een van de conclusies 1-9, verder omvattende het vertalen van de genoemde geëxtraheerde 20 getagde informatie in een formaat dat geschikt is voor het opslaan van de geëxtraheerde getagde informatie in de genoemde database.

11. Werkwijze volgens een van de conclusies 1-10, verder omvattende het identificeren en taggen van 25 atomistische eigenschappen in het genoemde tekstdocument.

12. Werkwijze volgens conclusie 11, waarin de genoemde atomistische eigenschappen omvatten een of meer van: molecuulformules, getallen, bereiken van getallen, fysieke waarden, labels en referenties binnen de tekst. 1 028923

13. Werkwijze volgens een van de conclusies 1-12, waarin het genoemde tekstdocument een document van het XML-type is.

14. Werkwijze volgens een van de conclusies 1-13, 5 waarin het genoemde tekstdocument niet een document van het XML-type is.

15. Werkwijze volgens conclusie 14, verder omvattende het analyseren van tekst gebaseerd op lijn afbrekingen, nummeringsschema's en speciale sleutelwoorden.

16. Computerprogramma voor het uitvoeren, wanneer dit op een computer gedraaid wordt van de stappen van een van de werkwijze conclusies 1-15.

17. Toestel voor het verwerken van tekstdocumenten en het extraheren van chemische gegevens, omvattende: 15 middelen voor het identificeren en taggen van een of meer chemische samenstellingen binnen in een tekstdocument; middelen voor het identificeren en taggen van fysieke eigenschappen die zijn gerelateerd aan een of meer van de genoemde samenstellingen; 20 middelen voor het vertalen van een of meer van de genoemde samenstellingen in een chemische structuur; middelen voor het identificeren en taggen van een of meer chemische reactiebeschrijvingen binnen het genoemde tekstdocument; 25 middelen voor het extraheren van tenminste enige van de genoemde getagde informatie; en middelen voor het opslaan van de geëxtraheerde getagde informatie in een database.

18. Toestel volgens conclusie 17, waarin de genoemde 30 middelen voor het identificeren en het taggen van een of meer 1 028923 chemische samenstellingen binnen een tekstdocument werkzaam zijn teneinde de chemische samenstellingen te vergelijken met een woordenboek van chemische naamfragmenten.

19. Toestel volgens conclusie 17 of 18, omvattende 5 middelen voor het identificeren en taggen van de specifieke regel die geselecteerd is uit een verzameling vooraf gedefinieerde regels voor een geïdentificeerde en getagde samenstelling binnen in een geïdentificeerde en getagde reactie.

20. Toestel volgens een van de conclusies 17-19, bij voorkeur een computer, voor het uitvoeren van stappen van een van de conclusies 1-15. 1028923