NO314157B1

NO314157B1 - Dataprosesseringssystem og -fremgangsmåte for automatisk generering av et sammendrag til et tekstdokument

Info

Publication number: NO314157B1
Application number: NO20004622A
Authority: NO
Inventors: Harald Huber; Reinhard Fischer; Uwe Mueller
Original assignee: Usu Softwarehaus Unternehmensb
Priority date: 1998-03-17
Filing date: 2000-09-15
Publication date: 2003-02-03
Also published as: EP1064606B1; NO20004622D0; ATE209377T1; WO1999048027A1; WO1999048027A8; AU3412499A; DE19811524A1; ES2153341T3; ES2153341T1; PT1064606E; DE59900685D1; CA2287873A1; NO20004622L; EP1064606A1

Description

Foreliggende oppfinnelse vedrører et databehandlingssystem for gjennomføring av datasøk i en, spesielt ekstern, elektronisk database, samt en fremgangsmåte for automatisert oppstilling av innholdsangivelser for tekstdokumenter ved hjelp av et slikt databehandlingssystem.

Datasøk i elektroniske medier (eksempelvis Internett) baserer seg i dag i vesentlig grad på et katalogbasert søk, det vil si en inndeling av dokumentene som skal gjennomsøkes, basert på fastlagte kategorier eller informasjonsleveran-dører, eller på et fulltekstsøk, hvor det søkes etter ønskede stikkord eller stikkordskombinasjoner. Med stikkordsøk er det også mulig å søke etter komplekse saksforhold og finne riktig dokument med høy sannsynlighet, hvis fremstil-lingens art, det brukte vokabular så vel som de vanlige uttrykk er kjente. Det er derimot vanskelig å organisere de kjente søkemetoder slik at de kan brukes på nytt, da de spesielt ved omfattende og komplekse søkeanvisninger er veldig spesialiserte og følgelig ikke er allment brukbare, eksempelvis av andre brukere av databehandlingssystemet som benyttes til søket. Dette fører til at hver bruker stiller opp sin egen søkeanvisning for ett bestemt tilfelle, men at denne søksanvisning senere går "tapt", da den enten er tri-viell eller for kompleks for andre brukere og eventuelt er vanskelig å forstå.

Ettersom angivelsen av søkeanvisninger spesielt ved katalogbasert søk forutsetter visse grunnkjennskaper og noe øvelse, er mange personer som ønsker et søk og som i grun-nen er øvet i omgangen med databehandlingssystem, allikevel avhengige av hjelp fra en fagkyndig person. I tillegg blir datasøk vanskeligere ved at bestemte gjenstander og saksforhold ofte blir betegnet med forskjellige begreper i lit-teraturen, slik at mulige alternative betegnelser for begrepet som det skal søkes etter, må være kjent ved angivelse av søkeformuleringen for å kunne tas hensyn til. Dette er spesielt tilfellet med bedriftsspesifikke begreper, ettersom flere bedrifter benytter sin egen termino-logi. Denne effekt blir videre forsterket når søket skal strekkes til fremmedspråklige databaser. Dette lar seg anskueliggjøre ved det følgende eksempel: en person søker etter noe om temaet "knowledge management". For å kunne gjennomføre et virkelig omfattende søk, bør også søkebegre-pet "business intelligence" tas med, ettersom området "knowledge management" ofte også betegnes med dette begrepet. Imidlertid omfatter begrepet "business intelligence" også områdene "executive information", "data mining" eller "statistisk korrelasjonsanalyse", som imidlertid ikke er av interesse under søket. Dette fører allerede til en søke-streng med den følgende form: ('knowledge management' ELLER 'business intelligence') 06 IKKE ('executive information' ELLER 'data mining' ELLER 'stastisti<*> korrelasjon<*1>).

Sammenstillingen av et søk kan følgelig bli veldig tids-krevende, eller kan i visse tilfeller til og med bli til en langvarig begivenhet når søkeresultatet er for omfangsrikt og den søkende person ikke er kjent med de nødvendige fag-uttrykk for en videre innskrenkning og han først må inn-hente slik fagkunnskap fra andre personer.

Videre forsøk på å fremme en brukers søk i en fulltekst-database er kjent. En oversikt finnes i "Knowledge Augmen-ted Intranet Search" (http://poster.www6conf.org/pos-ter/727/index.htm). Fremgangsmåtene som vises der, beskri-ver i det vesentlige teknologier for supplementering og utvidelse av søkestrengen. Dette tilsvarer det empirisk bestemte faktum at de fleste brukere bare søker etter ett stikkord i et fulltekstsøk. Fra "Searening Intranet Using Knowledge Representation - Experiences with the Search Enhancer" (finnes på http://w3.Informatik.gu.se/sdixi/publ-/snet.htm) er det kjent et system med hvilket de enkelte søkestrenger eller søkebegreper blir lagret i et generali-serings- og spesialiseringsnettverk.

Fra TJS-PS 5.297.039 er det kjent et system med hvis hjelp tekster gjennomsøkes og det på grunnlag av fastslåtte over-ensstemmelser mellom stikkord settes opp sammendrag av tekstene i form av et analysenett. Analysenettene er tabellformede anordninger som inneholder begreper og deres forhold. De gjennomsøkte tekster og tilhørende stikkord-lister lagres i en tilsvarende database. Innlegging av søk utføres i form av analysenett hvorfra det trekkes ut set-ninger av stikkord og deres forhold.

Fra WO 92/16903 Al er det kjent et databaseforvaltnings-system hvor elementene som utgjør søkeanvisningen, vises i grafisk form for et søk i en relasjonell database.

Fra US-PS 5.721.900 er det kjent et databehandlingssystem med minst én brukerenhet, en lagerenhet, en tilkobling til minst én, spesielt ekstern, elektronisk database og med en søkemotor for gjennomføring av datasøk i den minst ene database, hvilket system tjener til en grafisk visning av søk (queries). Det kjente databehandlingssystem hjelper en bruker med mindre erfaring med å formulere søkeanvisninger i SQL (Structured Query Language - strukturert spørrespråk) for søk i relasjonelle databaser ved hjelp av en temporær grafisk opparbeidelse av en SQL-søkeformulering ved sammensetning av objekter via predikater (Boole-ske operatører). Dette betyr at brukeren ved sammenstilling av en søkefore-spørsel på grunnlag av mønsterformuleringer og de definerte predikater, får presentert et grafisk opparbeidet utvalg av søkebegreper, og at søket som han formulerer, vises grafisk (oversiktlig).

For søkeren oppstår også problemet at han bare kan oppgi sin såkalte søkeinteresse relativt allment, for eksempelvis også å kunne finne tekstdokumenter med relevant innhold som omfatter avvikende fagterminologi. Ved gjennomføring av et relativt allment formulert søk blir det imidlertid også funnet dokumenter hvis innhold ikke treffer den egentlige søkeinteresse. Derfor er det for søkeren nødvendig å i det minste raskt hente frem tekstdokumentene (resultatdokumen-tene) som søkemotoren oppgir å ha funnet, og å undersøke deres tematikk. Av denne grunn har det allerede lenge blitt gjort forsøk på å tilveiebringe en automatisk sammenstilling av innholdsbeskrivelser eller i det minste korte innholdsangivelser, slik at det etter et gjennomført søk i en database ikke lenger er nødvendig å lese gjennom hhv. over på de funnede tekstdokumenter. Kjente fremgangsmåter som sikter til dette, baserer seg på en gjenkjenning av heuris-tiske eller lingvistiske mønstre som kan identifiseres i en gitt tekst på grunnlag av den typiske språkbruk.

Ut fra teknikkens stand har oppfinnelsen den oppgave å tilveiebringe et databehandlingssystem av den ovenfor nevnte type, som muliggjør en enkel sammenstilling også av komplekse søkeanvisninger samt gjentatt bruk derav. Videre har oppfinnelsen den oppgave å ytterligere forbedre en fremgangsmåte for automatisert sammenstilling av innholdsfortegnelser (sammendrag) av tekstdokumenter.

For å løse denne oppgave foreslås et databehandlingssystem med karakteristikken i krav 1 samt en fremgangsmåte med karakteristikken i krav 9. I henhold til dette er det ifølge oppfinnelsen lagret en rekke søkeformuleringer for søkemotoren i form av byggeklosser som danner noder og kanter av et semantisk nett, hvilke søkebyggeklosser kan settes sammen til en vilkårlig utformbar kompleks søkeanvis-ning for å gjennomføre et datasøk, hvorved nettverket kan benyttes til å lagre søkstrategier. Derved er nodene definert ved hjelp av et nodenavn som gir dem et semantisk utsagn, og av en tilsvarende søkestreng. Kantene har likeledes en betegnelse (én i hver retning) og en koblings-anvisning (i enkleste tilfelle logisk OG eller logisk ELLER). Dermed får hver bruker muligheten til, ved å sette sammen søkebyggeklosser som danner en semantisk struktur, å angi en individuell søkeanvisning for gjennomføring av et datasøk, uten at han trenger å ha videregående kjennskap til vokabularet eller mekanismene som ligger til grunn for søket. Likeledes gjør systemet ifølge oppfinnelsen det mulig for en bruker med høy søke-"know-how" å gi denne viten videre til andre brukere og dermed samle individuelle søkestrategier i nettverket. Ifølge oppfinnelsen blir dermed forskjellige søkeformuleringer som er rettet mot enkeltsøk, oppfattet som node og/eller kant av et semantisk utsagn og brukt som parametriserte byggeklosser. Derigjennom åpnes det for muligheten til å benytte fordelt kunnskap sammen, det vil si at en søkende person kan gripe tilbake på fagbegrepskjennskap som han selv ikke har. En gang sam-menstilte søkeformuleringer (queries) må dermed ikke "nyoppfinnes" hver gang, men blir heller satt sammen én gang og deretter ifølge oppfinnelsen lagret som søkebygge-klosser som danner noder og kanter av et semantisk nett. Derigjennom blir det også mulig å gjenspeile fagterminologi som brukes utenfor den egne bedrift, i den egne termino-logi, slik at medarbeiderne i en bedrift ved bruk av databehandlingssystemet ifølge oppfinnelsen kan gjennomføre omfattende søk på grunnlag av fagbegreper som benyttes i den egne bedrift og som han er kjent med.

Ifølge oppfinnelsen inneholder nodene av søkebyggeklosser som danner det semantiske nett, søkeforespørsler, og søke-byggeklosser som danner kantene av det semantiske nett, inneholder koblingsanvisninger, hvorved spesielt nodene og kantene er identifisert med betydningsgivende navn. Ved lagring av søkeforespørslene (søkebetingelsene) i nodene, og av koblingsanvisningene (koblingsreglene) i kantene, av det semantiske nett, blir sammenstillingen av søkeanvis-ningene spesielt enkelt utformet, da det utover en enkel OG- eller ELLER-kobling også kan tilordnes kompliserte kob-linger, eksempelvis ved aksessering av forskjellige data-kilder i sammenheng med et søk. Ytterligere parametere for nettverksomgivelsen som er nødvendige i denne sammenheng, oppgis dermed ved hjelp av koblingsanvisningen som er lagret som kant av det semantiske nett.

En visning av mangfoldet av søkeformuleringer kan utføres i forskjellig form. Fortrinnsvis utføres denne visning i hierarkisk (tre-) struktur (hierarkitrær) og alternativt eller valgfritt i tabellarisk form på en fremvisningsenhet av brukerenheten. Dette forenkler for brukeren valget av de enkelte søkebyggeklosser ved sammenstilling av en søke-anvisning, hvorved valget og sammenstillingen med fordel utføres ved enkel markering av de ønskede søkebyggeklosser på skjermbildet.

I en ytterligere fordelaktig utforming av oppfinnelsen kan en søkeanvisning som brukeren har satt sammen av søkebygge-klosser, lagres, hvorved det blir mulig å benytte en søke-anvisning som en gang er satt sammen, flere ganger. Spesielt åpner dette for muligheten, slik det beskrives i krav 6, for å automatisk utføre en lagret søkeanvisning i tidsintervaller som kan bestemmes av brukeren. Dermed oppnås ifølge oppfinnelsen at det ut fra brukerinteraksjonen ved valg og gjennomføring av søkeformuleringene, finner sted en videreutvikling av søkeformuleringen og av nettets struktur på grunnlag av brukerens søkevirksomhet. Dette skjer eksempelvis ved fremvisning av de kombinerte søkeformule-ringer, hvorved endringer lagres av en bruker og stilles til rådighet for andre brukere.

Sammenstillingen av søkebyggeklossene som brukeren har valgt, utføres på grunnlag av den semantiske struktur som dannes av de enkelte søkebyggeklosser, hvor en anvisning for sammenstillingen bestemmes av den gjeldende øverste beskrevne kant av strukturen.

I en fordelaktig utførelse av oppfinnelsen tilveiebringes brukerinteraksjonsprosesser for en videreutvikling av det semantiske nettverk på grunnlag av en brukers søkevirksom-het. Slike brukerinteraksjonsprosesser tilveiebringes for å tilpasse inngitte søkeformuleringer til det bestående semantiske nettverk og innføre dem på egnet sted i nettet for å utvide det semantiske nettverk. Dermed oppnås ifølge oppfinnelsen en stadig utvidelse og forbedring av det semantiske nettverk, hvilket gjør bruk av databehandlingssystemet enklere for andre brukere.

Fordelaktig utføres brukerinteraksjonsprosessen ifølge krav 8 ved en sammenligning av en inngitt søkeformulering med de lagrede noder av det semantiske nett og en lagring av den inngitte søkeformulering i det semantiske nett under hensyntagen til den semantiske betydning, hvis det med den inngitte søkeformulering dreier seg om en ny søkeformule-ring.

Til forskjell fra spesielt teknikkens stand, som den er kjent fra US-PS 5.721.900, frembringer dermed oppfinnelsen en hjelp ved angivelse av søkespørsmål på grunnlag av et semantisk nett bestående av noder og kanter, som oppviser et menings- eller betydningsinnhold som går utover vanlige predikater/operatører. Nodene tilsvarer derved konsepter eller begreper fra realiteten, og kantene tilsvarer forhold (assosiasjoner) mellom disse begreper, hvorved de oppviser et semantisk utsagn. Nodene og kantene, dvs. bestanddelene av det semantiske nett, kan kombineres for søkespørsmålet av brukeren. Spesielt fordelaktig viser det seg å være at en anvendelse av et semantisk nett også muliggjør en hierarki ser ing, og at koblingen av begrepene (nodene) via kantene er mer omfattende enn en bruk av predikater som OG eller ELLER, hvilket ikke er mulig med en vanlig SQL-formu-lering.

Til forskjell fra fremgangsmåten som beskrives i "Searching Intranet Using Knowledge Representation", blir det ifølge oppfinnelsen ikke bare lagret søkebegreper i strukturert form og bare tilbudt en generalisering og spesialisering, men det blir ved hjelp av kunnskapsrepresentasjon som eksempelvis et semantisk nettverk, beskrevet saksforhold fra realiteten (eksempelvis at en VW Golf er en personbil). Disse uttrykk blir deretter forbundet med søkestrenger, hvilket åpner for muligheten til å også reflektere problemet at golf også kan være en sport. En viktig videreutvikling består også i at det til forskjell fra det kjente system, ikke bare er mulig med spørsmål om enkelte for spesia-liserende og generaliserende begreper, men at det ved kombinasjon av noder er mulig med en kompleks spørring (eksempelvis rapporter om Golf og airbag).

En ytterligere forskjell består i at det i teknikkens stand bare er kjent funksjonelt typiserte kanter (generalisering, spesialisering, synonym), mens det ifølge oppfinnelsen brukes betydningsholdige kanter. En ytterligere forskjell fra teknikkens stand, hvor et nettverk kun pleies av én admi-nistrator, er at det ifølge oppfinnelsen tilveiebringes brukerinteraksjoner for en lærende videreutvikling av nettet .

I en ytterligere spesielt foretrukken utførelse av oppfinnelsen utføres ifølge krav 9 for tekstdokumenter som ble funnet frem i sammenheng med et søk etter et søkebegrep som angis ved hjelp av minst én node (søkenode) i det semantiske nett, en sammenligning av tekstinnholdet med søke-begreper som foreligger i nabonoder til søkenoden, og ved en overensstemmelse mellom tekstinnholdet i et tekstdokument med et søkebegrep i en nabonode, opprettes en fil som er tilordnet tekstdokumentet, og en kortbetegnelse for noden som inneholder søkebegrepet, tas med i filen som opp-lysning om innholdet i tekstdokumentet. Den automatiske oppretting av innholdsfortegnelser for tekstdokumenter baserer seg dermed ifølge oppfinnelsen på anvendelse av et semantisk nett som er satt sammen av noder og kanter i hvilke det er lagret søkeformuleringer (søkestrenger). Nodene og kantene som utgjør søkebyggklosser, danner dermed en semantisk betydningsfull struktur hvis innhold legges til grunn for et søk i tekstdokumenter. Disse tekstdokumenter finnes frem i sammenheng med et vilkårlig utformet søk som gjennomføres på grunnlag av minst ett søkebegrep som oppgis ved hjelp av en node (søkenode) av det semantiske nett. Herved kan det dreie seg om f.eks. et heltekstsøk. Tekstinnholdet i hvert av tekstdokumentene som finnes frem i løpet av dette søk, sammenlignes deretter med søkebegre-per som foreligger i noder i nærheten av søkenoden. Hvis tekstinnholdet i et tekstdokument stemmer overens med et søkebegrep i en nærliggende node, opprettes i henhold til oppfinnelsen en fil som er tilordnet tekstdokumentet og i hvilken det skrives en kortbenevnelse for noden som inneholder noden, som kort innholdsbeskrivelse for tekstdokumentet. Nodene og kantene som utgjør søkebyggeklossene, kan forfines av brukeren i løpet av søkene slik at nettet vide-reutvikles ved bruk. Nettverkets beskrevne evne til videreutvikling bevirker også en økende kvalitet av innholdsangivelsene, fordi også fjerntliggende noder kan være gjenstand for et søkespørsmål.

Ved utforming av fremgangsmåten ifølge oppfinnelsen foreslås en fremgangsmåte for automatisert sammenstilling av innholdsangivelser for tekstdokumenter med trekkene som oppgis i krav 10. For en videre løsing av oppgaven som ligger til grunn for oppfinnelsen, foreslås en fremgangsmåte ved automatisert sammenstilling av innholdsangivelser for tekstdokumenter ved hjelp av et databehandlingssystem ifølge oppfinnelsen med trekkene som oppgis i krav 10. Fremgangsmåten ifølge oppfinnelsen omfatter de følgende trinn: gjennomføring av et søk i den minst ene database etter minst ett søkebegrep som oppgis ved hjelp av en node (søkenode) av det semantiske nett, og oppsporing av

tekstdokumenter som inneholder søkebegrepet; sammenligning av tekstinnholdet i hvert oppsporede tekstdokument med søkebegrepene som foreligger i noder i nærheten av søkenoden;

ved overensstemmelse mellom tekstinnholdet i et tekstdokument og et søkebegrep i en nærliggende node, opprettelse av en fil som er tilordnet tekstdokumentet og i hvilken det skrives en kortbenevnelse for noden som inneholder søkebegrepet, som innholdsangivelse for tekstdokumentet.

Med fordel skrives i filen for innholdsangivelse for tekstdokumentet en kortbenevnelse for kanten(e) som forbinder søkenoden og den nærliggende node. Ved hjelp av denne sup-plerende oppstilling av innholdsangivelsen ut fra en kortbenevnelse for noden som tilsvarer en begrepsbetydning som gjengir søkestrengen som er plassert i noden, samt en kortbenevnelse for den eller de forbindende kanter, som utgjør en semantisk betydningsfull forbindelse mellom begrepsbetydningen i søkenoden og begrepsbetydningen i den nærliggende node, erholdes en innholdsangivelse som utgjør et semantisk utsagn og som dermed duger til en semantisk feil-fri kortbeskrivelse av det tilordnede tekstdokument.

For å erholde en rangordning av de funnede tekstdokumenter basert på deres relevans, utføres det i en fordelaktig utforming av oppfinnelsen en hierarkisering av innholdsangivelsene i tekstinnholdet for hvert tekstdokument avhengig av avstanden mellom søkebegrepene i søkenoden og den nærliggende node. Ifølge oppfinnelsen gjennomføres dermed et kombinert søk etter tekststrenger således at søkebe-grepene i søkenoden og den nærliggende node undersøkes for hvorvidt de ligger nær hverandre i tekstdokumentet, og at resultatet av dette søk brukes for oppstilling av en rangordning (ranking) av de oppgitte innholdsangivelser, hvor nærliggende begreper fortrinnsvis får en høyere rang i rangordningen enn begreper som ligger lengre fra hverandre.

I en videre utforming av oppfinnelsen er nodene som ligger nær søkenoden, direkte nabonoder. Fortrinnsvis omfatter nodene som ligger nær søkenoden, også nabonoder av direkte nabonoder, slik at det muliggjøres en mer kompleks, dvs. mer detaljert, innholdsangivelse.

I en spesielt foretrukken utførelse kan minst to nærliggende noder sammenfattes til et delnett slik at det kan søkes etter et fullstendig utsagn som er gitt av delnettet, bestående av minst to noder og kanten(e) som forbinder nodene, i et tekstdokument.

Videre kreves beskyttelse for et dataprogram med programkode som er egnet til å gjennomføre en fremgangsmåte ifølge oppfinnelsen når det kjøres på en datamaskin. I én utfø-relse er dataprogrammet lagret på et maskinlesbart medium.

Det vil forstås at de ovennevnte egenskaper og egenskapene som skal beskrives i det følgende, ikke bare kan brukes i den aktuelle nevnte kombinasjon, men også i andre kombina-sjoner eller hver for seg, uten å forlate rammen for foreliggende oppfinnelse.

Oppfinnelsen skal i det følgende beskrives nærmere under henvisning til tegningene og ved hjelp av utførelseseksemp-ler. Fig. 1 viser skjematisk et semantisk nett sammensatt av søkebyggeklosser, for et databehandlingssystem ifølge oppfinnelsen. Fig. 2 viser et første eksempel på en søkeanvisning satt

sammen av søkebyggeklossene på fig. 1.

Fig. 3 viser et andre eksempel på en søkeanvisning satt

sammen av søkebyggeklossene på fig. 1.

Fig. 4 viser et ytterligere semantisk nett for å illustrere fremgangsmåten ifølge oppfinnelsen ved automatisert sammenstilling av innholdsangivelser for tekstdokumenter. Fig. 5 viser det semantiske nett fra fig. 4 med en utvidelse . Fig. 1 viser et semantisk nett for et databehandlingssystem ifølge oppfinnelsen som er satt sammen av et flertall søke-byggeklosser. Søkebyggeklossene danner her nodene, som vises med ovale omriss, og kantene av det semantiske nett, som forbinder nodene med hverandre. Det semantiske nett som vises på fig. 1, omfatter tre hovednoder "databaser", "programmeringsspråk" og "ytelseskarakteristika". Til hvert av disse hovednoder er det tilordnet to delnoder, som hver utgjør et barn av hovednoden og som dermed også inneholder egenskapene av hovednoden (arving). Ved siden av hver node oppgis dens innhold (TEMA), dvs. f.eks. "SPRÅK" som innhold i noden "programmeringsspråk" og "COBOL ELLER PL/l ELLER APL" som innhold i delnoden "klassiske (programmeringsspråk) ". Ifølge oppfinnelsen inneholder søkebyggeklossene som danner nodene av det semantiske nett, dermed søkeanvis-ninger som kan kombineres med søkeanvisninger av andre noder.

Kombinasjonen av de enkelte søkeanvisninger i nodene utfø-res i henhold til koblingsanvisninger som er lagret i kantene som forbinder nodene. Slik det fremgår fra fig. 1, er de enkelte noder forbundet med hverandre via kanter, vist ved hjelp av piler. Disse kantene dannes også av søkebygge-klosser som inneholder koblingsanvisninger. Slik innholder f.eks. kanten "har ytelseskarakteristika" mellom noden "databaser" og noden "ytelseskarakteristika" koblingsanvisningen OG. Kantene mellom hovednodene og delnodene inneholder hver arveinformasjonen BARN AV.

Det semantiske nett som vises på fig. 1 som grunnlag for sammensetning av en kompleks søkeanvisning, kan vises til brukeren via en bildeskjerm av databehandlingssystemet enten i den viste forgreningsstruktur (hierarkisk fremvisning) uten de detaljerte angivelser av innholdet i nodene og kantene, eller i en tabellarisk fremvisning av følgende type:

Programmeringsspråk

klassiske

objektorienterte

Databaser

relasjonelle

objektorienterte

Ytelseskarakteristika

Ytelse

Sikkerhet

Fra visningen kan brukeren sette sammen en individuell søkeanvisning ved valg av enkelte stikkord (noder), f.eks. ved klikking med musepekeren. Fig. 2 viser som første eksempel en søkeanvisning som sam-menstilles i det semantiske nett på fig. 1 ved å velge nodene "databaser", "relasjonelle" og "ytelse". Venstre side av fig. 2 viser de valgte noder og kanten som inneholder koblingsanvisningen, som fører til søkeanvisningen vist til høyre for pilen på fig. 2. Det spesielle ved dette eksempel ligger i at hovednoden "ytelseskarakteristika" ikke har noe eget innhold, men peker direkte videre til delnodene "ytelse" hhv. "sikkerhet". Fig. 3 viser et ytterligere eksempel på en søkeanvisning satt sammen av noder og kanter av det semantiske nett på fig. 1. Hvis brukeren velger nodene "programmeringsspråk", "objektorienterte" og "databaser", "relasjonelle", finner det sted en kobling på grunnlag av nodene vist til venstre på fig. 3 og kanten "aksesserer", hvilket fører til den relativt komplekse søkeanvisning som vises til høyre på fig. 3.

Slik det fremgår fra disse eksempler, kan det ifølge oppfinnelsen settes sammen relativt omfangrike og komplekse søkeanvisninger ved enkelt valg av søkebyggeklosser i visningen av databehandlingssystemet ifølge oppfinnelsen, hvor det i det semantiske nett som vises i eksemplet, dreier seg om en meget enkel struktur som tjener til å illustrere prinsippet som ligger til grunn for oppfinnelsen. I praksis vil meget omfangsrikere semantiske nett komme til å brukes, som tillater en sammenstilling av betydelig mer komplekse søkeanvisninger.

Oppfinnelsen gir også mulighet til å "lagre" en søkeanvis-ning som er blitt satt sammen én gang, f.eks. den som vises på fig. 3, dvs. at kombinasjonen av valgte søkebyggeklosser kan lagres og hentes opp igjen ved behov for å utføre søket på nytt. På fordelaktig måte vil dette gjentatte søk utfø-res automatisk av søkemotoren i et tidsintervall som oppgis av brukeren. Dette gjør det mulig å søke etter bestemte dokumenter i en bestemt database f.eks. én gang ukentlig, slik at brukeren regelmessig blir informert over aktuelle endringer i det område av databasen som interesserer ham.

For en videreutvikling av det semantiske nett er det ifølge oppfinnelsen med fordel tilveiebrakt brukerinteraksjons-programmer som utvider det lagrede semantiske nett utgående fra en brukers søkevirksomhet. Når en bruker legger inn en ny søkeformulering, gjennomfører brukerinteraksjonsprosessen en avstemning med de tidligere lagrede noder av det semantiske nett. Hvis man under henvisning til fig. 1 f.eks. gir inn søkeformuleringen "relasjonelle databaser NÆR IBM", vil det semantiske nett bli gjennomsøkt etter allerede eksisterende noder for de to delformuleringer "relasjonelle databaser" og "IBM" som danner den innlagte søkeformulering. Hvis disse noder allerede eksisterer, nem-lig nodene "relasjonelle databaser" som delnode av "databaser" og "IBM" som delnode av "EDB-leverandører", spør databehandlingssystemet etter den semantiske betydning av operatøren NÆR og oppretter en kant "er leverandør av" mellom nodene "EDB-leverandører" og "databaser". I eksemplet på et semantisk nettverk som * vises på fig. 1, finnes det imidlertid ikke noen node "EDB-leverandører" i det semantiske nettverk, slik at det før den nevnte opprettelse av den nye kant "er leverandør av", først må opprettes en node "EDB-leverandører" med delnode "IBM".

I praksis kunne en slik brukerinteraksjonsprosess implemen-teres som følger. Først oppfordres sluttbrukeren til å optimere de brukte søkeformuleringer for å forbedre koblingen mellom semantikken av noder og kanter (node- og kan-tenavn) og fulltekstdokumenter. Deretter integreres nye søkebegreper som nye noder i søkenettet, og deretter oppar-beides den statistiske hyppighet for felles bruk av noder som ikke enda er forbundet via en kant, og ut fra dette avledes en innføring av en kant, hvoretter det utføres en sammenligning av en innlagt søkeformulering med den lagrede node av det semantiske nett og en lagring av den innlagte søkeformulering i det semantiske nett under hensyntagen til den semantiske betydning, såfremt det med den innlagte søkeformulering dreier seg om en ny søkeformulering.

På grunnlag av de semantiske nett som vises på fig. 4 og 5, skal nå fremgangsmåten ifølge oppfinnelsen for en automatisk opprettelse av innholdsangivelser av tekstdokumenter beskrives.

Fig. 4 viser et enkelt semantisk nett med fire noder og tre kanter. Den sentralt plasserte node i det semantiske nett på fig. 4 har begrepsinnholdet "sikkerhet", de tre noder

som omgir den sentralt plasserte node, har begrepsinnholdet "teknisk løsning", "kjente farer" og "tilgangssperre". Kantene som forbinder den sentrale node "sikkerhet" med de tre omliggende noder, utgjør en OG-forbindelse, slik at det

foreligger de semantiske betydninger "sikkerhet ved teknisk løsning", "sikkerhetsrisiko ved kjente farer" og "sikkerhet/sikring ved tilgangssperre" som fremgår av fig. 4.

Det semantiske nett som vises på fig. 4, har dermed den følgende utsagn: Sikkerheten (med hensyn til sikkerheten av et databehandlingssystem mot eksterne angrep) med hensyn til tap, endring eller utspionering av data garanteres ved en teknisk løsning (f.eks. spesielle programmer "patches" fra produsenten av et system). Sikkerheten er gjenstand for fare fra kjente farer så som f.eks. virus eller andre angrep, og sikkerhet oppnås ved hjelp av tilgangssperrer, så som f.eks. brannvegger.

Her kan nodene defineres ved hjelp av de følgende søke-strenger :

Tilgangssperre: {Brannveg*}

Teknisk løsning: {Patc<*> ELLER (oppdatering NÆR sikkerhets<*>) ELLER bugfix}

Kjent fare: {Henge seg op<*> ELLER stan<*> ELLER beskyttel-sesta<*>}

Noden "sikkerhet" kan være en valgfritt definert node som var grunnlag for et søk og hvis resultat nå foreligger som dokumentsamling. Kantene skal som nevnt ha betydningen at de forbinder nodene via 06.

I søket fant man de følgende tre dokumenter:

Dokument 1:

Tittel: Virus meldt

Innhold: Det er funnet et nytt virus som stanser hver Windows NT-PC.

Dokument 2:

Tittel: Produsent reagerer

Innhold: For viruset som fører til et beskyttelsestap under Windows NT, har produsenten gitt ut en bugfix.

Dokument 3:

Tittel: Fremgangsmåter ved sikkerhetsadministrasjon Innhold: Brannvegger garanterer for sikkerheten mot inn-brudd over nettet.

Ved hjelp av fremgangsmåten ifølge oppfinnelsen kan det nå genereres en innholdsangivelse idet de tre fremfunnede dokumenter testes mot nodene som ligger nær søkenoden "sikkerhet" og som utgjør noder i nærheten av søkenoden. Hvis søkestrengene finner passende tekster i nodene, brukes kanten og noden som innholdsbeskrivelse. Denne fremgangsmåte ifølge oppfinnelsen fører for de tre ovenfor beskrevne, fremfunnede dokumenter til det følgende resultat:

Dokument 1:

Tittel: Virus meldt

Kort innholdsangivelse:

Risiko ved kjent fare

Dokument 2:

Tittel: Produsent reagerer

Kort innholdsangivelse:

Risiko ved kjent fare, sikkerhet ved teknisk løsning Dokument 3:

Tittel: Fremgangsmåter ved sikkerhetsadministrasjon

Kort innholdsangivelse:

Sikring ved tilgangssperre

Fremgangsmåten ifølge oppfinnelsen kan utvides idet noder av et betraktet delnett sammenfattes til utsagn, og det søkes etter den fullstendige utsagn i et fremfunnet dokument. For dette formål utvides det semantiske nett på fig. 4 tilsvarende hva som vises på fig. 5, idet noden "kjente farer" forbindes med en ytterligere node "virus" (som inneholder søkestrengen "viru<*>") via en OG-kant. Herved sammenfattes altså nodene "virus" og "kjent fare" til et utsagn, hvilket vises på fig. 5 ved hjelp av en stiplet ramme.

For det ovenfor beskrevne resultatdokument 2 får man dermed følgende innholdsangivelse:

Dokument 2:

Tittel: Produsent reagerer

Innholdsangivelse:

Risiko ved fare for virus, sikkerhet ved teknisk løsning Videre er det ifølge oppfinnelsen mulig at søkebegrepene av noden og noder som ligger nær noden, undersøkes for sin nærhet i dokumentet og at resultatet av denne undersøkelse brukes for en ranking, dvs. for sammenstilling av en rangordning eller hierarki, av de angitte innholdsangivelser. Derved erholder begreper som står nær hverandre, et høyere rangtall enn begreper som ligger lenger unna hverandre.

Hvis et funnet dokument f.eks. inneholder begrepene "database" , "nettverk", "ytelse" og "driftssikring", hvis tilsvarende noder står i et "nettverk", og hvis begrepene "database" og "nettverk" er forbundet med begrepene "ytelse" og "driftssikkerhet" via kanter, gir dette en innholdsangivelse av den følgende form:

I denne innholdsangivelse er rekkefølgen av utsagnene bestemt tilfeldig. Hvis imidlertid begrepet "database" opp-trer i nærheten av "ytelse" i det fremfunnede dokument og begrepet "nettverk" står meget nær begrepet "driftssikkerhet", kan det settes sammen en rangordning av innholdsangivelsene avhengig av denne funnede nærhet av begrepene, som da f.eks. kan se ut som følger:

slik at rekkefølgen av innholdsangivelsene gjenspeiler relevansen av utsagnet i det fremfunnede dokument.

Databehandlingssystemet ifølge oppfinnelsen og fremgangsmåten ifølge oppfinnelsen for automatisert sammenstilling av innholdsangivelser er selvsagt ikke begrenset til de beskrevne utførelseseksempler. Tvert imot er de på grunn av bruken av et semantisk nett, egnet til anvendelse i komplekse sammenhenger, hvor det bør understrekes at kantene som forbinder nodene, ikke er begrenset til vanlige enkle OG- eller ELLER-forbindelser, men også selv kan oppvise semantiske utsagn, slik det tydeliggjøres på tegningene med "navnene" som er tilordnet kantene.

Med begrepet semantisk nett menes i foreliggende patent-beskrivelse hvilken som helst semantiske struktur, som kan representeres som nett eller som "rammer" eller andre egnede strukturer.

Claims

1. Databehandlingssystem med minst én brukerenhet, en lagerenhet, en tilkobling til minst én, spesielt ekstern, elektronisk database og med en søkemotor for gjennomføring av datasøk i minst én database, karakterisert ved at et flertall søke-formuleringer for søkemotoren lagres som søkebyggeklosser som danner noder og kanter av et semantisk nett og som kan settes sammen til en vilkårlig utformbar kompleks søke-anvisning for gjennomføring av et datasøk, og at søkebygge-klossene som danner nodene av det semantiske nett, inneholder søkeanvisninger, og at søkebyggeklossene som danner kantene av det semantiske nett, inneholder koblingsanvisninger .

2. Databehandlingssystem ifølge krav 1, hvor det finner sted en fremvisning av de flere søkeformuleringer som tre-struktur på en fremvisningsenhet av brukerenheten.

3. Databehandlingssystem ifølge krav 1, hvor det utføres en fremvisning av de flere søkeformuleringer i tabellarisk form på en fremvisningsenhet av brukerenheten.

4. Databehandlingssystem ifølge et av kravene 1 til 3, hvor en søkeanvisning som en bruker har satt sammen av søkebyggeklosser, kan lagres.

5. Databehandlingssystem ifølge et av kravene 1 til 4, hvor det i tidsintervaller som kan bestemmes av brukeren, utføres en automatisk gjennomføring av den lagrede søke-anvisning .

6. Databehandlingssystem ifølge et av kravene 1 til 5, hvor brukerinteraksjonsprosessene benyttes for en videreutvikling av det semantiske nett på grunnlag av en brukers søkevirksomhet.

7. Databehandlingssystem ifølge krav 6, som etter innlegging av en søkeformulering, sammenligner den innlagte søke-formulering med de lagrede noder av det semantiske nett, og hvor det finner sted en lagring av den innlagte søkeformu-lering i det semantiske nett under hensyntagen til den semantiske betydning, såfremt det med den innlagte søke-formulering dreier seg om en ny søkeformulering.

8. Databehandlingssystem ifølge et av kravene 1 til 7, karakterisert ved at det for tekstdokumenter som finnes frem i sammenheng med et søk etter minst ett søkebegrep som defineres ved hjelp av en node (søkenode) av det semantiske nett, utføres en sammenligning av tekstinnholdet med søkebegreper som foreligger i noder som ligger nær søkenoden, og at det ved overensstemmelse mellom tekstinnholdet i et tekstdokument med søkebegrepet i en nabonode, opprettes en fil som er tilordnet tekstdokumentet, og at en kortbetegnelse for noden som inneholder søke-begrepet, innføres i filen som innholdsangivelse for tekstdokumentet .

9. Fremgangsmåte ved gjennomføring av et datasøk ved hjelp av et databehandlingssystem som er tilkoblet minst én, spesielt ekstern, elektronisk database med tekstdokumenter og som oppviser en søkemotor for gjennomføring av datasøk i den minst ene database, karakterisert ved at søkeformuleringer lagres for søkemotoren som søkebyggeklosser som utgjør noder og kanter av et semantisk nett og som kan settes sammen til en vilkårlig utformbar kompleks søkeanvisning for gjennomføring av et datasøk, og at søkebyggeklossene som utgjør nodene av det semantiske nett, inneholder søkeanvis-ninger, og at søkebyggeklossene som utgjør kantene av det semantiske nett, inneholder koblingsanvisninger.

10. Fremgangsmåte ifølge krav 9, hvor det for en automatisert sammenstilling av innholdsangivelser for tekstdokumenter gjennomføres de følgende trinn: gjennomføring av et søk i den minst ene database etter minst ett søkebegrep som defineres ved en node (søkenode) av det semantiske nett, og fremfinning av tekstdokumenter som inneholder søkebegrepet; sammenligning av tekstinnholdet i hvert fremfunnede tekstdokument med søkebegreper som foreligger i noder i nærheten av søkenoden; ved overensstemmelse mellom tekstinnholdet i et tekstdokument og minst ett søkebegrep i en nærliggende node, opprettelse av en fil som er tilordnet tekstdokumentet og i hvilken det skrives en kortbetegnelse for den minst ene node som inneholder søkebegrepet eller søkebegrepene, som innholdsangivelse for tekstdokumentet.

11. Fremgangsmåte ifølge krav 10, karakterisert ved at det i filen skrives en kortbetegnelse for kanten(e) som forbinder søkenoden og den nærliggende node, som innholdsangivelse for tekstdokumentet .

12. Fremgangsmåte ifølge krav 10 eller 11, karakterisert ved at det utføres en hierarkisering av tekstdokumentene avhengig av avstanden mellom søkebegrepene i søkenoden og i den nærliggende node i tekstinnholdet for hvert tekstdokument.

13. Fremgangsmåte ifølge et av kravene 10 til 12, karakterisert ved at noder som er nærliggende søkenoden, er direkte nabonoder.

14. Fremgangsmåte ifølge et av kravene 10 til 13, karakterisert ved at noder som er nær søkenoden, omfatter nabonoder til direkte nabonoder.

15. Fremgangsmåte ifølge et av kravene 10 til 14, karakterisert ved at minst to nærliggende noder kan sammenfattes til et delnett.

16. Fremgangsmåte ifølge et av kravene 10 til 15, karakterisert ved at en kombinasjon av søkenoder og nærliggende noder kan velges fritt av brukeren .

17. Dataprogram med programkode som er egnet til å utføre en fremgangsmåte ifølge et av kravene 1 til 16 når det kjø-res på en datamaskin.

18. Dataprogram ifølge krav 17 som er lagret på et maskinlesbart medium.