NO314157B1 - Dataprosesseringssystem og -fremgangsmåte for automatisk generering av et sammendrag til et tekstdokument - Google Patents

Dataprosesseringssystem og -fremgangsmåte for automatisk generering av et sammendrag til et tekstdokument Download PDF

Info

Publication number
NO314157B1
NO314157B1 NO20004622A NO20004622A NO314157B1 NO 314157 B1 NO314157 B1 NO 314157B1 NO 20004622 A NO20004622 A NO 20004622A NO 20004622 A NO20004622 A NO 20004622A NO 314157 B1 NO314157 B1 NO 314157B1
Authority
NO
Norway
Prior art keywords
search
nodes
node
text
processing system
Prior art date
Application number
NO20004622A
Other languages
English (en)
Other versions
NO20004622D0 (no
NO20004622L (no
Inventor
Harald Huber
Reinhard Fischer
Uwe Mueller
Original Assignee
Usu Softwarehaus Unternehmensb
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Usu Softwarehaus Unternehmensb filed Critical Usu Softwarehaus Unternehmensb
Publication of NO20004622D0 publication Critical patent/NO20004622D0/no
Publication of NO20004622L publication Critical patent/NO20004622L/no
Publication of NO314157B1 publication Critical patent/NO314157B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Description

Foreliggende oppfinnelse vedrører et databehandlingssystem for gjennomføring av datasøk i en, spesielt ekstern, elektronisk database, samt en fremgangsmåte for automatisert oppstilling av innholdsangivelser for tekstdokumenter ved hjelp av et slikt databehandlingssystem.
Datasøk i elektroniske medier (eksempelvis Internett) baserer seg i dag i vesentlig grad på et katalogbasert søk, det vil si en inndeling av dokumentene som skal gjennomsøkes, basert på fastlagte kategorier eller informasjonsleveran-dører, eller på et fulltekstsøk, hvor det søkes etter ønskede stikkord eller stikkordskombinasjoner. Med stikkordsøk er det også mulig å søke etter komplekse saksforhold og finne riktig dokument med høy sannsynlighet, hvis fremstil-lingens art, det brukte vokabular så vel som de vanlige uttrykk er kjente. Det er derimot vanskelig å organisere de kjente søkemetoder slik at de kan brukes på nytt, da de spesielt ved omfattende og komplekse søkeanvisninger er veldig spesialiserte og følgelig ikke er allment brukbare, eksempelvis av andre brukere av databehandlingssystemet som benyttes til søket. Dette fører til at hver bruker stiller opp sin egen søkeanvisning for ett bestemt tilfelle, men at denne søksanvisning senere går "tapt", da den enten er tri-viell eller for kompleks for andre brukere og eventuelt er vanskelig å forstå.
Ettersom angivelsen av søkeanvisninger spesielt ved katalogbasert søk forutsetter visse grunnkjennskaper og noe øvelse, er mange personer som ønsker et søk og som i grun-nen er øvet i omgangen med databehandlingssystem, allikevel avhengige av hjelp fra en fagkyndig person. I tillegg blir datasøk vanskeligere ved at bestemte gjenstander og saksforhold ofte blir betegnet med forskjellige begreper i lit-teraturen, slik at mulige alternative betegnelser for begrepet som det skal søkes etter, må være kjent ved angivelse av søkeformuleringen for å kunne tas hensyn til. Dette er spesielt tilfellet med bedriftsspesifikke begreper, ettersom flere bedrifter benytter sin egen termino-logi. Denne effekt blir videre forsterket når søket skal strekkes til fremmedspråklige databaser. Dette lar seg anskueliggjøre ved det følgende eksempel: en person søker etter noe om temaet "knowledge management". For å kunne gjennomføre et virkelig omfattende søk, bør også søkebegre-pet "business intelligence" tas med, ettersom området "knowledge management" ofte også betegnes med dette begrepet. Imidlertid omfatter begrepet "business intelligence" også områdene "executive information", "data mining" eller "statistisk korrelasjonsanalyse", som imidlertid ikke er av interesse under søket. Dette fører allerede til en søke-streng med den følgende form: ('knowledge management' ELLER 'business intelligence') 06 IKKE ('executive information' ELLER 'data mining' ELLER 'stastisti<*> korrelasjon<*1>).
Sammenstillingen av et søk kan følgelig bli veldig tids-krevende, eller kan i visse tilfeller til og med bli til en langvarig begivenhet når søkeresultatet er for omfangsrikt og den søkende person ikke er kjent med de nødvendige fag-uttrykk for en videre innskrenkning og han først må inn-hente slik fagkunnskap fra andre personer.
Videre forsøk på å fremme en brukers søk i en fulltekst-database er kjent. En oversikt finnes i "Knowledge Augmen-ted Intranet Search" (http://poster.www6conf.org/pos-ter/727/index.htm). Fremgangsmåtene som vises der, beskri-ver i det vesentlige teknologier for supplementering og utvidelse av søkestrengen. Dette tilsvarer det empirisk bestemte faktum at de fleste brukere bare søker etter ett stikkord i et fulltekstsøk. Fra "Searening Intranet Using Knowledge Representation - Experiences with the Search Enhancer" (finnes på http://w3.Informatik.gu.se/sdixi/publ-/snet.htm) er det kjent et system med hvilket de enkelte søkestrenger eller søkebegreper blir lagret i et generali-serings- og spesialiseringsnettverk.
Fra TJS-PS 5.297.039 er det kjent et system med hvis hjelp tekster gjennomsøkes og det på grunnlag av fastslåtte over-ensstemmelser mellom stikkord settes opp sammendrag av tekstene i form av et analysenett. Analysenettene er tabellformede anordninger som inneholder begreper og deres forhold. De gjennomsøkte tekster og tilhørende stikkord-lister lagres i en tilsvarende database. Innlegging av søk utføres i form av analysenett hvorfra det trekkes ut set-ninger av stikkord og deres forhold.
Fra WO 92/16903 Al er det kjent et databaseforvaltnings-system hvor elementene som utgjør søkeanvisningen, vises i grafisk form for et søk i en relasjonell database.
Fra US-PS 5.721.900 er det kjent et databehandlingssystem med minst én brukerenhet, en lagerenhet, en tilkobling til minst én, spesielt ekstern, elektronisk database og med en søkemotor for gjennomføring av datasøk i den minst ene database, hvilket system tjener til en grafisk visning av søk (queries). Det kjente databehandlingssystem hjelper en bruker med mindre erfaring med å formulere søkeanvisninger i SQL (Structured Query Language - strukturert spørrespråk) for søk i relasjonelle databaser ved hjelp av en temporær grafisk opparbeidelse av en SQL-søkeformulering ved sammensetning av objekter via predikater (Boole-ske operatører). Dette betyr at brukeren ved sammenstilling av en søkefore-spørsel på grunnlag av mønsterformuleringer og de definerte predikater, får presentert et grafisk opparbeidet utvalg av søkebegreper, og at søket som han formulerer, vises grafisk (oversiktlig).
For søkeren oppstår også problemet at han bare kan oppgi sin såkalte søkeinteresse relativt allment, for eksempelvis også å kunne finne tekstdokumenter med relevant innhold som omfatter avvikende fagterminologi. Ved gjennomføring av et relativt allment formulert søk blir det imidlertid også funnet dokumenter hvis innhold ikke treffer den egentlige søkeinteresse. Derfor er det for søkeren nødvendig å i det minste raskt hente frem tekstdokumentene (resultatdokumen-tene) som søkemotoren oppgir å ha funnet, og å undersøke deres tematikk. Av denne grunn har det allerede lenge blitt gjort forsøk på å tilveiebringe en automatisk sammenstilling av innholdsbeskrivelser eller i det minste korte innholdsangivelser, slik at det etter et gjennomført søk i en database ikke lenger er nødvendig å lese gjennom hhv. over på de funnede tekstdokumenter. Kjente fremgangsmåter som sikter til dette, baserer seg på en gjenkjenning av heuris-tiske eller lingvistiske mønstre som kan identifiseres i en gitt tekst på grunnlag av den typiske språkbruk.
Ut fra teknikkens stand har oppfinnelsen den oppgave å tilveiebringe et databehandlingssystem av den ovenfor nevnte type, som muliggjør en enkel sammenstilling også av komplekse søkeanvisninger samt gjentatt bruk derav. Videre har oppfinnelsen den oppgave å ytterligere forbedre en fremgangsmåte for automatisert sammenstilling av innholdsfortegnelser (sammendrag) av tekstdokumenter.
For å løse denne oppgave foreslås et databehandlingssystem med karakteristikken i krav 1 samt en fremgangsmåte med karakteristikken i krav 9. I henhold til dette er det ifølge oppfinnelsen lagret en rekke søkeformuleringer for søkemotoren i form av byggeklosser som danner noder og kanter av et semantisk nett, hvilke søkebyggeklosser kan settes sammen til en vilkårlig utformbar kompleks søkeanvis-ning for å gjennomføre et datasøk, hvorved nettverket kan benyttes til å lagre søkstrategier. Derved er nodene definert ved hjelp av et nodenavn som gir dem et semantisk utsagn, og av en tilsvarende søkestreng. Kantene har likeledes en betegnelse (én i hver retning) og en koblings-anvisning (i enkleste tilfelle logisk OG eller logisk ELLER). Dermed får hver bruker muligheten til, ved å sette sammen søkebyggeklosser som danner en semantisk struktur, å angi en individuell søkeanvisning for gjennomføring av et datasøk, uten at han trenger å ha videregående kjennskap til vokabularet eller mekanismene som ligger til grunn for søket. Likeledes gjør systemet ifølge oppfinnelsen det mulig for en bruker med høy søke-"know-how" å gi denne viten videre til andre brukere og dermed samle individuelle søkestrategier i nettverket. Ifølge oppfinnelsen blir dermed forskjellige søkeformuleringer som er rettet mot enkeltsøk, oppfattet som node og/eller kant av et semantisk utsagn og brukt som parametriserte byggeklosser. Derigjennom åpnes det for muligheten til å benytte fordelt kunnskap sammen, det vil si at en søkende person kan gripe tilbake på fagbegrepskjennskap som han selv ikke har. En gang sam-menstilte søkeformuleringer (queries) må dermed ikke "nyoppfinnes" hver gang, men blir heller satt sammen én gang og deretter ifølge oppfinnelsen lagret som søkebygge-klosser som danner noder og kanter av et semantisk nett. Derigjennom blir det også mulig å gjenspeile fagterminologi som brukes utenfor den egne bedrift, i den egne termino-logi, slik at medarbeiderne i en bedrift ved bruk av databehandlingssystemet ifølge oppfinnelsen kan gjennomføre omfattende søk på grunnlag av fagbegreper som benyttes i den egne bedrift og som han er kjent med.
Ifølge oppfinnelsen inneholder nodene av søkebyggeklosser som danner det semantiske nett, søkeforespørsler, og søke-byggeklosser som danner kantene av det semantiske nett, inneholder koblingsanvisninger, hvorved spesielt nodene og kantene er identifisert med betydningsgivende navn. Ved lagring av søkeforespørslene (søkebetingelsene) i nodene, og av koblingsanvisningene (koblingsreglene) i kantene, av det semantiske nett, blir sammenstillingen av søkeanvis-ningene spesielt enkelt utformet, da det utover en enkel OG- eller ELLER-kobling også kan tilordnes kompliserte kob-linger, eksempelvis ved aksessering av forskjellige data-kilder i sammenheng med et søk. Ytterligere parametere for nettverksomgivelsen som er nødvendige i denne sammenheng, oppgis dermed ved hjelp av koblingsanvisningen som er lagret som kant av det semantiske nett.
En visning av mangfoldet av søkeformuleringer kan utføres i forskjellig form. Fortrinnsvis utføres denne visning i hierarkisk (tre-) struktur (hierarkitrær) og alternativt eller valgfritt i tabellarisk form på en fremvisningsenhet av brukerenheten. Dette forenkler for brukeren valget av de enkelte søkebyggeklosser ved sammenstilling av en søke-anvisning, hvorved valget og sammenstillingen med fordel utføres ved enkel markering av de ønskede søkebyggeklosser på skjermbildet.
I en ytterligere fordelaktig utforming av oppfinnelsen kan en søkeanvisning som brukeren har satt sammen av søkebygge-klosser, lagres, hvorved det blir mulig å benytte en søke-anvisning som en gang er satt sammen, flere ganger. Spesielt åpner dette for muligheten, slik det beskrives i krav 6, for å automatisk utføre en lagret søkeanvisning i tidsintervaller som kan bestemmes av brukeren. Dermed oppnås ifølge oppfinnelsen at det ut fra brukerinteraksjonen ved valg og gjennomføring av søkeformuleringene, finner sted en videreutvikling av søkeformuleringen og av nettets struktur på grunnlag av brukerens søkevirksomhet. Dette skjer eksempelvis ved fremvisning av de kombinerte søkeformule-ringer, hvorved endringer lagres av en bruker og stilles til rådighet for andre brukere.
Sammenstillingen av søkebyggeklossene som brukeren har valgt, utføres på grunnlag av den semantiske struktur som dannes av de enkelte søkebyggeklosser, hvor en anvisning for sammenstillingen bestemmes av den gjeldende øverste beskrevne kant av strukturen.
I en fordelaktig utførelse av oppfinnelsen tilveiebringes brukerinteraksjonsprosesser for en videreutvikling av det semantiske nettverk på grunnlag av en brukers søkevirksom-het. Slike brukerinteraksjonsprosesser tilveiebringes for å tilpasse inngitte søkeformuleringer til det bestående semantiske nettverk og innføre dem på egnet sted i nettet for å utvide det semantiske nettverk. Dermed oppnås ifølge oppfinnelsen en stadig utvidelse og forbedring av det semantiske nettverk, hvilket gjør bruk av databehandlingssystemet enklere for andre brukere.
Fordelaktig utføres brukerinteraksjonsprosessen ifølge krav 8 ved en sammenligning av en inngitt søkeformulering med de lagrede noder av det semantiske nett og en lagring av den inngitte søkeformulering i det semantiske nett under hensyntagen til den semantiske betydning, hvis det med den inngitte søkeformulering dreier seg om en ny søkeformule-ring.
Til forskjell fra spesielt teknikkens stand, som den er kjent fra US-PS 5.721.900, frembringer dermed oppfinnelsen en hjelp ved angivelse av søkespørsmål på grunnlag av et semantisk nett bestående av noder og kanter, som oppviser et menings- eller betydningsinnhold som går utover vanlige predikater/operatører. Nodene tilsvarer derved konsepter eller begreper fra realiteten, og kantene tilsvarer forhold (assosiasjoner) mellom disse begreper, hvorved de oppviser et semantisk utsagn. Nodene og kantene, dvs. bestanddelene av det semantiske nett, kan kombineres for søkespørsmålet av brukeren. Spesielt fordelaktig viser det seg å være at en anvendelse av et semantisk nett også muliggjør en hierarki ser ing, og at koblingen av begrepene (nodene) via kantene er mer omfattende enn en bruk av predikater som OG eller ELLER, hvilket ikke er mulig med en vanlig SQL-formu-lering.
Til forskjell fra fremgangsmåten som beskrives i "Searching Intranet Using Knowledge Representation", blir det ifølge oppfinnelsen ikke bare lagret søkebegreper i strukturert form og bare tilbudt en generalisering og spesialisering, men det blir ved hjelp av kunnskapsrepresentasjon som eksempelvis et semantisk nettverk, beskrevet saksforhold fra realiteten (eksempelvis at en VW Golf er en personbil). Disse uttrykk blir deretter forbundet med søkestrenger, hvilket åpner for muligheten til å også reflektere problemet at golf også kan være en sport. En viktig videreutvikling består også i at det til forskjell fra det kjente system, ikke bare er mulig med spørsmål om enkelte for spesia-liserende og generaliserende begreper, men at det ved kombinasjon av noder er mulig med en kompleks spørring (eksempelvis rapporter om Golf og airbag).
En ytterligere forskjell består i at det i teknikkens stand bare er kjent funksjonelt typiserte kanter (generalisering, spesialisering, synonym), mens det ifølge oppfinnelsen brukes betydningsholdige kanter. En ytterligere forskjell fra teknikkens stand, hvor et nettverk kun pleies av én admi-nistrator, er at det ifølge oppfinnelsen tilveiebringes brukerinteraksjoner for en lærende videreutvikling av nettet .
I en ytterligere spesielt foretrukken utførelse av oppfinnelsen utføres ifølge krav 9 for tekstdokumenter som ble funnet frem i sammenheng med et søk etter et søkebegrep som angis ved hjelp av minst én node (søkenode) i det semantiske nett, en sammenligning av tekstinnholdet med søke-begreper som foreligger i nabonoder til søkenoden, og ved en overensstemmelse mellom tekstinnholdet i et tekstdokument med et søkebegrep i en nabonode, opprettes en fil som er tilordnet tekstdokumentet, og en kortbetegnelse for noden som inneholder søkebegrepet, tas med i filen som opp-lysning om innholdet i tekstdokumentet. Den automatiske oppretting av innholdsfortegnelser for tekstdokumenter baserer seg dermed ifølge oppfinnelsen på anvendelse av et semantisk nett som er satt sammen av noder og kanter i hvilke det er lagret søkeformuleringer (søkestrenger). Nodene og kantene som utgjør søkebyggklosser, danner dermed en semantisk betydningsfull struktur hvis innhold legges til grunn for et søk i tekstdokumenter. Disse tekstdokumenter finnes frem i sammenheng med et vilkårlig utformet søk som gjennomføres på grunnlag av minst ett søkebegrep som oppgis ved hjelp av en node (søkenode) av det semantiske nett. Herved kan det dreie seg om f.eks. et heltekstsøk. Tekstinnholdet i hvert av tekstdokumentene som finnes frem i løpet av dette søk, sammenlignes deretter med søkebegre-per som foreligger i noder i nærheten av søkenoden. Hvis tekstinnholdet i et tekstdokument stemmer overens med et søkebegrep i en nærliggende node, opprettes i henhold til oppfinnelsen en fil som er tilordnet tekstdokumentet og i hvilken det skrives en kortbenevnelse for noden som inneholder noden, som kort innholdsbeskrivelse for tekstdokumentet. Nodene og kantene som utgjør søkebyggeklossene, kan forfines av brukeren i løpet av søkene slik at nettet vide-reutvikles ved bruk. Nettverkets beskrevne evne til videreutvikling bevirker også en økende kvalitet av innholdsangivelsene, fordi også fjerntliggende noder kan være gjenstand for et søkespørsmål.
Ved utforming av fremgangsmåten ifølge oppfinnelsen foreslås en fremgangsmåte for automatisert sammenstilling av innholdsangivelser for tekstdokumenter med trekkene som oppgis i krav 10. For en videre løsing av oppgaven som ligger til grunn for oppfinnelsen, foreslås en fremgangsmåte ved automatisert sammenstilling av innholdsangivelser for tekstdokumenter ved hjelp av et databehandlingssystem ifølge oppfinnelsen med trekkene som oppgis i krav 10. Fremgangsmåten ifølge oppfinnelsen omfatter de følgende trinn: gjennomføring av et søk i den minst ene database etter minst ett søkebegrep som oppgis ved hjelp av en node (søkenode) av det semantiske nett, og oppsporing av
tekstdokumenter som inneholder søkebegrepet; sammenligning av tekstinnholdet i hvert oppsporede tekstdokument med søkebegrepene som foreligger i noder i nærheten av søkenoden;
ved overensstemmelse mellom tekstinnholdet i et tekstdokument og et søkebegrep i en nærliggende node, opprettelse av en fil som er tilordnet tekstdokumentet og i hvilken det skrives en kortbenevnelse for noden som inneholder søkebegrepet, som innholdsangivelse for tekstdokumentet.
Med fordel skrives i filen for innholdsangivelse for tekstdokumentet en kortbenevnelse for kanten(e) som forbinder søkenoden og den nærliggende node. Ved hjelp av denne sup-plerende oppstilling av innholdsangivelsen ut fra en kortbenevnelse for noden som tilsvarer en begrepsbetydning som gjengir søkestrengen som er plassert i noden, samt en kortbenevnelse for den eller de forbindende kanter, som utgjør en semantisk betydningsfull forbindelse mellom begrepsbetydningen i søkenoden og begrepsbetydningen i den nærliggende node, erholdes en innholdsangivelse som utgjør et semantisk utsagn og som dermed duger til en semantisk feil-fri kortbeskrivelse av det tilordnede tekstdokument.
For å erholde en rangordning av de funnede tekstdokumenter basert på deres relevans, utføres det i en fordelaktig utforming av oppfinnelsen en hierarkisering av innholdsangivelsene i tekstinnholdet for hvert tekstdokument avhengig av avstanden mellom søkebegrepene i søkenoden og den nærliggende node. Ifølge oppfinnelsen gjennomføres dermed et kombinert søk etter tekststrenger således at søkebe-grepene i søkenoden og den nærliggende node undersøkes for hvorvidt de ligger nær hverandre i tekstdokumentet, og at resultatet av dette søk brukes for oppstilling av en rangordning (ranking) av de oppgitte innholdsangivelser, hvor nærliggende begreper fortrinnsvis får en høyere rang i rangordningen enn begreper som ligger lengre fra hverandre.
I en videre utforming av oppfinnelsen er nodene som ligger nær søkenoden, direkte nabonoder. Fortrinnsvis omfatter nodene som ligger nær søkenoden, også nabonoder av direkte nabonoder, slik at det muliggjøres en mer kompleks, dvs. mer detaljert, innholdsangivelse.
I en spesielt foretrukken utførelse kan minst to nærliggende noder sammenfattes til et delnett slik at det kan søkes etter et fullstendig utsagn som er gitt av delnettet, bestående av minst to noder og kanten(e) som forbinder nodene, i et tekstdokument.
Videre kreves beskyttelse for et dataprogram med programkode som er egnet til å gjennomføre en fremgangsmåte ifølge oppfinnelsen når det kjøres på en datamaskin. I én utfø-relse er dataprogrammet lagret på et maskinlesbart medium.
Det vil forstås at de ovennevnte egenskaper og egenskapene som skal beskrives i det følgende, ikke bare kan brukes i den aktuelle nevnte kombinasjon, men også i andre kombina-sjoner eller hver for seg, uten å forlate rammen for foreliggende oppfinnelse.
Oppfinnelsen skal i det følgende beskrives nærmere under henvisning til tegningene og ved hjelp av utførelseseksemp-ler. Fig. 1 viser skjematisk et semantisk nett sammensatt av søkebyggeklosser, for et databehandlingssystem ifølge oppfinnelsen. Fig. 2 viser et første eksempel på en søkeanvisning satt
sammen av søkebyggeklossene på fig. 1.
Fig. 3 viser et andre eksempel på en søkeanvisning satt
sammen av søkebyggeklossene på fig. 1.
Fig. 4 viser et ytterligere semantisk nett for å illustrere fremgangsmåten ifølge oppfinnelsen ved automatisert sammenstilling av innholdsangivelser for tekstdokumenter. Fig. 5 viser det semantiske nett fra fig. 4 med en utvidelse . Fig. 1 viser et semantisk nett for et databehandlingssystem ifølge oppfinnelsen som er satt sammen av et flertall søke-byggeklosser. Søkebyggeklossene danner her nodene, som vises med ovale omriss, og kantene av det semantiske nett, som forbinder nodene med hverandre. Det semantiske nett som vises på fig. 1, omfatter tre hovednoder "databaser", "programmeringsspråk" og "ytelseskarakteristika". Til hvert av disse hovednoder er det tilordnet to delnoder, som hver utgjør et barn av hovednoden og som dermed også inneholder egenskapene av hovednoden (arving). Ved siden av hver node oppgis dens innhold (TEMA), dvs. f.eks. "SPRÅK" som innhold i noden "programmeringsspråk" og "COBOL ELLER PL/l ELLER APL" som innhold i delnoden "klassiske (programmeringsspråk) ". Ifølge oppfinnelsen inneholder søkebyggeklossene som danner nodene av det semantiske nett, dermed søkeanvis-ninger som kan kombineres med søkeanvisninger av andre noder.
Kombinasjonen av de enkelte søkeanvisninger i nodene utfø-res i henhold til koblingsanvisninger som er lagret i kantene som forbinder nodene. Slik det fremgår fra fig. 1, er de enkelte noder forbundet med hverandre via kanter, vist ved hjelp av piler. Disse kantene dannes også av søkebygge-klosser som inneholder koblingsanvisninger. Slik innholder f.eks. kanten "har ytelseskarakteristika" mellom noden "databaser" og noden "ytelseskarakteristika" koblingsanvisningen OG. Kantene mellom hovednodene og delnodene inneholder hver arveinformasjonen BARN AV.
Det semantiske nett som vises på fig. 1 som grunnlag for sammensetning av en kompleks søkeanvisning, kan vises til brukeren via en bildeskjerm av databehandlingssystemet enten i den viste forgreningsstruktur (hierarkisk fremvisning) uten de detaljerte angivelser av innholdet i nodene og kantene, eller i en tabellarisk fremvisning av følgende type:
Programmeringsspråk
klassiske
objektorienterte
Databaser
relasjonelle
objektorienterte
Ytelseskarakteristika
Ytelse
Sikkerhet
Fra visningen kan brukeren sette sammen en individuell søkeanvisning ved valg av enkelte stikkord (noder), f.eks. ved klikking med musepekeren. Fig. 2 viser som første eksempel en søkeanvisning som sam-menstilles i det semantiske nett på fig. 1 ved å velge nodene "databaser", "relasjonelle" og "ytelse". Venstre side av fig. 2 viser de valgte noder og kanten som inneholder koblingsanvisningen, som fører til søkeanvisningen vist til høyre for pilen på fig. 2. Det spesielle ved dette eksempel ligger i at hovednoden "ytelseskarakteristika" ikke har noe eget innhold, men peker direkte videre til delnodene "ytelse" hhv. "sikkerhet". Fig. 3 viser et ytterligere eksempel på en søkeanvisning satt sammen av noder og kanter av det semantiske nett på fig. 1. Hvis brukeren velger nodene "programmeringsspråk", "objektorienterte" og "databaser", "relasjonelle", finner det sted en kobling på grunnlag av nodene vist til venstre på fig. 3 og kanten "aksesserer", hvilket fører til den relativt komplekse søkeanvisning som vises til høyre på fig. 3.
Slik det fremgår fra disse eksempler, kan det ifølge oppfinnelsen settes sammen relativt omfangrike og komplekse søkeanvisninger ved enkelt valg av søkebyggeklosser i visningen av databehandlingssystemet ifølge oppfinnelsen, hvor det i det semantiske nett som vises i eksemplet, dreier seg om en meget enkel struktur som tjener til å illustrere prinsippet som ligger til grunn for oppfinnelsen. I praksis vil meget omfangsrikere semantiske nett komme til å brukes, som tillater en sammenstilling av betydelig mer komplekse søkeanvisninger.
Oppfinnelsen gir også mulighet til å "lagre" en søkeanvis-ning som er blitt satt sammen én gang, f.eks. den som vises på fig. 3, dvs. at kombinasjonen av valgte søkebyggeklosser kan lagres og hentes opp igjen ved behov for å utføre søket på nytt. På fordelaktig måte vil dette gjentatte søk utfø-res automatisk av søkemotoren i et tidsintervall som oppgis av brukeren. Dette gjør det mulig å søke etter bestemte dokumenter i en bestemt database f.eks. én gang ukentlig, slik at brukeren regelmessig blir informert over aktuelle endringer i det område av databasen som interesserer ham.
For en videreutvikling av det semantiske nett er det ifølge oppfinnelsen med fordel tilveiebrakt brukerinteraksjons-programmer som utvider det lagrede semantiske nett utgående fra en brukers søkevirksomhet. Når en bruker legger inn en ny søkeformulering, gjennomfører brukerinteraksjonsprosessen en avstemning med de tidligere lagrede noder av det semantiske nett. Hvis man under henvisning til fig. 1 f.eks. gir inn søkeformuleringen "relasjonelle databaser NÆR IBM", vil det semantiske nett bli gjennomsøkt etter allerede eksisterende noder for de to delformuleringer "relasjonelle databaser" og "IBM" som danner den innlagte søkeformulering. Hvis disse noder allerede eksisterer, nem-lig nodene "relasjonelle databaser" som delnode av "databaser" og "IBM" som delnode av "EDB-leverandører", spør databehandlingssystemet etter den semantiske betydning av operatøren NÆR og oppretter en kant "er leverandør av" mellom nodene "EDB-leverandører" og "databaser". I eksemplet på et semantisk nettverk som * vises på fig. 1, finnes det imidlertid ikke noen node "EDB-leverandører" i det semantiske nettverk, slik at det før den nevnte opprettelse av den nye kant "er leverandør av", først må opprettes en node "EDB-leverandører" med delnode "IBM".
I praksis kunne en slik brukerinteraksjonsprosess implemen-teres som følger. Først oppfordres sluttbrukeren til å optimere de brukte søkeformuleringer for å forbedre koblingen mellom semantikken av noder og kanter (node- og kan-tenavn) og fulltekstdokumenter. Deretter integreres nye søkebegreper som nye noder i søkenettet, og deretter oppar-beides den statistiske hyppighet for felles bruk av noder som ikke enda er forbundet via en kant, og ut fra dette avledes en innføring av en kant, hvoretter det utføres en sammenligning av en innlagt søkeformulering med den lagrede node av det semantiske nett og en lagring av den innlagte søkeformulering i det semantiske nett under hensyntagen til den semantiske betydning, såfremt det med den innlagte søkeformulering dreier seg om en ny søkeformulering.
På grunnlag av de semantiske nett som vises på fig. 4 og 5, skal nå fremgangsmåten ifølge oppfinnelsen for en automatisk opprettelse av innholdsangivelser av tekstdokumenter beskrives.
Fig. 4 viser et enkelt semantisk nett med fire noder og tre kanter. Den sentralt plasserte node i det semantiske nett på fig. 4 har begrepsinnholdet "sikkerhet", de tre noder
som omgir den sentralt plasserte node, har begrepsinnholdet "teknisk løsning", "kjente farer" og "tilgangssperre". Kantene som forbinder den sentrale node "sikkerhet" med de tre omliggende noder, utgjør en OG-forbindelse, slik at det
foreligger de semantiske betydninger "sikkerhet ved teknisk løsning", "sikkerhetsrisiko ved kjente farer" og "sikkerhet/sikring ved tilgangssperre" som fremgår av fig. 4.
Det semantiske nett som vises på fig. 4, har dermed den følgende utsagn: Sikkerheten (med hensyn til sikkerheten av et databehandlingssystem mot eksterne angrep) med hensyn til tap, endring eller utspionering av data garanteres ved en teknisk løsning (f.eks. spesielle programmer "patches" fra produsenten av et system). Sikkerheten er gjenstand for fare fra kjente farer så som f.eks. virus eller andre angrep, og sikkerhet oppnås ved hjelp av tilgangssperrer, så som f.eks. brannvegger.
Her kan nodene defineres ved hjelp av de følgende søke-strenger :
Tilgangssperre: {Brannveg*}
Teknisk løsning: {Patc<*> ELLER (oppdatering NÆR sikkerhets<*>) ELLER bugfix}
Kjent fare: {Henge seg op<*> ELLER stan<*> ELLER beskyttel-sesta<*>}
Noden "sikkerhet" kan være en valgfritt definert node som var grunnlag for et søk og hvis resultat nå foreligger som dokumentsamling. Kantene skal som nevnt ha betydningen at de forbinder nodene via 06.
I søket fant man de følgende tre dokumenter:
Dokument 1:
Tittel: Virus meldt
Innhold: Det er funnet et nytt virus som stanser hver Windows NT-PC.
Dokument 2:
Tittel: Produsent reagerer
Innhold: For viruset som fører til et beskyttelsestap under Windows NT, har produsenten gitt ut en bugfix.
Dokument 3:
Tittel: Fremgangsmåter ved sikkerhetsadministrasjon Innhold: Brannvegger garanterer for sikkerheten mot inn-brudd over nettet.
Ved hjelp av fremgangsmåten ifølge oppfinnelsen kan det nå genereres en innholdsangivelse idet de tre fremfunnede dokumenter testes mot nodene som ligger nær søkenoden "sikkerhet" og som utgjør noder i nærheten av søkenoden. Hvis søkestrengene finner passende tekster i nodene, brukes kanten og noden som innholdsbeskrivelse. Denne fremgangsmåte ifølge oppfinnelsen fører for de tre ovenfor beskrevne, fremfunnede dokumenter til det følgende resultat:
Dokument 1:
Tittel: Virus meldt
Kort innholdsangivelse:
Risiko ved kjent fare
Dokument 2:
Tittel: Produsent reagerer
Kort innholdsangivelse:
Risiko ved kjent fare, sikkerhet ved teknisk løsning Dokument 3:
Tittel: Fremgangsmåter ved sikkerhetsadministrasjon
Kort innholdsangivelse:
Sikring ved tilgangssperre
Fremgangsmåten ifølge oppfinnelsen kan utvides idet noder av et betraktet delnett sammenfattes til utsagn, og det søkes etter den fullstendige utsagn i et fremfunnet dokument. For dette formål utvides det semantiske nett på fig. 4 tilsvarende hva som vises på fig. 5, idet noden "kjente farer" forbindes med en ytterligere node "virus" (som inneholder søkestrengen "viru<*>") via en OG-kant. Herved sammenfattes altså nodene "virus" og "kjent fare" til et utsagn, hvilket vises på fig. 5 ved hjelp av en stiplet ramme.
For det ovenfor beskrevne resultatdokument 2 får man dermed følgende innholdsangivelse:
Dokument 2:
Tittel: Produsent reagerer
Innholdsangivelse:
Risiko ved fare for virus, sikkerhet ved teknisk løsning Videre er det ifølge oppfinnelsen mulig at søkebegrepene av noden og noder som ligger nær noden, undersøkes for sin nærhet i dokumentet og at resultatet av denne undersøkelse brukes for en ranking, dvs. for sammenstilling av en rangordning eller hierarki, av de angitte innholdsangivelser. Derved erholder begreper som står nær hverandre, et høyere rangtall enn begreper som ligger lenger unna hverandre.
Hvis et funnet dokument f.eks. inneholder begrepene "database" , "nettverk", "ytelse" og "driftssikring", hvis tilsvarende noder står i et "nettverk", og hvis begrepene "database" og "nettverk" er forbundet med begrepene "ytelse" og "driftssikkerhet" via kanter, gir dette en innholdsangivelse av den følgende form:
I denne innholdsangivelse er rekkefølgen av utsagnene bestemt tilfeldig. Hvis imidlertid begrepet "database" opp-trer i nærheten av "ytelse" i det fremfunnede dokument og begrepet "nettverk" står meget nær begrepet "driftssikkerhet", kan det settes sammen en rangordning av innholdsangivelsene avhengig av denne funnede nærhet av begrepene, som da f.eks. kan se ut som følger:
slik at rekkefølgen av innholdsangivelsene gjenspeiler relevansen av utsagnet i det fremfunnede dokument.
Databehandlingssystemet ifølge oppfinnelsen og fremgangsmåten ifølge oppfinnelsen for automatisert sammenstilling av innholdsangivelser er selvsagt ikke begrenset til de beskrevne utførelseseksempler. Tvert imot er de på grunn av bruken av et semantisk nett, egnet til anvendelse i komplekse sammenhenger, hvor det bør understrekes at kantene som forbinder nodene, ikke er begrenset til vanlige enkle OG- eller ELLER-forbindelser, men også selv kan oppvise semantiske utsagn, slik det tydeliggjøres på tegningene med "navnene" som er tilordnet kantene.
Med begrepet semantisk nett menes i foreliggende patent-beskrivelse hvilken som helst semantiske struktur, som kan representeres som nett eller som "rammer" eller andre egnede strukturer.

Claims (18)

1. Databehandlingssystem med minst én brukerenhet, en lagerenhet, en tilkobling til minst én, spesielt ekstern, elektronisk database og med en søkemotor for gjennomføring av datasøk i minst én database, karakterisert ved at et flertall søke-formuleringer for søkemotoren lagres som søkebyggeklosser som danner noder og kanter av et semantisk nett og som kan settes sammen til en vilkårlig utformbar kompleks søke-anvisning for gjennomføring av et datasøk, og at søkebygge-klossene som danner nodene av det semantiske nett, inneholder søkeanvisninger, og at søkebyggeklossene som danner kantene av det semantiske nett, inneholder koblingsanvisninger .
2. Databehandlingssystem ifølge krav 1, hvor det finner sted en fremvisning av de flere søkeformuleringer som tre-struktur på en fremvisningsenhet av brukerenheten.
3. Databehandlingssystem ifølge krav 1, hvor det utføres en fremvisning av de flere søkeformuleringer i tabellarisk form på en fremvisningsenhet av brukerenheten.
4. Databehandlingssystem ifølge et av kravene 1 til 3, hvor en søkeanvisning som en bruker har satt sammen av søkebyggeklosser, kan lagres.
5. Databehandlingssystem ifølge et av kravene 1 til 4, hvor det i tidsintervaller som kan bestemmes av brukeren, utføres en automatisk gjennomføring av den lagrede søke-anvisning .
6. Databehandlingssystem ifølge et av kravene 1 til 5, hvor brukerinteraksjonsprosessene benyttes for en videreutvikling av det semantiske nett på grunnlag av en brukers søkevirksomhet.
7. Databehandlingssystem ifølge krav 6, som etter innlegging av en søkeformulering, sammenligner den innlagte søke-formulering med de lagrede noder av det semantiske nett, og hvor det finner sted en lagring av den innlagte søkeformu-lering i det semantiske nett under hensyntagen til den semantiske betydning, såfremt det med den innlagte søke-formulering dreier seg om en ny søkeformulering.
8. Databehandlingssystem ifølge et av kravene 1 til 7, karakterisert ved at det for tekstdokumenter som finnes frem i sammenheng med et søk etter minst ett søkebegrep som defineres ved hjelp av en node (søkenode) av det semantiske nett, utføres en sammenligning av tekstinnholdet med søkebegreper som foreligger i noder som ligger nær søkenoden, og at det ved overensstemmelse mellom tekstinnholdet i et tekstdokument med søkebegrepet i en nabonode, opprettes en fil som er tilordnet tekstdokumentet, og at en kortbetegnelse for noden som inneholder søke-begrepet, innføres i filen som innholdsangivelse for tekstdokumentet .
9. Fremgangsmåte ved gjennomføring av et datasøk ved hjelp av et databehandlingssystem som er tilkoblet minst én, spesielt ekstern, elektronisk database med tekstdokumenter og som oppviser en søkemotor for gjennomføring av datasøk i den minst ene database, karakterisert ved at søkeformuleringer lagres for søkemotoren som søkebyggeklosser som utgjør noder og kanter av et semantisk nett og som kan settes sammen til en vilkårlig utformbar kompleks søkeanvisning for gjennomføring av et datasøk, og at søkebyggeklossene som utgjør nodene av det semantiske nett, inneholder søkeanvis-ninger, og at søkebyggeklossene som utgjør kantene av det semantiske nett, inneholder koblingsanvisninger.
10. Fremgangsmåte ifølge krav 9, hvor det for en automatisert sammenstilling av innholdsangivelser for tekstdokumenter gjennomføres de følgende trinn: gjennomføring av et søk i den minst ene database etter minst ett søkebegrep som defineres ved en node (søkenode) av det semantiske nett, og fremfinning av tekstdokumenter som inneholder søkebegrepet; sammenligning av tekstinnholdet i hvert fremfunnede tekstdokument med søkebegreper som foreligger i noder i nærheten av søkenoden; ved overensstemmelse mellom tekstinnholdet i et tekstdokument og minst ett søkebegrep i en nærliggende node, opprettelse av en fil som er tilordnet tekstdokumentet og i hvilken det skrives en kortbetegnelse for den minst ene node som inneholder søkebegrepet eller søkebegrepene, som innholdsangivelse for tekstdokumentet.
11. Fremgangsmåte ifølge krav 10, karakterisert ved at det i filen skrives en kortbetegnelse for kanten(e) som forbinder søkenoden og den nærliggende node, som innholdsangivelse for tekstdokumentet .
12. Fremgangsmåte ifølge krav 10 eller 11, karakterisert ved at det utføres en hierarkisering av tekstdokumentene avhengig av avstanden mellom søkebegrepene i søkenoden og i den nærliggende node i tekstinnholdet for hvert tekstdokument.
13. Fremgangsmåte ifølge et av kravene 10 til 12, karakterisert ved at noder som er nærliggende søkenoden, er direkte nabonoder.
14. Fremgangsmåte ifølge et av kravene 10 til 13, karakterisert ved at noder som er nær søkenoden, omfatter nabonoder til direkte nabonoder.
15. Fremgangsmåte ifølge et av kravene 10 til 14, karakterisert ved at minst to nærliggende noder kan sammenfattes til et delnett.
16. Fremgangsmåte ifølge et av kravene 10 til 15, karakterisert ved at en kombinasjon av søkenoder og nærliggende noder kan velges fritt av brukeren .
17. Dataprogram med programkode som er egnet til å utføre en fremgangsmåte ifølge et av kravene 1 til 16 når det kjø-res på en datamaskin.
18. Dataprogram ifølge krav 17 som er lagret på et maskinlesbart medium.
NO20004622A 1998-03-17 2000-09-15 Dataprosesseringssystem og -fremgangsmåte for automatisk generering av et sammendrag til et tekstdokument NO314157B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19811524A DE19811524A1 (de) 1998-03-17 1998-03-17 Datenverarbeitungssystem
PCT/EP1999/001671 WO1999048027A1 (de) 1998-03-17 1999-03-13 Datenverarbeitungssystem und verfahren zum automatisierten erstellen von inhaltsangaben von textdokumenten

Publications (3)

Publication Number Publication Date
NO20004622D0 NO20004622D0 (no) 2000-09-15
NO20004622L NO20004622L (no) 2000-11-17
NO314157B1 true NO314157B1 (no) 2003-02-03

Family

ID=7861176

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20004622A NO314157B1 (no) 1998-03-17 2000-09-15 Dataprosesseringssystem og -fremgangsmåte for automatisk generering av et sammendrag til et tekstdokument

Country Status (9)

Country Link
EP (1) EP1064606B1 (no)
AT (1) ATE209377T1 (no)
AU (1) AU3412499A (no)
CA (1) CA2287873A1 (no)
DE (2) DE19811524A1 (no)
ES (1) ES2153341T3 (no)
NO (1) NO314157B1 (no)
PT (1) PT1064606E (no)
WO (1) WO1999048027A1 (no)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10031351A1 (de) 2000-06-28 2002-01-17 Guru Netservices Gmbh Verfahren zur automatischen Recherche
DE10220094B4 (de) * 2002-05-04 2004-02-26 Ontoprise Gmbh Datenverarbeitungssystem
EP2287751A1 (de) 2009-08-17 2011-02-23 Deutsche Telekom AG Recherchensystem und Verfahren zur Informationssuche
DE102009028601A1 (de) 2009-08-17 2011-02-24 Deutsche Telekom Ag Elektronisches Recherchensystem
WO2017184204A1 (en) * 2016-04-19 2017-10-26 Sri International Techniques for user-centric document summarization
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
DE69126795T2 (de) * 1991-03-12 1998-02-19 Wang Laboratories Dateienverwaltungssystem mit graphischer benutzerschnittstelle zum aufstellen von fragen
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5721900A (en) * 1992-07-20 1998-02-24 International Business Machines Corp Method and apparatus for graphically displaying query relationships

Also Published As

Publication number Publication date
EP1064606B1 (de) 2001-11-21
NO20004622D0 (no) 2000-09-15
ATE209377T1 (de) 2001-12-15
WO1999048027A1 (de) 1999-09-23
WO1999048027A8 (de) 1999-11-18
AU3412499A (en) 1999-10-11
DE19811524A1 (de) 1998-11-19
ES2153341T3 (es) 2002-04-01
ES2153341T1 (es) 2001-03-01
PT1064606E (pt) 2002-04-29
DE59900685D1 (de) 2002-02-21
CA2287873A1 (en) 1999-09-23
NO20004622L (no) 2000-11-17
EP1064606A1 (de) 2001-01-03

Similar Documents

Publication Publication Date Title
US7283951B2 (en) Method and system for enhanced data searching
US7398201B2 (en) Method and system for enhanced data searching
US5926808A (en) Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
JP4264118B2 (ja) ネットワーク上の異なる情報源から情報を構成する方法
JP3341988B2 (ja) インデックス表示方法
Marcus et al. An information retrieval approach to concept location in source code
US6094649A (en) Keyword searches of structured databases
US7209876B2 (en) System and method for automated answering of natural language questions and queries
US6415319B1 (en) Intelligent network browser using incremental conceptual indexer
US20070198480A1 (en) Query language
US20070005344A1 (en) Concept matching system
US20060010126A1 (en) Systems and methods for interactive search query refinement
KR20040058300A (ko) 데이터 소스 탐색 시스템 및 방법
KR20170101609A (ko) 지식베이스 기반의 개념그래프 확장 시스템
JPH07319917A (ja) 文書データべース管理装置および文書データべースシステム
JP2009211263A (ja) 情報検索システム、方法及びプログラム
US20190391976A1 (en) Research and development auxiliary system using patent database and method thereof
Nims et al. How successfully do users search the Web? One real-time site allows you to “spy” on searchers
JPH08305729A (ja) ネットワーク情報フィルタリングシステム
US20050065920A1 (en) System and method for similarity searching based on synonym groups
US8001138B2 (en) Word relationship driven search
NO314157B1 (no) Dataprosesseringssystem og -fremgangsmåte for automatisk generering av et sammendrag til et tekstdokument
EP1041499A1 (en) File or database manager and systems based thereon
US8315998B1 (en) Methods and apparatus for focusing search results on the semantic web
JP2773667B2 (ja) 関連情報検索装置

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees