NO316480B1

NO316480B1 - Fremgangsmåte og system for tekstuell granskning og oppdagelse

Info

Publication number: NO316480B1
Application number: NO20015581A
Authority: NO
Inventors: Brit Helle Aarskog
Original assignee: Forinnova As
Priority date: 2001-11-15
Filing date: 2001-11-15
Publication date: 2004-01-26
Also published as: CA2467369C; US20050108001A1; US8265925B2; WO2003042859A2; WO2003042859A3; NO20015581L; NO20015581D0; CA2467369A1; EP1454262A2

Abstract

Foreliggende oppfinnelse vedrører en metode og system for tekstuell (innsikt, utforskning og) granskning, hvori et sett av sammenkoblede termer med detaljerte grammatikalske roller ekstrahert fra en grammatikalsk kodert elektronisk tekst og frembragt på en skjerm som kontakter til den underliggende tekst.

Description

Område for oppfinnelsen

Den foreliggende oppfinnelse vedører en fremgangsmåte for tekstuell granskning og oppdagelse, hvor et sett av sammenkoplete termer med spesifikke grammatikalske roller blir ekstrahert fra en grammatikalsk kodet elektronisk tekst, samt en anordning for for tekstuell granskning og oppdagelse Nærmere bestemt tilveiebringer metoden og systemet et grammatikkbasert søkeverktøy, hvori indeksinnføringer er koblet til underliggende tekstsegmenter som lndeksinnfønngene er avledet fra

Indeksstrukturer utgjør et system av representasjoner av dokumentsamlinger, og indekser står i stedet for den opprinnelige aktuelle tekst for en bruker Foreliggende oppfinnelse fokuserer på reglene som er anvendt for konstruksjon av representasjoner, og prosessen for å anvende representasjonene under informasjonssøk og tekstgranskning

Den tradisjonelle modellen av informasjonssøking forutsetter at den som etterspør informasjonen vet hva det er hun leter etter og at hun er i stand til å fremstille informasjonsbehovet som et sett termer (søkeoperander) og søkeoperatorer som antas å lede til nyttig informasjon

WOOO/46701 beskn ver en metode for språklig analyse av en tekst, mens US 5 619 809 beskriver et system og en metode for å lage kontekstuelle vektorer for bruke ved lagring og gjenfinning av dokumenter Ingen av disse publikasjoner beskriver imidlertid en metode og en anordning der den elektroniske teksten er grammatisk kodet slik at en del termer med bestemte grammatiske funksjoner kan ekstrheres fra teksten Bakgrunn for oppfinnelsen

Beskrivelsen av problemområdet er begrenset til det tosidige problem som brukeren av et lnformasjonsgjenfinningssystem blir konfrontert med

1) hun overlesses med informasjon, og

2) hun synes det er vanskelig å formulere forespørsler, og filtrere ut informasjon av interesse

Problemet som er angitt som «lnformasjonsoverlessmg» er seriøst og forbedrede indekseringsmotorer søkemotorer og andre verktøy er utviklet som svar på dette overflytsproblemet Problemet er fremstilt i flere rapporter som

• store vanskeligheter med å vite hvor man skal se etter informasjon

• for mange informasjonskilder

• informasjon, selv om den er levert tidsnok til å være nyttig, er ikke i den riktig form for å kunne ta avgjørelser • masse tid brukt på å gjenoppfinne informasjon heller enn å gjenfinne den tidstap ved å søke etter informasjon, til og med i domenespesifikke

dokumentsamlinger

ikke den riktige mengden informasjon tilgjengelig for å utføre jobben

tilfredsstillende

dokumentsamlinger er ikke samlet etter jobbansvarsområdene

Til tross for alt arbeidet på søke- og indeksmotorer de siste 50 årene fortsetter problemet med klassifisering og indeksering og å hente frem digitalt innhold å være stort for ustrukturerte data som tekst Søke- og indeksenngsmotorer (som Lycos, Google AltaVista, InfoSeek, etc) forsøker å løse problemet med å finne informasjon, ved å konstruere indekser fra informasjonskilder som er tilgjengelig på World Wide Web Overforenklet blir dette gjort ved å spore lenker og analysere sidene disse lenkene henviser til URL ene er lagret som innføringer globale indeksregistre som disse motorer skaper og sidene som URL ene henviser til kan bh hentet frem som svar på et søkeoppdrag Informasjonsfiltre forsøker å løse informasjonsoverlessingsproblemet ved å sette sammen tidligere brukerforespørsler i kategorier som regelmessig blir påkalt for å behandle informasjonsstrømmer

Tidligere søkesystemer er stort sett basert på den såkalte «tradisjonelle modell av

i

lnformasjonsfremhenting» Denne modellen er grundig karakterisert og diskutert i mformasjonsgjenfinnings-litteratur Et sitat av Blair (1990) indikerer hovedtrekkene for problemet i fokus « den tradisjonelle modellen av informasjonsgjenfinning som stipulere? at indeksers ( eller automatisk indekseringsprosedyrens) jobb er å beskrive presist innholdet og konteksten av dokumenter, uansett hvordan den som søker kan beskrive innholdet, og søkerens oppgave er å gjette hvordan dokumentene han kan finne brukbare, er blitt representert Dette er den vanlige modellen av informasjonsgjenfinning og det er underforstått i de fleste informasjonsgjenfinmngsmodellene»

(1990 189)

Tradisjonelle søkesystemer er avhengig av forskjellige indekseringsanordnmger, og forskjellige indeksenngsspråk varierer med hensyn til i hvilken grad de bruker enkle eller sammensatte termer og hierarkier, uansett om mdekstermene er regulert for synonymer eller homografer Fntekstmdekseringsanordninger er ofte kombinert med kontrollerte ordlister (tildelte nøkkelord) Brukeren kan vanligvis begrense søkeområdet til bestemte områder (katalogelementer så som tittel, forfatter, pubhkasjonsdata, filtopper. sammendrag og så videre) og/eller til visse dokumenttyper Typiske søkemuligheter er enkle søk kategonsøk (liidekstermer er arrangert i kontrollerte rangordninger) Mer avanserte systemer støtter GREP-søk (Get Regular Expressions) som regulerer den tilpasningsprosessen basert på «spesielle karakterer» inkludert i søkestrengen og forskjellige typer av nærhetsoperatører Anvendelsen av statistiske- og sannsynhghetsteknikker er en alminnelig akseptert kvantitativ ramme Likevel er begrensningene av den statistiske fremgangsmåten nylig blitt mer utbredt siden gjenfinningsprestasjonen av systemer som bruker statistiske teknikker fortsatt er (i absolutte termer) lave

t

Tilveiebringelsen av den riktige informasjonen og tidsspanng forutsetter vektlegging av bedre akkvisisjonsprosedyrer, og siden mengden av tilgjengelig informasjon stadig vokser, blir byrden på indeksenn<g>sanordmnger også større

Foreliggende oppfinnelse overser informasjonsutbredelse som bare gjør mer informasjon tilgjengelig Foreliggende oppfinnelse forutsetter mellomledd i organisa-sjonen (brukersamfunn) som samler dokumenter fra forskjellige kilder Akkvisision, segmentering, disambiguasjon og underliggende indeksenngspnnsipper er avgjørende for effektiv spredning, søking og bruk av dokumentsamlinger Svaret på de forelagte problemer som er undersøkt finnes ikke i smartere søkealgontmer eller såkalte intelligente virkemidler per se, selv om ny funksjonalitet og nye visuahsenngsteknikker kan hjelpe Løsningen som er en del av foreliggende oppfinnelse, er å få brukeren til å være nærmere innholdet ved bruk av nye representasjonsmidler, og et nytt sett verktøy som danner grensesnitt mellom disse verktøyene

Utfordringen er å transformere de relevante dokumenter til et system som differensierer mellom dokumenttyper og som konstruerer dokumentrepresentasjoner som tiltrekker brukerens oppmerksomhet Innholdet må transformeres og reduseres til en form som gjør innholdet tilgjengelig med mindre innsats og tidsforbruk Spesialdesignede tjenester vil gi ytterligere verdi til innholdsrepresentasjonene gjennom segmentering og disambiguasjonsprosedyrer og resultatet blir levert gjennom et spesialdesignet grensesmttsystem

Indeksenngsproblemet

Som nevnt utgjør lndeksstrukturer et system av representasjoner Konseptet representasjon betyr definisjonsmessig at noe informasjon er utelatt For å forsikre seg om at tapet ikke er avgjørende i forhold til informasjonssøk bør indekserings strategien fokusere på hvilken informasjon som er utvidbar og hvilken som ikke er det I det etterfølgende er noen grunnleggende forhold kort beskrevet

Indeksering og klassifisering (indeksering her anvendelse av noteringer i etnotasjoner i et klassifikasjonssystem) er en spesialisert profesjon og er ofte betraktet som bundet til gjenfinningsbehov Forskjellige dokumentsamlinger har indeksstrukturer som er basert på forskjellige kontrollerte ordlister, i motsetning til naturlig språkindeksenng Myriaden av indeksenngsstrategier kan bh posisjonert på et stort område i samsvar til dimensjonene som er kontrollert eller ukontrollert, pre- eller post-koordinat Søkemotorer som opererer på disse indeksstrukturene inkluderer sjelden teknikker for å integrere (sammenligne og sammensette) indekstermer på tvers av databaser

Siden indeksering er bestemt til teknisk bruk i mformasjonsgjenfinning må indekserere (personer eller programmer) nøye overholde et sett av representasjonsangivelser f eks som beskrevet i klassifikasjonsssystem og/eller tesauri (ordbøker) Representenng av tekstinnhold i overensstemmelse med en standardisert ordliste og indekseringsregler er årsaken til forskjellige problemer relatert til gjenfinningsresultat

Først av alt bestemmer den kontrollerte ordlisten betingelsen for indekstermene, slik at de kan bli kilden til beskrivelsene som er tildelt dokumentet på bekostning av de tekstuelle formuleringer som kan være de beste diskriminatorer i en gitt søkesituasjon

For det andre resulterer forskjellige indeksenngsstrategier i forskjellige indekstermer for det samme dokumentet (interindekserers samsvarproblemer)

Avstemningen av indekstermer basert på statistisk informasjon (ordvektprosedyrer) kan videre skjule tekstuelle detaljer som har en atskillende søkeeffekt F eks antas det at profesjonelle forfattere bruker et større ordforråd enn mer uerfarne forfattere Leksikalsk stil (påvirket av mange personlige sosiale, kulturelle og andre kontekstuelle faktorer) viser forfatterens valg blant enorme variasjoner av ordkonstellasjoner brukt for å uttrykke mer eller mindre det samme Ord som «junst», «sakfører» eller «advokat» er variasjoner i ordstil, likevel kan den kontekstuelle konteksten avsløre større betydnmgs-vanasjoner Slike enkle ordvananter kan innbefattes i mdekseringsanordninger med synonymrelasjoner som er avledet fra tesaun Problemet blir større når man tenker på det faktum at like betydninger kan uttrykkes med setninger som har forskjellig ordstruktur eller ordsammensetninger som besknver enkle ordbetegnelser

(«barnesykdom» i stedet for «pediatn»)

Spørsmålet om ordstil er relatert til et annet indekseringsproblem Å selektere de «riktige» ord fra et klassifikasjonssystem eller tesauri kan være ganske komplisert i tilfelle med mdeksenngsdokumenter med et «uventet» eller innovativt innhold Nye termer som ikke er dekket i klassifikasjonssystemet må projiseres inn i bestående termer eller indeksereren må utvide klassifikasjonssystemet slik at det inneholder de nye termer Det siste tilfellet krever menneskelig mnvolvenng (uavhengig innholds- eller temaanalyse), og krever i prinsippet også en profesjonell indekserer med leksikografisk kompetanse

Disse og relaterte problemer forklarer synspunktet til Langndge (1989) «7 øyeblikket går potensialet for datamaskiner overveiende tapt fordi de bare blir brukt som et medium for dårlige indekseringsmetoder» Blair går enda videre og sier «^ se informasjonsproblemet som et dataproblem er som å blande fysisk tilgang med logisk tilgang eller å blande verktoyet medjobben» (1990 70) Konseptet «logisk tilgang» i lnformasjonsgjenfinmng henviser til saker som er relatert til å minske antallet logiske avgjørelser som brukeren må ta når det søkes etter informasjon Fokus er på hvordan dokumenter skal representeres for gjenfinning og disse representasjoner er de logiske aksesspunkter for disse dokumenter og utgjør systemets selektivitet Brukerens problem

Problemet til brukeren er relatert til lndeksenngsanordnmgene (regulert eller fritekst-mdeksenng) og ikke så mye relatert til systemets søkefunksjonalitet (Konseptets søkefunksjonalitet henviser til utførelse av hvordan systemet sammenligner brukerens forespørsler med representasjoner av dokumenter i systemet, og hvordan systemet beregner/presenterer de elementene som mest sannsynlig tilfredsstiller brukerens behov)

Hovedproblemet for brukeren er relatert til brukerens evne til å uttrykke informasjonsbehovet som en forspørsel sendt til søkesystemet Søkeoppdraget er et søkeuttrykk sammensatt av et sett av søketermer og søkeoperatorer Søkeuttrykkene er indirekte fordi søkene ikke er utført i selve teksten, men i indeksstrukturer som er forutsatt å representere tekstinnholdet (tekstinnholdserstatninger) Søkesystemet sammenligner sammenstillingen av termer i søkeuttrykket med systemets lndeksenngstermer

(dokumentrepresentasjoner eller dokumentvektorer)

Termene i et søkeuttrykk kan kombineres på et tilsynelatende uendelig antall måter, og brukeren vil oppleve usikkerhet om hvorvidt dokumenter er indeksert med termene inkludert i søkeuttrykket Det er klart at alle informasjonssøk innebærer en investering i tid Avanserte indeksenngsanordninger sikter på å redusere søketid ved å "trimme" søkeområdet Likevel er det et poeng at brukeren vil møte samme type problemer uansett om mdeksstrukturene inneholder såkalte fntekst-termer eller termer fra en regulert ordliste (indekstermer som bruker noteringen fra et klassifikasjonssystem som faktisk er en ekstrem form av summering) mdeksstrukturene kan være begrenset til kjeder av nominelle uttrykk, og konsepter kan være relatert ved enkle semantiske koblinger (synonymer, etc), arrangert i hierarkiske strukturer (bredere termer og smalere termer) Likevel er disse relasjoner alltid mye svakere enn de originale tekstuelle ordkobhnger som innkorporerer tekstuell koherens (sammenheng)

Søkeprosessen i en språklig transformasjons<p>rosess

Empiriske undersøkelser avdekker forskjellige faktorer som forklarer brukerens manglende evne til å uttrykke sitt informasjonsbehov på en nøyaktig måte, shk at systemet produserer et resultat som dekker informasjonsbehovet (vanligvis skiller diskusjonene mellom målonenterte søk og mteresseorienterte søk) Brukeren er i en situasjon hvori hun må balansere to ganske forskjellige mål

Først og fremst må brukeren forutsi hvordan antatte relevante deler av teksten er representert i indekseringssystemet For det andre må brukeren formulere et oppdrag som gjenfinner et antall poster (dokumenter eller tekstsegmenter) som er adekvat i forhold til mengden av ressurser brukeren har tilgjengelig når hun vurderer postens nyttighet

Når det utføres et målorientert søk i en domenespesifikk forholdsvis liten dokumentbase, har brukeren behov for en mulighet til å granske tilgjengelige indekstermer for å kunne gi en presis forespørsel til systemet Et søkeresultat av la oss si 100 Ul 1000 poster (eller mer), er i noen situasjoner ikke av noen verdi for brukeren Antall poster i resultatlisten overstiger brukerens «brukbarhetspunkt», brukerens kapasitet til å se gjennom/lese, og for å finne informasjon som er sett på som brukbar

Mange faktorer påvirker brukeren når hun prøver å formulere en «best match forespørsel» (bakgrunnskunnskap, database-heterogenitet, etc) Denne prosessen er faktisk en lingvistisk transformasjonsprosess, hvori brukeren er nødt til å transformere sine ideer om et informasjonsbehov til en rekke nominelle uttrykk På den andre side er dokumentinnholdet blitt transformert i en annen prosess som resulterer i lister av isolerte konsepter

En isolert term eller konsept er et ord som isolert sett ikke kan referere til meningen som er formidlet i teksten (Ranganathan 1967) "Et isolert konsept kan være en komponent i et blandet emne/tema som er en del av et komplekst emne/tema" Denne påstanden dekker både indekser som resulterer fra automatiske mdekseringsprosedyrer eller såkalte uavhengige lnnholds-eller temaanalyser Ordkobhnger som finnes i teksten kan ikke bh uttrykt i indeksen (i motsetning til ordkobhnger kodet i f eks tesauri

(ordbøker)

Hvorfor mislykkes brukerens forespørsel

En søkeforespørsel kan mislykkes av mange grunner (en forespørsel mislykkes når systemet gir et resultat som brukeren synes er utilfredsstillende) Følgende liste gir en enkel oversikt av noen viktige årsaker relatert til ordbruk (ord uttrykk) i søkeforespørselen • Tennene mangler (ekskludert) kanskje fordi brukeren antar at de ikke er i systemets indeksstruktur, eller fordi at brukeren antar at de ikke er relevante i et søkeoppdrag eller fordi at brukeren tror at visse termer ikke har tilstrekkelig diskriminerende evne • Termer er inkludert fordi brukeren tror at visse ord finnes i dokumentene eller er representert i indeksstrukturer Automatiske prosedyrer kan fjerne slike termer og/eller erstatte dem ved å klassifisere dem som del av en semantisk gruppe i en ordbok Erstatninger kan være i konflikt med brukerens mtensjon, eller den ide

brukeren forsøker å uttrykke gjennom et sett termer (likevel ber systemer som støtter denne opsjon vanligvis brukeren om å bekrefte erstatning av termer) • Brukeren selekterer termer som refererer til ord som blir brukt i nåtid (nye eller populære ord) eller ord som er relatert til et bestemt felt (profesjonsspråk) Potensielt relevante dokumenter kan indekseres med termer som er forskjellige fra dem som anvendes nå, men som har samme mening Tesaurioppslag/ordboksoppslag kan etablere termsamsvar (termer i oppdraget og i lndeksstrukturen) Denne strategien øker imidlertid søkeområdet (omfatter operatøren OR), og resultatlisten kan derfor overskride brukerens brukbarhetspunkt • Oppdraget inkluderer for mange termer eller termer som er kombinert med operatorer som ekskluderer potensielt relevante dokumenter (tekstsegmenter) Empiriske undersøkelser viser at brukere er motvillige for å forandre eller fjerne de første 2-3 termer i en kombinert liste Automatiske prosedyrer kan justere sekvensen av termene, eller/og gi termene vekt i samsvar med deres posisjon i en liste Hvis brukeren betrakter den første term som viktigere enn de andre, kan disse automatiske prosedyrer være i konflikt med brukerens intensjon • Forespørselen inkluderer termer på et abstraksjonsnivå som er forskjellig fra termene i lndeksstrukturen I mer avanserte systemer får brukeren muligheten til å selektere bredere eller smalere termer Alternativt kan brukeren velge operatorer som beveges nedover eller oppover i en termrangordning Avhengig av tesaun kan søkeområdet bh tilsvarende for stort eller for lite i forhold til brukerens søkemtensjon

Det språklige kompetanseproblem

Brukerens språklige transformasjonsproblem er at flere av disse «mislykkingsårsaker» kan skje i en søkeforespørsel Brukeren har ingen mulighet til å evaluere eget søkeoppdrag i forhold til termer som er tilgjengelige i mdeksstrukturene Indekstermene er «skjulte» slik at brukeren bare kan motta deler (hvis systemet i det hele tatt tilbyr muligheten til å se inn i indekssystemet)

Problemet ligner litt på en situasjon der to personer forsøker å ha en samtale ved å snakke to forskjellige språk (brukerens naturlige språk transformert til en rekke termer og systemets dokumenter transformert til en mdeksstruktur med isolerte termer uten relasjoner) Brukeren er i en situasjon hvor hun prøver å lære systemets språk for å oppnå målet (tilfredsstille et informasjonsbehov) Å lære et nytt språk forutsetter imidlertid tilbakemeldinger om hvorfor et visst uttrykk ikke produserer noe tilfredsstillende søkeresultat Intet system (ennå) gir tilbakemelding med forklaring om hvorfor søkeoppdraget mislykkes - en komplisert tilbakemelding hvis flere av de forannevnte «mislykkingsårsaker» skjer i samme oppdrag Siden brukeren ikke kan inspisere systemets språkbruk, er hun ikke i stand til å korrigere sin egen språkbruk, når det formuleres søkeoppdrag Den eneste tilgjengelige strategien er å fortsette prøvene (trial en error) i hver ny søkesituasjon (nye oppgaver med nye informasjonsoppdrag)

Det pågår forskning som har som formål å konstruere diagnostiske anordninger som analyserer brukerens forespørsler sammenlignet med resultatene brukeren evaluerer og markerer som relevant Slike diagnostiske anordninger kan likevel ikke håndtere faktumet at språkbruk er en dynamisk ting «hvis største dynamikk og forandring faktisk kan komme i interaksjonsprosessen med et informasjonssystem» (Doyle 1963)

Løsningsforslag

Allerede i 1963 vurderte Doyle relevansen av mformasjonfremhentingstester og konkluderte «Den gradvis voksende bevissthet av menneskets udugelighet i å formulere sitt virkelige behov i en enkel form, vil tendere mot å velte mange evalueringsstudier av informasjonsfremhentingssyslemer som har blitt gjort i mellomtiden»

Doyle argumenterte med at løsningen for dette problemet ikke var å designe systemer rundt relevanskonseptet, men å basere designet på konseptet granskningsevne «søkeren trenger heller et effektivt granskningssystem enn et forespørsehmplementerende system»

Med henvisning til dette sitat undersøker oppfinneren av foreliggende oppfinnelse derfor i hovedsak brukerens problem relatert til det å formulere forespørsler og å tilveiebringe feedback om i hvilken grad forespørselen passer det egentlige innhold i dokumentene/tekstene En kontekst-avhengig og situasjonstilpasset lnnholds-representasjon tar hensyn til brukerens aktuelle situasjon Forutsetningen for foreliggende oppfinnelse er en domene-spesifikk dokumentsamling, vurdert som verdt å levere til fagpersoner innenfor et visst brukersamfunn

Heller enn å stole på brukerens evne til å uttrykke informasjonsbehov på en presis måte, bør systemet fremsette mekanismer som gjenspeiler det faktiske innhold i dokumentsamlingen til brukeren Fremstillingen av dokumentinnholdet må gå på effektivisere tidsforbruket, og mer kostbare teknikker er berettiget i forhold til å tilby brukeren avanserte valgmuligheter for å granske tekst for å oppdage tekstsegmenter som er nyttige i en viss situasjon Sconngsprosenten av nåværende søkemotorer er i denne sammenheng et fullstendig utilstrekkelig mål av et systems verdi for brukeren

Dette problem forsøkes løst ved å innlemme nye tekstteorier og språkteknologi inn i indekseringsfeltet Segmentering og disambiguasjon er vesentlige verktøy når det konstrueres innholdsrepresentasjoner som støtter tekstgranskning og effektiv søking

De foreslåtte lndeksenngsprosedyrer gir en ny type av selektivitet Visualiseringen av grammatikkbaserte kontakter ti! de underliggende tekster, som vil bh forklart mer detaljert nedenfor, tilveiebringer en slags «avgjørelsesstøtte» for brukeren som søker etter et sett av diskriminerende søketermer Tanken er også at brukeren (en fagperson innen et visst område) kan lage presumptive vurderinger av forespørselens brukbarhet siden indekstermene (kontaktene) uttrykker sammenhenger, formidlet gjennom ordene i den underliggende tekst

Selektiviteten til foreliggende oppfinnelse omfatter og støtter

• Leksikal semantisk informasjon avledet fra CG-taggere (Constraint Grammar Taggere)

• overføring av teknikker som er relatert til ordbok-konstruksjoner

• statistisk informasjon avledet fra keyness-beregning og inkludert som nye elementer i dokumenterstatmngene • frekvensinforrnasjon som kobler grammatikkbaserte koder til dokumentenes logiske objekttyper • filtermuligheter realisert som predefinerte søkemakroer som inkluderer grammatikkbaserte og semantiske søkeoperander

Sammendrag av oppfinnelsen

Foreliggende oppfinnelse er gitt det foreløpige navnet «Synopsis»

Foreliggende oppfinnelse øker brukerens «innsikt» ved den valgte måten å søke på, og tilbyr tallnke muligheter for å granske søketermer som er strukturert til et sett kontakter til de underliggende tekstsegmenter Foreliggende oppfinnelse gjør det mulig for brukeren å overføre sin innsikt til tekstuell granskning

Spesielt gis brukeren mulighet til å utforske slike sett av termer som er ekstrahert pga deres grammatikalske funksjoner (grammatikalsk ordklasse og syntaktisk/grammatikalsk funksjon) innen setninger Disse termer er gjennom et system av unike identifikatorer forbundet med den underliggende tekst Med henvisning til denne karakteristiske egenskapen blir termene angitt som tekstuelle kontakter eller bare kontakter Fortnnnsvis er de tekstuelle kontakter presentert for brukeren som et sett av tripletter Disse tnpletter er basert på et grammatikk basert design med formål å støtte utforsking og oppdagelse

Denne type selektivitet krever at teksten er grammatikalsk kodet, og kontakter er dynamisk ekstrahert fra den underliggende tekst som spesifisert i et system av grammatikk baserte søkemakroer Tekstene med grammatikalske annotennger eller merknader er strukturert i et multimvåannotenngsfilsystem Siden tekst har et uforutsigbart innhold kan verken settet av kontakter eller sammenhengene mellom disse som fremvist i tnpletter forutsies på forhand

Videre utførelser av oppfinnelsen omfatter sett med predefinerte relasjoner mellom kontakter og semantiske kategorier på et høyere nivå Kontaktene er inter aha mappet mot domenespesifikke tesaun i en "Target Word Selection" (TWS) prosedyre som har semantisk disambiguasjon som mål (med henvisning til predefinerte terminologiske strukturer) Relasjonene mellom ekstraherte kontakter og konsepter kodet i tesaun støtter flere filtermuligheter

Forespørselen fremsatt til systemet eller heller retningen til et søkeforløp (bevegelser) vil påvirkes av mønstre til kontakt-kollokasjoner vist i tnplettene Hvis disse kontaktene (tegn) ligner «noe» som brukeren hadde planlagt å finne eller lete etter, kan søket fortsette som planlagt Hvis interessene og/eller kontaktene avviker, kan brukeren ønske å forandre søkets fokus TextSounder tilbyr muligheter for å navigere opp og ned abstraksjonssjikt (runder/sykluser og nivåer innen tnplettene)

Det som kjennetegner den innsiktsfulle brukeren i forhold til den mer gjennomsnittlige brukeren, er evnen å se et mønster eller implikasjoner når hun er eksponert for det Foreliggende oppfinnelse er designet for brukere som er forberedt på å gjenkjenne tnpletter som inneholder tegn som gjenspeiler informasjonen som det søkes etter, og derfor forutsetter oppfinnelsen at tnpletter av kontakter (eller deler av dem) vil bli gjenkjent som betydningsfulle når de forekommer i vindusfeltene Brukeren kan oppdage potensiell relevans av de viste mønstrene

Når en bruker har vurdert et sett med kontakter, kan hun be om videre raffinement, eller til slutt åpne eller se direkte inn i tekstsegmentene som disse kontaktene er ekstrahert fra Mye av det som vises frem til brukeren vil raskt bh forkastet Synopsis presenterer epitomiske tnpletter, og muliggjør at brukeren kan bla igjennom ordnede sett av tekstuelle kontakter Filter- og fremvismngsmuhghetene er laget for å støtte brukeren til å avgjøre den relative viktigheten enten til kontaktene eller de underliggende tekstsegmenter

Den foreliggende oppfinnelse beskriver så en fremgangsmåte for tekstuell granskning og oppdagelse, hvor et sett av sammenkoplete termer med spesifikke grammatikalske roller blir ekstrahert fra en grammatikalsk kodet elektronisk tekst, kjennetegnet ved at settet av sammenkoplete termer tilveiebringes på en fremvisningsenhet som kontakter til den underliggende tekst Mer spesifiserte utføresler er angitt i underkravene 2-13

Oppfinnelsen omfatter også en anordning for tekstuell granskning og oppdagelse, kjennetegnet ved at et sett av sammenkoplete termer med bestemte grammatikalske roller er ekstrahert fra en grammatikalsk kodet elektronisk tekst, hvori systemet omfatter a) en akkvisisjonsmodul for innsamling av dokumenter, som er i stand til å formatere dokumentene til minst ett felles format b) En segmenteringsmodul for generering av Annotated Text Files (ATF), for således å etablere Annotated Text Corpus, og

c) En disambiguasjonsmodul for tekstdisambiguenng, og

d) En fremvisningsenhet der settet av sammenkoplete termer tilveiebringes

som kontakter til den underliggende tekst

Ytterligere utførelser av oppfinnelsen er agitt i underkravene 14-25

Kort beskrivelse av tegningene

Oppfinnelsen vil bh beskrevet detaljert med henvisning til medfølgende figursett

Fig 1 er en generell oversikt av noen av modulene som fortrinnsvis er inkorporert i en foretrukket utførelse av oppfinnelsen Fig 2 er en skjematisk fremstilling av en akkvisisjonsmodul i samsvar med en utførelse av foreliggende oppfinnelse Fig 3 viser en skjematisk fremstilling av en segmenteringsmodul i samsvar med foreliggende oppfinnelse Fig 4 er en skjematisk representasjon av en disambiguasjonsmodul i samsvar med oppfinnelsen

Fig 5 viser et grensesnittdesign av APO-tnplettene (Agent, Process and Object)

Fig 6 viser en representasjon av APOer og SVOer (Subject Verb, Obkect Structures) og hvordan disse konsepter er organisert i tnpletter ved forskjellige abstraksjonsnivåer Fig 7 gir en skjematisk representasjon av konstruksjonen til TWS-lister (TWS = Target Word Selection)

Fig 8 viser prosessen til oppretting av foreslåtte domene-koder

Fig 9 viser prosessen for etablering av APOene

Fig 10 gir en skjematisk representasjon av elementer i en filtermodul i samsvar med oppfinnelsen

Som kort beskrevet ovenfor er hovedprinsippet som danner basis for foreliggende oppfinnelse å bruke grammatikkkkodet tekst for å danne et sett av kontakter som presenteres for brukeren som tnpletter

Akkvisisionsmodul

Denne seksjon beskn ver teknikkene for teksinnhenting fra www-sider eller andre dokumentkilder i et elektronisk format Fortnnnsvis vil foreliggende oppfinnelse fokusere på «avgrensede» dokumentsamlinger dvs at dokumentene er relatert til et spesifikt domene eller interessefelt Foreliggende oppfinnelse er likevel ikke begrenset til slike avgrensede dokumentsamlinger og kan brukes som søkemotorer for alle typer elektronisk tekst

Et hovedformål med foreliggende oppfinnelse er imidlertid å vurdere informasjonsbehovet til et selektert brukersamfunn, mer spesifikt hvilke dokumenter som brukes i brukerens arbeidsomgivelser, hvorfor de blir brukt/lest og hvordan de er brukt/lest Målet er å konstruere et sett med verktøy som understøtter mformasjonsfiltrenng - verktøy som er skreddersydd med hensyn til spesifikke dokumentsamlinger og brukersamfunn

Tekstsamlingen er i første omgang hentet i forskjellige formater og må konverteres til minst ett felles format Dette utføres av akkvisisjonsmodulen som spesifiseres i Fig 2

Som nevnt ovenfor er et formål med foreliggende oppfinnelse å tilveiebringe en søkemotor som blir brukt på en samling dokumenter som på en eller måte er beslektet Termen «corpus» brukes for å beskrive slike dokumentsamlinger, og før diskusjon av akkvisisjonsmodulen blir prosessen for å konstruere en corpus kort beskrevet

Termen corpus blir anvendt til en samling språktekster i elektronisk format og kan bestå av skrevet eller/og talt tekst Teksten kan representere en spesifikk sjanger eller språkmangfold Den omfattende informasjonsmengden som er tilgjengelig via internett har gjort det lettere å finne og innsamle data som kan inkorporeres i en corpus Når et system skal tilpasses til et brukersamfunn som jobber i et spesifikt domene, er det nødvendig å konstruere og styre en domene-spesifikk corpus, og dette øker behovet for verktøy som hjelper corpus-konstruktørene i arbeidet

Det finnes mange rapporter om forsking på corpus-hngvistikk rettet mot design av annotenngsskjemaer for lingvistiske kjennetegn i tekstene Derfor er det et formål med foreliggende oppfinnelse å frembringe universelle programvareverktøy som lett kan tilpasses til kundespesifikasjoner i forhold til de forskjellige input-tekstformatene, og i henhold til brukerens behov

Data-opptaket involverer bruk av universell programvare kjent innen teknikkens stand Corpus WorkBench (CWB) fra IMS ved universitetet i Stuttgart er et system for administrering indeksenng og undersøkelse av store tekst-corpora og kan brukes for tekst bestående av flere hundre millioner ord Tekstene kan annoteres med strukturell informasjon (dokumentenes logiske objekttyper som tittel, filtopper, paragrafer, setning etc) og grammatikalsk informasjon, dvs Part-of-speech tags (POS) og Constramt Grammar tags (CG-tags) CWB har en kommandohnje-forespørselgrensesnitt og forespørslene opererer mot tekstinformasjon arrangert i en matnks med informasjon som er koblet til hvert ord i teksten CWB kan derfor brukes som universell-programvare for å utforme tradisjonelle konkordansutganger som f eks en KWIC-konkordans (KW1C - Key Word In Context) CWB kan altså fremkalle lister av sammenstillinger og produsere fordelinger av frekvenssett for forskjellige parametre Slike lister kan sørge for basisen for identifikasjonen av nye innholdsord i innkommende tekster Konseptet «innholdsord» refererer vanligvis til de 4 hovedklasser av språket - substantiver, adjektiver, verb og adverb

WordSmith kan anvendes for å granske ordene, sammenstillinger, konkordanser, samsvar mellom tekster (dokumenter), tegninger som viser spredningen til forekomster beregne «keyness» (uvanlig høyfrekvente ord i ett dokument eller dokumentsegment sammenlignet med en større corpus) sortering og filtrering av ord og grupper, beregne statistikk, eksportere filtrerte ordlister, etc Både WordSmith og CWB støtter konstruksjonen av domene-spesifikke tesaun basert på klassiske algoritmer for automatisk ordbok-generenng («for hvert innholdsord i corpusen og for hvert annet innholdsord, finne ut hvor ofte begge forekommer innenfor et oppgitt antall ord av hverandre»)

Corpuskonstruksjonen må fokusere på kvaliteten for den innsamlete tekst For å sikre kvaliteten omfatter systemet registre med forskjellige typer informasjon om tekstene Eksempler er dokumentkilder innsamlingsdato, person som er ansvarlig for innsamlingen, språk, copynght-status, spredningshsens (tillatelse er oppnådd, tillatelse nektet eller begrenset) formatinformasjon, versjonsinformasjon, osv Disse registrene er fortrinnsvis lagret og administrert i en web-basert database-apphkasjon, og hvert regi-ster gis tilgang til en URL og dokumentet som er lagret som vedvarende i et web-tilgjengelig system (Multileveled Annotation File System, MAFS)

Tekstsamlingen kan være dynamisk og uten grenser, eller stønelsen kan være kjent i innledningsvis eller i det minste er det en estimert størrelse av corpusen Når størrelsen på corpusen er kjent på forhånd, gir dette uttrykk for at et mål er oppnådd og markerer slutten av en datasamhngsfase Hvis samlingen skal være uten grenser, må dokumentposisjonenngen være basert på et spesifikt sett kntener som passer for spesialinteresser/perspektiver av brukergrupper

Brukere innen et brukersamfunn vil ha forskjellige synspunkter på kategonene og subkategoriene av tekstene som skal samles Likevel er slike synspunkter ofte oppgitt i svært alminnelige termer f eks dokumenttyper, organisasjoner hendelser, spesielle år, etc Derfor er det første tnnn å få brukersamfunnet til å formulere deres databehov i klare termer Deretter å avgjøre hvilken datatype som skal inkluderes i corpusen, og i hvilke størrelsesforhold

Foreliggende oppfinnelse tilveibnnger også en metode for å fremkalle en dokumentlenkestruktur Lenkestrukturen er basert på en avstand-rom-modell der dokumentene er organisert med hensyn til faktorer som er definert av brukersamfunnet Den flerdimensjonale fremstilling av dokumentsettet er basert på en modell som beskriver dokumentklasser hvori hver klasse har underklasser i overensstemmelse med dokumentets status (produksjonsdato, produsentens myndighet, etc) Ved det høyeste abstraksjonsnivå er det fire hovedklasser angitt som

• Normative reguleringer - alle typer formelle vedtatte normer som lover, reguleringer, instruksjoner regler, etc som regulerer foretaket og aktiviteter

innenfor en institusjon

• Forhandling - dokumenter forbundet med innhold som gjelder i et administrativt byrå eller annen institusjon, etc • Kompetanse - alle typer klargjøring, rapporter, etc , dvs en person eller institusjon blir tildelt kompetansen (myndighet) til å fungere som undersøkelseskomité på

vegne av andre personer, institusjoner

• Debatt - alle typer synspunkter uttrykt i forskjellige typer debatt som taler, kommentarer, kromkkbøker i alle typer media, inkluderende nyhetsrapporter, intervjuer, etc

De fire generelle dokumentklasser (hver klasse med underklasser) vil støtte behovet for begrensning av søkeomfanget De fleste gjenfinningssystemer tilbyr valgmuligheten å begrense søkeomfanget ved å selektere databasedeler Klassifikasjonskriteriet som

ligger under dokumentklassene i forhold til foreliggende oppfinnelse er imidlertid forskjellig idet det er tatt hensyn til kontekstuelle egenskaper Det underliggende kriteriet er avledet fra jundisk teori (Eckhoff 1991) og tradisjonell klassifikasjonsteori (Langndge 1989 1992) Dokumentklassene skal også støtte definisjonen av hypertekstuelle koblinger mellom knutepunkter (noder) som er ekstrahert fra forskjellige dokumenter F eks kan knutepunkter (noder) ekstrahert fra debattdokumenter (f eks avis), på en måte være relatert til ytringer i forhandhngsdokumenter (f eks

diskusjoner i regjeringer) og videre i normative reguleringer (f eks lover, forskrifter, reguleringer) Knutepunktene (nodene) skal være sammenhengende i et hypertekst-system dvs forhåndsdefinerte koblinger mellom selekterte (ekstraherte) tekstsegmenter

(koblingene blir betraktet som konseptuelle baner gjennom tekstbasen)

Konseptet bak de faste kobhngsstrukturene er at brukeren lett skal kunne identifisere dokumentene som mest sannsynlig er relevante i forhold til de aktuelle informa-sjonsbehovene Kobhngsstrukturene blir presentert til brukeren som et grafisk bilde med hver klasse, underklasse og dokument representert ved et ikon Brukeren kan «åpne» ikonene for mer informasjon om dokumentene, og denne informasjon er også systematisert i forskjellige abstraksjonslag Ved det øvre nivå kan brukeren granske dokumentklasseinformasjon, ved det neste nivå kan brukeren granske informasjon som er kodet i Dublin Core-elementsettet og på det mest detaljerte nivå kan brukeren granske dokumentene ved bruk av hovedtriplettstrukturen Brukeren får kontroll over fremvisning av lagene og kan lett navigere gjennom dokumentsamlingen Ved å innlemme dimensjonen sentral og periferisk i forhold til f eks organisasjons- eller prosessuelle saker, er kobhngsstrukturene realisert som flerdimensjonale F eks kan en gruppe perifere dokumenter innenfor en klasse bh koblet til et sentralt dokument innenfor den samme klasse og sentrale dokumenter kan bh koblet til hverandre innenfor den samme klasse eller på tvers av forskjellige klasser (hierarkisk eller i nettverk)

Dokumentklasseordningen skal brukes når det avgjøres hva slags type tekster som skal inkluderes i hver klasse/underklasse og i hvilken mengde (aktualitet, temadekning etc) Avgjørelsen på en strategi for corpusens størrelse og komposisjon kan vanere gjennom disse brede dokumentklasser F eks kan det være passende å bestemme seg for en nokså lukket strategi for normative reguleringer og en mer uavgrenset eller blandet strategi for de andre tre klasser Brukerne må sørge for utvelgelseskriteriene

Corpusen skal omfatte tekster som allerede eksisterer i elektronisk format Data kan bh ervervet ved å skanne trykksaker (krever god utskrift og papir) og konvertere disse til elektronisk format Prosessen er tilbøyelig til å ha en feilrate og dyr og skal bare utføres når det er nødvendig for å imøtekomme brukerens dekningskntenum Filer i pdf

(portable dokument format) fremsetter en annen type problemer Dersom talematenale skal være innbefattet vil ikke disse filer bh konvertert gjennom en transkripsjons-prosess Filene vil bh beskrevet i en tilkoblet Dublin Core-registrenng og hvis hensiktsmessig koblet til segmenter i det skrevne materialet

Pre-behandhngstnnnene omfatter formatkonvertenng og oppdeling av dokumenter til setmnger (og noen andre typer av syntaktiske/leksikalske enheter) og indeksering av hele corpusen En komplett full-tekst-indeks av hele corpusen gjør det mulig å utføre statistiske analyseoppgaver Programvarene WordSmith og Corpus WorkBench kan fortrinnsvis bh brukt for disse typer oppgaver

Det finnes en stor variasjon av formater ("multiformity") og hvert format trenger spesiell behandling Kildetekstene (doc, rtf, html, SGML, XML, txt, pdf, etc ) må konverteres til minst ett fellesformat (inntak til den grammatiske tagging er den essensielle delen av diambiguasjonsprosessen (beskrevet nedenfor))

"Multiformity" i kildetekster og kildetekster med lav kvalitet kan resultere i en tidkrevende formatkonvertenngsprosess F eks høyt formatterte tekster har ord som ligger oppå bakgrunnsbilder, ord blir satt i «skjulte» kolonner eller tabeller, tekstene er ofte avbrutt av illustrasjoner, stavefeil bruk av bindestrek tabulatortagger enkle linjeskift mellom avsnitt, manglende tegnsetting, forkortelser, etc Det finnes normer for dokumentstruktur, men ikke for forfatterens skriveatferd Dette betinger et blandet verktøysett som støtter konverteringsprosessen

De domenespesifikke corpora må innta to former pga den programvare som skal anvendes og den nye programvare med spesielle formål som blir konstruert En Plain Text Corpus (PTC) inneholder rene tekstfiler og en Annotated Text Corpus (ATC) inneholder det samme sett av tekst med annotennger

Når en corpus er satt sammen ved bruk av elektroniske dokumenter er det behov for å lagre dokumentene i deres onginalformat Dette er nødvendig av flere grunner Onginalformatet inneholder ofte verdifull informasjon som må bh ekstrahert inn i metadata-beskn vel sene (f eks kan topp-teksten i html-dokumenter inneholde informasjon om forfatter, nøkkelord, produksjonsdato, språkversjoner, formatversjoner etc ) Denne type informasjon vil bh ekstrahert og tildelt felter i Dublin Core-elementsettet (DC)

Versjonsdata er nødvendig av to hovedgrunner

Brukt for å måle fremskritt og statistikk (hvor mange filer i de forskjellige formater

etc)

Brukt for å vite hvilke verktøy som skal anvendes i påfølgende behandling

(omforming til ren tekst, part-of-speech tagging etc )

Ikke-annoterte tekster er et passende input-format til forskjellige databehandlingsprogrammer - som Corpus WorkBench, WordSmith, ATLASti, forskjellige statistiske programmer, Part-of-speech taggere, Constraint Grammer taggere, etc

Et ideal a\ Plain Text Format kan være fra penoden da tekstsamlinger stort sett ble brukt for lingvistisk undersøkelse Særpreg som bokstavtype, bokstavstørrelse, tabeller og grafiske bilder blir ikke betraktet som særlig relevant for lingvistiske analyser og derfor blir de vanligvis fjernet fra corpustekster Imidlertid med henvisning til anvendelse av lnformasjonsfiltrenng, kan slik informasjon ha sin egen verdi Bokstavstørrelse kan f eks betegne at forfatteren legger trykk på visse fraser (stikkordfraser) eller antyder viktige synspunkter (veivisende funksjoner) osv Overskrifter til seksjoner/avsnitt betegner vanligvis innhold (hvis de er «sanne» makroproposisjoner som oppsummerer teksten som følger under) Enheter som er elementer i dokumentenes logiske struktur (som definert i dokumenttypedefimsjon, DTD) fremsetter ingen spesielle problemer hvis de er riktig merket (SGML/XML)

Foreliggende oppfinnelse er basert på en corpus med annotering - grammatikalske annotennger og annotennger som beskriver dokumentets logiske struktur

Foreliggende oppfinnelse vil bruke grammatiske annotennger som er produsert av andre, enten ved å anvende lisensierte constraint grammer taggere eller betalte tjenester fra «tagger»-firmaer CG-taggeren fra Centre for Computing in The Humanities (Bergen, Norge) anvendes for norske tekster Taggeren fra Lmgsoft (Finland) eller UCREL-taggeren fra Lancaster (England) vil anvendes for engelsk tekst Det finnes også flere muligheter angående tysk tekst De grammatikalske taggene fra de forskjellige taggerene normaliseres inn i et felles tagger-sett og konvertert tih XML-format

Foreliggende oppfinnelse vil bruke et spesialdesignet merknadsskjema (annoterings-skjema) for dokumentets logiske struktur I et veldig enkelt merknadsskjema, markeres bare avsnitt- og setningsgrenser Dette ses på som minimalt og obligatorisk for en corpus Merkede tekster tillater lettere automatisk manipulasjon og det finnes flere merknadstandard-forslag (det finnes enda ikke en generell godkjent standard for tekstannotenng) Vi har bestemt oss for å bruke annoteringsrammeverket angitt som Text Encodmg Initiative (TEI) TEI frembringer et sett med retningslinjer for hvordan et stort antall merknadstyper kan bh kodert i elektronisk format og bruker XML som merknadsformat 12001 utga TEI konseptet XML-skjemaet, som vil bh tilpasset for strukturspesifikasjoner TEI tar også hensyn til de nødvendige regler for fremtidens konvertering betinget av teknologiske forandnnger På det nåværende tidspunkt er XML et uavhengig utvekslingsformat som tillater maksimum overførbarhet Tekstsegmentenng

Fig 3 viser en skjematisk fremstilling av segmentenngsmodul i henhold til foreliggende oppfinnelse Segmenteringsmodulen virker med teknikker for å konstruere filer som er beriket med merknader som besknver dokumentets logiske struktur Segmentenngsprosessen inkluderer også metadata-tilordnmg og en foretrukket utforming av oppfinnelsen anvender Dublm Core Metadata Element Set I samsvar med oppfinnelsen er det foretrukket å konstruere et multinivåannoteringsfilsystem (MAFS)

Segmenteringsmodulen oversetter teksten til en strøm av enheterfdokumentenes, logiske objekttyper) Nåværende standardpraksis er merknader basert på SGML eller XML XML (Extensible Markup Language) er en undergruppe SGML (Standardized General Markup Language, ISO 8879) XML er et dataformat for å lagre strukturert og semi-strukturert tekst tilsiktet for spredning over et mangfold av media eller hardware/ programvare plattformer Et XML-dokument kan bh oppdelt (definert) til dets hierarkiske strukturerte komponenter og lagret i f eks en relasjonsdatabase Nåværende XML/SGML-kompatible dokumenthåndteringssystemer på markedet er vanligvis bygget på toppen av en objektrelasjonsdatabase Dette er i all vesentlighet et objekuag «plassert» på toppen av et eksisterende relasjonsdatabaseprodukt XML kan også bh brukt som et utvekslingsformat for data som tilhører relasjonsdatabasesystemer XML-merknader blir brukt som et dataomslag under overføring av teksten (eller andre datatyper) mellom systemer

XML (som SGML) er et meta-språk og det er ingen predefinert liste med elementer Brukeren kan navngi og bruke elementer ved eget valg I XML er det en valgfri mekanisme (obligatorisk i SGML) for å spesifisere elementene som er tillatt i en spesifikk klasse av dokumenter (dokumentklassen er spesifisert i ISO 15255 19199) Det som fremgår av dokumentene må være i overensstemmelse med denne type definisjon, eller mer spesifikt hvert dokument (eksempel) kan valideres mot DTD (Document Type Defenition) Et dokument i XML-format er selvbeskrivende og informasjon om dokumentet som er representert i merknadssystemet kan ekstraheres manipuleres og formatteres til kravene til forskjellig mål-programvare XML-dokumenter kan bh vist, søkt i og manipulert ved å anvende XML-verktøy

Pga de spesifiserte filter-valgmuhgheter vil segmentenngsprosedyren bruke et sett med faste uttrykk som identifiserer et sett med segmentenngsenheter Word, Punctuation Abbreviation, Acronym, Time (Date), Number EOS (End-Of-Sentence marker) Special {(Titles and Header <is-a> Sentence, Sentence <part-of> Paragraph)}

En skreddersydd grensesnitt tilveiebnnger støtte for å forbedre disse pre-definerte regler, og tilsette nye typer av segmentenngsenheter, og for å lette manuelle inngrep og koneksjoner i de segmenterte filene Segmentenngsmodulen genererer Annotated Text Files (ATF)

Når merknader er innført (lagret i ATF ene), inneholder filtoppen ("header') (av filen) generell informasjon om filen Denne registrenngen som er benyttet for versjonkontroll inneholder et sett med flagg som viser om filen har, eller ikke har vært igjennom ordboksjekk, ordtypeangivelse (part-of-speech tagging), cg-tagging, og informasjon tilordnet etter disambiguasjonen, f eks elementer i Dublin Core-metadataregistreringer

Denne registrenng av informasjon er nødvendig for å overvåke etterfølgende prosesser

- f eks når det konverteres fra ett format til et annet Siden de forskjellige typer av programvare som brukes i analyser har spesielle formatkrav, vil hvert dokument finnes i forskjellige versjoner Versjonskontroll er derfor meget viktig og er del av corpusdokumentasjonen Høykvahtetsprosedyrer og konsekvent informasjon om elementene i corpusen er essensielt for å måle fremgang, unngå dataduphkasjon, overvåke input-data-kvalitet for senere behandling i programvare for spesial-formål, som er brukt når tekster berikes med merknader eller ved analyse av tekster osv Formatproblemet kan ellers utvikles til å bh en flaskehals i corpusbehandhngen En konsekvent formatbehandhng vil sikre at det samme sett med transformasjons-skripter kan bh anvendt for deler av den samlede kildetekst i en kjønng Et XML-registrenngsformat vil også være nyttig for corpusdokumentasjonen og hvert element som er skrevet inn vil tilordnes en signatur

Det finnes hovedsakelig to begrensninger som gjør bruk av innsatt (embedded) XML som uhensiktsmessig for koding av syntaktisk informasjon (fra Mengel 2000) «Innførte strukturer for syntaktisk informasjon begrenser beskrivelsesvariasjonen til en relasjon, part-whole '-relasjonen Disse strukturene kan representere en hierarkisk arrangert sek-vens av innførte segmenter, men er ikke i stand til å kode syntaktiske relasjoner eller nettverksstrukturer I denne strukturen må høyere ordens elementer (f eks setninger) omfavne en kjede av kontinuerlige sub-elementer/fraser, eller ord)) Diskontinuerlige bestanddeler kan ikke representeres»

Siden det bare er én relasjon med denne type merknad, finnes det ingen midler for å merke forbindelser mellom høyere ordens elementer og deres bestanddeler Standardrelasjonen er del-helhets"-relasjonen (part-whole ralation)

XML og multmivå- merknader

Behovet for å representere overlapping og diskontinuerlige bestanddeler viser at en tilleggsmulighet er å lagre og å administrere merknader i adskilte eksterne filer Effekti-vitetskrav indikerer "embedded option") der filene lagres i et XML-kompatibelt dokumentbehandhngssystem Det foreslåtte system vil utforme begge opsjoner med filer som er lagret og behandlet i sjikt (et Multileveled Annotations File System)

En lagring og behandling av merknader som er organisert i sjikt (abstraksjonsnivåer) støtter datauavhengighet og mulighet for å definere utsnitt hk dem i tradisjonelle database-behandhngssystemer (inkluderende et metadatasjikt som representerer forbindelsene mellom filelementer i de forskjellige sjikt)

Det nedre sjikt er et sett filer med alle typer av merknader innført, dvs merknader for strukturell informasjon og grammatikalsk informasjon og dessuten spesielle merknader for tekstrekkeviddekanter ('text span edges") Sistnevnte muliggjør eksplisitt fremstilling av ord- og setnmgsidentifiserere (brukt for å representere tekstrekkeviddekanter) Det nedre sjikt inneholder også filtoppinformasjon (se ovenfor)

Det midtre laget er et sett filer dynamisk generert med subsett av XML-merknader, lagret i eksterne filer (f eks merknader for tekstrekkeviddekanter som representerer kilden og målforankringer i hypertekst-strukturer) Slik vil det bh mulig å representere forskjellige hypertekstuelle perspektiver som er plassert over den samme underliggende tekstbasen Overlapping og usammenhengende bestanddeler vil bh behandlet via det mellomliggende sjikt

Det øvre sjikt utgjør filer som er optimalisert for spesifiserte behov innefor visse brukerområder Sjiktet kan bh begrenset til et subsett av merkede corpora og/eller til et begrenset sett med strukturelle grammatiske og semantiske merknader Dersom et brukersamfunn foretrekker/godkjenner visse grammatikk-baserte filtre og legger bort andre (betrakter noen filtre som mmdre brukbare), kan dette sjikt bh optimalisert i henhold til brukerkrav

Fordeler

Sjiktene gir system-designeren en høy grad av fleksibilitet i forhold til spesifisering, avstemming og optimalisering av søkeselektivitet og søkefunksjonalitet Fra det nedre sjkt kan designeren (basert på brukersamfunn-ønsker) ekstrahere et subsett med merknader og lagre disse i en mellomliggende sjikt (Det nedre lag utgjør filsystemet med alle merknader, bortsett fra merknader som er tildelt samme tekstrekkevidder eller del av tekstrekkevidder som tagger overlappende og usammenhengende bestanddeler, og merknader som markerer hypertekst-ankere)

En spesialprogramvare (designer's verktøy) vil tilveiebnnge fasiliteter for system-designeren som er interessert i å skreddersy merknadene og/eller attributtene som er assosiert med hver merknad Designeren vil gis mulighet til å selektere, akseptere, ignorere, begrense, redigere (f eks gi nytt navn) eksisterende merknader innenfor et arbeidsområde (buffer) og lagre deres sluttutvalg som et merknadsperspektiv Det mellomliggende sjikt er faktisk et lagret sett av filer som reflekterer forskjellige perspektivei på den underliggende tekst Systemstrukturen har visse overensstemmelser med «utsnittsmuhgheten» eller «subskjema-muhghet» i tradisjonelle databasebehand-hngssystemer Når informasjon om hypertekstuelle koblinger mellom tekstsegmenter lagres og behandles i eksterne filer blir kobhngstype tilføyd til søke-operand-settet noe som muliggjør ervervelse av parvise tekstsegmenter (eller bunter av tekstsegmenter som avhenger av kobhngstypens kardinahtet) Pragmatisk-semantiske koblingstyper som er brukt som søke-operand (f eks <problem has solution>, <more details in>, <agreement between> <argues against>, etc) vil gjenfinne tekstsegmenter som avspeiler dypere semantiske relasjoner enn det som er inkludert i hvert av tekstsegmentene isolert sett

De midterste og øvre sjikt vil genereres dynamisk (for hver tekstbaseutviding eller forandringer i brukerønsker) Derfor kan nye filer med merknader bh tilføyd til «eldre filer» slik at disse sjiktene vil støtte fremtidige applikasjoner (ikke-forutsette typer av informasj onsbehov)

I automatisk modus markeres tekstene (struktur og grammatikk) uten manuell intervensjon Hvis de automatiske verktøyene resulterer i flertydighet, kan disse korrigeres med manuelle inngrep ved å gå inn i en merknadsredigenngsmodus (for å øke kvalitet av corpus) Designeren kan velge å beholde de foregående merknader eller tillegge attnbuttverdier i en versjon og erstatte dem med nye merknader og/eller attributtverdier i en ny versjon

Metadata er data som beskriver attributter til en ressurs Metadata støtter et antall funksjoner plassering, dokumentasjon, evaluering selektenng, etc Metadataen kan innføres *'embedded! (del av dokumentet selv) eller eksternt Spørsmålet som oppstår er hvilke typer informasjon som skal opptas for hvert dokument inkludert i corpusen<9 >Brukersamfunnene vil mest sannsynlig ha behov for forskjellig slags informasjon og ikke nødvendigvis vite om dette fra begynnelsen For å kunne beskrive datatypene er det et beho\ for et generelt skjema som gjør det mulig å samle og registrere metadata for dokumenter

I samsvar med foreliggende oppfinnelse er det foretrukket å bruke et sett med standard bibliografisk informasjon i det aller høyeste metadatanivå Dublin Core synes tilfredsstillende idet dette er en struktur som er fleksibel uten å være for komplisert Hovedideen bak Dublin Core-utviklmg var å bygge et metadata-elementsett som er så mangesidig at ethvert internettdokument kan beskrives med det, men på den andre side er så enkelt at forfattere selv kan tilveibnnge metadata v Dublin Core er unikt i forhold til dets universelle karakter og kan bh betraktet som en slags «laveste felles benevner»

Hypertekstuell arkitektur

Foreliggende oppfinnelse omfatter to generelle klasser av assosienngsstyper, dvs dokumentnivåassosienngstyper og segmentmvåassosieringstyper og er gitt mer detaljert i Tabell 1

Dokumentnivå-assosiasjonstyper er koblinger mellom noder som er hele dokumenter APOS (Agent Process Object Structure) ved dette nivå vil være informasjon ekstrahert fra Dublin Core Element-settet Disse assosiasjonstyper betraktes som kontekstuelle assosiasj onstyper

Segmentmvå-assosiasjonstyper ("Segment Association Types"), inkluderende veivisende assosiasjonstyper (Lead Association Types') Den sistnevnte relaterer APOS innen lokale kontekstuelle eller argument-fremsettende rammer som' Problem' or "Solution", etc Andre anvendelser vil være APOS ekstrahert fra det samme dokument eller dokumenter som er nært forbundet med hensyn til hendelser, organisatoriske saker osv

Disambiguasionsmodul

Den neste operasjon som utførest er tekst-disambiguasjon Fig 4 gir en skjematisk presentasjon av en disambiguasjonsmodul i samsvar med foreliggende oppfinnelse

Språk-kilder så som corpora, tesaun, leksikalske databaser, systemer for grammatikkanalyser, etc representerer omfattende investennger, og disambiguasjonen av tekst er derfor basert på gjenbruk og integrasjon av eksisterende kilder Disambiguasjonsmodulene benytter teknikker for konvertenngs av utgang ("-output") fra en CG-tagger til et merknadsformat i samsvar med strukturen/arkitekturen som er spesifisert for Multileveled Annotation File System (MAFS) Ifølge oppfinnelsen er det foretrukket å ekstrahere et subsett av grammatikalske merknader som er levert som output fra CG-taggere Disse ekstraherte subsett blir konvertert til merkede innganger (både innførte, og i eksterne indeksfiler), med hver post koblet til ordene eller ordkombinasj onene i teksten

Disambiguasjonsprosessen dekker også tilnærmingsmåter som er relatert til Target Word Selection-prosedyrer (TWS) for å forbedre strategien av tekstindeksenng

Den foretrukne utforming av oppfinnelsen anvender ekstraherte subsett med grammatikalske merknader (koder) kombinert med et utvalgt sett av semantiske koder Oppfinnelsen anvender eksisterende semantiske kilder kodet i Domain Specific

Thesaurus (DST) som eies av brukersamfunnet (eller brukersamfunnet lisensierer DST)

Informasjonfiltrerings-apphkasjoner som involverer oppgaver som er relatert til naturlig språkbehandling krever merkede tekster Som nevnt ovenfor refererer ordet merknad til merking av informasjon Med hensyn til disambiguasjonsprosedyrer betyr dette spesielle koder som beskriver forskjellige lingvistiske egenskaper som er tildelt til ordene i tekster Den fundamentale lingvistiske tagging er Part Of Speech-tagging (POS-tagging) Denne type tagging blir betraktet som obhgatonsk for lnformasjons-ekstrahenng og semantisk disambiguasjon Constraint Grammar tilveibnnger tagging ved et høyere nivå En Word Sense Disambiguation(WSD)-prosess er basert på i det minste POS-tagging

Multinivå-tagginger krever en avgjørelse med hensyn til merknadsskjemaene anvendt for hvert nivå, og hvordan utgangen konverteres fra de forskjellige behandhngsverktøy til formater i samsvar med merknadsskjemaene Denne multinivå-tilnærmelsen trenger ekstern lagring av merknader (koblet til ord, ordkombinasjoner setninger eller andre strukturelle enheter (tekstsegmenter) i tekstfilene)) Tekstsegmenter kan markeres med kant-merknader ('edge-tags )(attnbutt-verdipar), hver merknad refererende til nedre-mvå-enheter (og med pekepinner til fysiske adresser) En multinivå-løsning krever videre bevaring av tekster etter segmentenng

Enheter av høyere nivå, så som sener av setninger (paragrafer, seksjoner etc) vil også ha tildelt et sett med koder som henviser til ledefunksjoner Tekstrekkevidder kan klassifiseres ifølge overliggende kommunikative funksjoner, f eks besknvelse av en situasjon, talemåter relatert til problemer, vurdennger av problemer, sammenligninger av problemer, foreslåtte løsninger selekterte løsninger, vurdenng av løsninger, osv Slike ledefunksjoner vanerer med tekstsjanger, og det er mulig å forestille seg substrukturer (systemer eller ledefunksjoner) for enhver sjanger Leksikalske signaler for ledefunksjoner er identifisert og lagret/vedlikeholdt i en separat stikkordfil (stikkordfraser) Løsningen som tar sikte på oppdeling av lndeksstrukturen ved at grammatikkbaserte koder kan bh filtrert i forhold til om de er avledet fra omfattede tekstdeler (tekstdeler med semantiske-pragmatiskekoder som henviser til lede-funksjonen) Som en konsekvens kan brukeren be om å få vist APOS som oppstår «inni» antatt «mer relevante» tekstsegmenter, f eks alle segmenter som er kodet som om de handler om problemer relatert til det aktuelle domenet

Kvaliteten til systemets selektivitet er sentralt Tekst som er benket med grammatikalske og semantiske koder (merknader) vil støtte semantiske applikasjoner bedre, og forbedre prestasjonen av datautforskning i tekster, og kan også støtte foremngen av dataopptak ('data mining") og tjenester med applikasjoner for semantisk gjenfinning

Kildeteksten (rene textfiler) som er tagget (benket) med grammatikalske merknader er en forutsetning for å konstruere søke-makroer med grammatikk-baserte søke-operander I samsvar med foreliggende oppfinnelse har grammatikalsk koding sin svakhet i at det leder til «over-kodenng» Hvis ekstraheringsprosedyren ikke er begrenset til visse grammatikalske kategoner vil hvert ord i teksten bli tildelt en grammatikalsk merknad bestående av forskjellige informasjonstyper (ordets grammatikalske kategon og funksjon, og andre typer av morfologiske og syntaktisk informasjon) Detaljert grammatikalsk informasjon er interessant for forskere som er opptatt med studier i språkbruk (lingvistiske kjennetegn), men foreliggende oppfinnelse er imidlertid basert på et forskjellig sett med bruksperspektiver

Et sett med overføringsregler påvirker designet av et nytt verktøysett og blir brukt av systemdesigneren i løpet av ekstrahenngsprosedyren Ekstrahenngsprosedyren er også påvirket av et sett grammatikkmønstre realisert som byggeklosser i søke-makroen

(komponenter i filter-opsjonene)

Merknader som angir de forskjellige grammatikalske ordkategonene blir brukt som et middel for å konstruere lndeks-mnfønnger til punkter i teksten Nominale uttrykk kan tyde på visse typer av proposisjonalt innhold, verbale uttrykk kan tyde på visse handlinger, og adjektiver eller adverbiale setninger kan tyde på visse måter av oppnåelse og på styrkegraden relatert til oppnktighetsforhold POS-merknader former en viktig del av input'en til Word Sense Diambiguation (WSD) Resultatene av en TWS-prosedyre kan for noen brukerapplikasjoner være tilfredsstillende i byggingen av dokumentets tematiske profil

Grammatikkbaserte søke-operander kombinert i søkemakroer (grammatikalske søke-mønstre) vil hente setmnger fra de underliggende tekster Dette er likevel ikke en tilstrekkelig filtrering (tilstrekkelig i forhold til visse kriterier som utformer informasjonsbehovet) Ord som er kodet som substantiver, verb eller annet, må filtreres videre og valideres for å tildele diskriminerende besknvere som er nødvendige deler av emnerammer (Topic frames") For hver validering, enten ved manuell intervensjon eller/og en TWS-prosedyre (tesaurussjekk), kan designeren (brukeren), eller systemet tildele en eller flere semantiske koder til ordene (eller andre tekstuelle enheter, fortnnnsvis semantiske koder ved forskjellige abstraksjonsnivåer) Disse semantiske koder kan også bh tildelt til setninger, paragrafer eller seksjoner som inneholder de aktuelle ordene F eks kan det bh foreslått at koder ved et høyt abstraksjonsnivå tildeles tekstuelle enheter som paragrafer eller seksjoner Videre er semantiske koder på et lavere abstraksjonsnivå forbundet til mindre tekstuelle enheter så som en setning

TWS-prosedyrer kan også anvendes som en komponent i et språkavhengig anafor-oppløsningsprogram (et program som finner det foregående ord eller ordgrupper som mest sannsynlig refereres til av et grammatikalsk substitutt så som pronomener) I det enkleste tilfellet er T WS-prosedyren mellom tilgrensende setninger brukt for å identifisere/validere relasjonen mellom et grammatikalsk substitutt og dets korrelat som manifistert i to nominale uttrykk (med syntaktiske og/eller semantiske nyanser)

Ordtype-taggere ("Part-Of-Speech taggers") er klassifiserere som velger den mest sannsynlige merknaden for hvert ord i en kontekst (vanligvis en setning), og med referanse til et gitt sett av mulige merknader Hvert ord er tildelt en merknad (eller annotenng) som indikerer dets morfologiske kategori (substantiv, verb, adjektiv, ) og morfologiske egenskaper som antall, kjønn, tid, osv (en-tall, flere-tall, basisform, fortid, komparativ, ) POS-taggere har nådd et rimelig tilfredsstillende nivå av nøyaktighet og mengden av slike ressurser tilgjengelig på www vokser stadig Deres til-gjengelighet er likevel sterkt avhengig av språket

Bonn's (2000) undersøkelser bekrefter at taggerytelse i en viss grader avhengig av teksttypen (sjanger) Han påstår at det er en mangel på kunnskap angående prestasjons-forandringer når det flyttes fra treningsdomenet (tekstsj anger) til andre domener Prestasjonen av taggere på en corpus kan være ujevn (siden de representerer forskjellige underliggende teorier og derfor har forskjellige merknadssett i henhold til dekning og størrelse) og også kan være trent på forskjellige tekstsjangere Informasjon om dokumentklasse og tekstsjanger vil derfor påvirke valget av gramatikktagger hvis det finnes flere konkurrerende taggere tilgjengelig Kontrollen av taggerprestasjonen i forhold til tekstsjanger påvirker derfor den påfølgende merknadsekstrahenngs-prosedyren Det vil si at reglene for overføring blir tilpasset til samlede prestasjonsdata

Dersom tekstene i en corpus er merket ved bruk av forskjellige merknader, er det ingen garanti for konsistens mellom de forskjellige merkede tekster Dette er selvfølgelig et viktig problem innenfor lingvistisk forskning Når målet er å gjøre essensiell grammatisk informasjon tilgjengelig som søke-operander, kan slike forskjeller bh minimalisert ved å konstruere kartleggingsskjemaer Forskjellene er systematisert og konverteringsregler integrerer merknadssettene fra de forskjellige taggere inntil ett konsolidert merknadssett

I foreliggende oppfinnelse kartlegges prosedyren for integrering og konsolidering av forskjellige merknadssett overensstemmende inntil et «standardterm-skjema» og «merknadsnomenklatur» Settet som inneholdes av merknadnomenklaturen ("Tag nomenclature') vil være et redusert merknadssett i forhold til de forskjellige typer av grammatikalsk informasjon levert fra de forskjellige taggere som er anvendt Kriterier for reduksjon reflekterer avgjørelser som er tatt om hvilke typer av merknader som det skal tas hensyn til ved konstruksjonen av søke-makroer med tilfredsstillende diskriminerende evner Merknadsnomenklaturen vil bh utvidet for hver «ny» tagger brukt i disambiguasjonsprosedyrer Utvidelsen er basert på data som er satt sammen gjennom sener av undersøkelsestnnn, hvor det viktigste er forbmdelse og adskillelse av merknadstyper (F eks er det tilfredsstillende å definere en merknad som dekker substantiv entall og substantiv flertall, er det nødvendig å beholde alle verbtidene som adskilte merknader eller vil basisform, nåtid og fortid være tilstrekkelig) Et annet viktig trinn er å se om det er et behov for tilpasning i forhold til forskjellige tekstsjangre) Når disse undersøkelsene er blitt utført og merknadsnomenklatur oppdatert i konespon-danse er integrasjonen og konsohdenngsprosedyren til en viss grad hk skjema-lntegrasjonsprosedyrer i tradisjonelle databasesystemer

Imidlertid, siden hver merknadsprosedyre produserer en «ATF (Annotated Text File) med grammatikkmerknader» er det mulig å lagre og behandle de originale og detaljerte merknader i et adskilt filsystem ((ATF <part of> Bottom Layer) <part of> MAFS)) De reduserte og konsoliderte merknader lagres og behandles i en annen del av det «nedre sjikt» Detaljerte merknader i det «nedre sjikt» støtter ekspenmentenng som er rettet mot å finne det «beste» merknadssett for lnformasjonsfiltrenng til hvert bmkersamfunn som ønsker tjenesten

Constraint Grammar- merknader

I en foretrukket utforming av foreliggende oppfinnelse, foreløpig kalt for «synopsis» blir Part-of-Speech-tagging brukt for leksikalsk fiertydighets-oppløsmng

Et høyere nivå av grammatikalsk tagging er syntaktisk oppmerking hvon hele eller deler av parsing-trær er merket for hver proposisjon Dette markenngsnivå utvikles raskt En

Constraint Grammar gjenkjenner ord-mvå-flertydighet, f eks i en frase som «the claim» er ordet claim markert som et substantiv siden et bestemmelsesord aldn blir fulgt av et verb

Studien av verbene er kompleks pga listene av former som verbene antar og typer av substantiver eller substantivfraser i argumentposisjon som sammen danner en verbfrase En Constraint Grammar inkluderer informasjon som er nødvendig for senere syntaktisk-semantisk analyse så som semantikkroller til substantivene og semantiske begrensninger Verbflertydighet er relatert til forskjellene i substantivene som inntreffer samtidig i setningsstrukturen rundt det samme verbet Klassifisenng av verb i til transitiv, intransitiv, og transitiv/intransitiv er en del av disambiguasjonsprosessen I forhold til de grammatikalske karakteristikkene av verbene er listen av argument-substantiver økt Således er samtidig inntreffelse av verb og substantiver av interesse, men også posisjonen til ho ved verbet og hjelpeverb relativt i forhold til hovedverbet og substantivenes posisjoner Adverbiale partikler spiller også en viktig rolle i semantisk disambiguasjon av verb (dette gjelder i hvert fall for de skandinaviske språkene, men disse mønstre er ulike fra det ene språk til det andre)

De semantiske relasjoner til samlokaliseringer av verb og substantiver kan brukes for å løse noen typer av ambiguititet og de korresponderende grammatikalske merknader vil derfor støtte lnformasjon-filtrenngsapphkasjoner (setningsekstrahenng, tekstoppsum-mering. node-identifikasjon, indeksgenerenng etc ) Grammatikalske søke-mønstre uttrykt i søke-makroer som er arrangert i en genensk-spesifikk struktur, vil også støtte tekstuell granskning som er en viktig komponent i konstruksjonen av avanserte filtermuligheter

Konstruksjonen av søke-makroer er derfor avhengig av avlevering fra grammatikk-taggere ( constraint grammer taggers ) og for hvert spesifikke brukersamfunn (typiske oppgaver, typiske informasjonsbehov, etc) er typene grammatikalsk informasjon som blir levert nøyaktig overveid for å designe en konseptuell ramme for filteropsjoner Foreliggende oppfinnelse tilveiebringer en ramme basert på tnpletter i hovedformen subjekt-verbobjekt-strukturer (SVOS) Disse er abstrahert inntil en lignende tnplett med fasetter for agent, prosess og objekt (APOS) med assosiasjoner til inntreffelses-settet for hver av dem (inntreffelse i forhold til SVOS som er forbundet til APOS) Informasjonen om lnntreffelses-sett må bh registrert for hver tekst (dvs tekst som er ekstrahert fra dokumentet som er en del av en dokumentklasse) og for hver SVOS-utvelgelse Disse registreringer danner basis for sammenligning for å finne frekvens-score av tnplettene og deres komponenter Systematiske sammenligninger kan avdekke tnpletter eller fasetter med høye disknminasjonsevner og i det minste danne en grunn for å selektere essensielle tnpletter eller fasetter Valg av essensielle tnpletter/fasetter vil selvfølgelig gjøres i allianse med representanter fra brukersanifunn

Uansett hvilken programvare som anvendes under de analytiske oppgaver, forutsetter foreliggende oppfinnelse aksess til ressurser, hvon ord med lignende meninger (eller funksjoner) er gruppert Lingvistiske forekningssamfunn har produsert verdifulle kilder av lingvistisk informasjon, og noen av resultatene er enten gjort tilgjengelig som gratisprogramvare, eller det er mulig å erverve spesielle lisenser for videre bruk i nye applikasjoner Disse ressurser inkluderer domenespesifikke tesaun (tematiske tesaun) og flere leksigrafiske tesaun Det skal understrekes at slike tesaun representerer bestående kunnskap og vil bh gjenbrukt hvis produsentene eller opphavsrettighetene tillater det «Tesaurusfiltrenng» er videre beskrevet nedenfor

Target Word Selection

Prosedyren Word Sense Disambiguation (WSD) er avhengig av det som er «unit of meamn<g> » Hvis WSD er basert på output fra POS-taggere er enhetene ord - og en WSD ved enkel ordboksjekk vil ikke være pålitelig (polysemisk, forskjellige konsepter passer for hvert ord, etc ) Et ord som en isolert enhet har ingen semantisk disknminerende evner - for å danne en pålitelig WSD må ordet være klassifisert i henhold ul det tekstuelle innhold det fremkommer i WSD-prosedyren må derfor valideres, enten manuelt eller av programmer som validerer klassifisenng basert på semantisk constraint grammar

Foreliggende oppfinnelse er basert på forutsetningen at det er mulig å identifisere et visst tilfredsstillende nivå av konseptabstraksjonen med hensyn til konstruksjonen av filtermuhgheter som støtter målonenterte undersøkende søk i et visst brukersamfunn Konseptabstraksjonen er prosedyren som selekterer et visst sett av lavere nivå konsepter i et konsepthierarki (tesaurus) og sporer settet til ett eller flere øvre nivåer av (abstrakte) konsepter Altså, i stedet for å bruke termen WSD, er en mer treffende term i foreliggende oppfinnelse Target Word Selection (TWS), dvs å supplemente mdeks-mnganger ved å utvelge ord/konsepter fra et visst abstraksjonsnivå i eksisterende leksikalske databaser, dvs domenespesifikke tesaun (DST)

Konseptabstraksjon er en mekanisk operasjon som gjør et konsepthierarki enklere Angående mdeksinnfønnger, organiserer foreliggende oppfinnelse disse inntil tnpletter, hvon merkede ord som komponenter i SVOS (Subject Verb Object Strucures) blir ekstrahert fra setninger og deretter videre abstrahert til tnpletter i form av APOS(Agent Process Object Structures) Den utøvde prosessabstraksjonen er en lovende tilnærming for datareduksjon Det onginale ordet (som er en komponent i SVOS) er koblet til høyere nivåkonsepter (en komponent i APOS og hovedsakelig gjennom IS_A-relasjoner) Det er derfor mulig å vise assosiasjonene (forekomster av en viss assosiasjonstype) i semantiske nett (i dokumenter, noder eller setninger siden hvert ord eller mdeks-innfønnger også implisitt inkluderer referanser til slike enheter) Disse semantiske nett er basert på retningslinjer som er gitt for RDF (Resource Descnption Framework) med XML for deres syntakse og URL"ene for å spesifiseresarnmenlenkede objekter

Vedlikehold av indeks-innfønnger er utsatt for feihng(overensstemmelsesproblemer mellom de forskjellige indekserere) Kazuhiro (2000) oppsummerer fordelene av å bruke konseptabstraksjoner (i et slags datareduksjonsperspektiv) og gir en kort besknvelse av tre teknikker angitt som flat-dybde-metode, flat-størrelses-metode og flat-sannsynhghetsmetode Pga vedhkeholdsarbeidsbyrden relatert til klassifikasjons-strukturer er det ønskelig å minimere konseptene og holde strukturene så tydelig som mulig Denne tilnærmelsen er innbefattet under termer som "minimalisme" og "koherens' Minimalisme må være balansert mot krav til semantisk disknrmnasjons-evne som igjen må være vurdert i forhold til apphkasjonsformål Konseptabstraksjoner generaliserer konseptbesknvelser og oppnås inkrementelt fra tekster Konseptabstraksjoner gjennom ordboksjekk kan bidra til en eksakt og kompakt konseptbeskrivelsesutvikhng Imidlertid kan en for overdreven abstraksjon senke systemets pålitelighet (feil «kunnskap» blir representert)

Disse angivelser av fordeler er således tilsvaarende velkjente prinsipper innenfor klassifikasjonsteon, og teknikkene er faktisk et sett av klassifiserende datareduksjons-regler (makroregler) med formål å forenkle konsepthierarkier Menneskelig analyse trengs for å vurdere/ validere de datamaskinassisterte operasjoner, inkludert sammenligninger mellom varianter av de anvendte regler Denne prosedyren er del av «tesaurusbruk og ekspansjon»

Hvis konseptstrukturen i en tesaurus tillater flerfoldig nedarvmg ('lnhentances") kan abstraksjonsprosedyren enten abstrahere til en av disse eller til begge Den første kan forårsake en abstraksjon i «feil» retning, den sistnevnte kan forårsake overflødig semantisk ambiguitet (produserer 1 m-korrespondanser) Ved flerfoldig nedarving ("multiple lnharitances") må abstraksjonsprosedyren tilsvarende være basert på informasjon som er ekstrahert via en semantisk constraint grammar (basert på sammenstilling (kollokasjon) av ord klassifisert inn i grammatikalske kategorier og inferensregler for sannsynligheten til de forutgående fenomen)

Domenespesifikke Tesaun

En domenespesifikk tesaurus er liten eller medium i størrelse, og går ut på å forklare memngen(e) av et ord via en kortfattet definisjon med henvisning til et domene av

interesse For norske tekster har vi planer om å bruke en terminologisk database relatert til Petroleum Affairs, oppnnnehg utviklet hos Center for Computmg in The Humanities Tesaurusen må imidlertid transformeres til kravene som er gitt for XML som merknads-formatet

Lister av kandidattermer av domenene kan ekstraheres fra lingvistisk behandlede tekstcorpora En term er et ord som kan assosieres med et domene-spesifikt konsept og vanligvis antar formen av en nominal ekspresjon Identifisenngen og kodingen må ta hensyn Ul at det samme ord (eller ordgruppe) kan ha forskjellige grammatikalske funksjoner i teksten TWS anvendes iterativt ved å mappe konseptene i domenespesifikke tesaun (med morfologiske varianter) mot ord som er ekstrahert til SVOS ene (Subject Verb Object Structures) Konseptene i de domene-spesifikke ordbøkene som ble returnert med verdien «no match» blir da mput til en DWS-prosedyre mellom disse «no match»-konseptene og konsepter som er kodet i mer generelle tesaun (leksikon) Denne kartleggingsprosedyren søker etter synonymer og/eller abstraherte konsepter, og disse «erstatninger» blir da kartlagt mot SVOS'ene i en andre runde Konseptabstraksjonen er begrenset til visse subsett av konsepter som er organisert i den generelle tesaurus, f eks ved å begrense søket til visse abstraksjonsnivåer (opp) Sluttavgjørelsene om slike begrensninger vil være basert på tilbakemelding fra brukersamfunn som ber om filtrenngsmekanismer som ligger under de undersøkende søkemuligheter

TWS som er basert på domenespesifikke tesaun (f eks basen Petroleum Affair eller andre) kan lede til en dypere semantisk klassifikasjon basert på identifikasjon av hvordan et spesifikt ord saminntreffer med andre ord som foreligger i SVOS-ekstraksjonene Begivenheten av to eller flere ord innenfor en veldefinert enhet (frase, setning) blir kalt for en kollokasjon Kollokasjoner er beregnet basert på kollokasjonens mål f eks G-testen for Poisson fordelinger (Quasthoff 2000) SVOS'ene vil derfor ikke avsløre kollokasjoner i denne forstand SVOS-ekstraktene skal likevel minst gjengi hvordan ord saminntreffer innenfor setninger sammen med informasjon om ordets grammatikalske funksjoner Denne informasjon kan bh kalkulert i programvaren Corpus WorkBench (CWB) med forutsetningen at det «nedre nivå» i Multileveled Annotation File System er konvertert Ul et format som er kompatibelt med CWB krav Både CWB og mer generelle XML-verktøy kombinert med skreddersydde nye verktøy kan produsere frekvensmformasjon som er nødvendig i visse filteropsjoner Det samme sett av programvareverktøy kan også anvendes når det genereres nærhetsinformasjon som er essensiell i adskillige grammatikkbaserte søke-makroer (filtermodul) F eks forutsetter en filteropsjon aktiveringen av søke-makroer som identifiserer alminnelige substantiver merket som objekt i en setnmg og som opptrer som subjekt i tilgrensende setning eller setninger innenfor samme avsnitt (avstandsoperator) Søke-makroen er en implementenng av en algontme for å beregne en nærliggenhetsfaktor (setningavstand mellom fellesnavn (substantiv) som objekt, og det samme fellesnavn (substantiv) som subjekt) og bruker nærhetsmål i vektingsprosedyrene Nærhetsmål blir brukt som input i filteropsjoner (beskrevet nedenfor)

Generelle Tesaun

En generell tesaurus er medium i stønelse eller stor, med formål å forklare memngen(e) av et ord gjennom en generell besknvelse Disse generelle beskrivelser, avhengig av ordets semantikk-type, kan inkludere informasjon som klassifiserer ordet til en gruppe av lignende ord, informasjon som besknver egenskaper, informasjon om deler, mnfor-masjon om oppnnnelse, informasjon om funksjoner osv Labropoulou (2000) angir disse forskjellige relasjoner mellom ord (konsept) og desknptorer som formell rolle, konstitutiv rolle, tehsk rolle, og representerende rolle Disse relasjoner underordner mange andre relasjonstaksonomier Prosedyren for TWS som er en nødvendig bestanddel av tesaurus-ekspansjon vil ha fordel av denne taksonomi Likevel er input til eks-pansjonsprosedyren begrenset til ord i dokumenter med en viss keynessverdi (beregnet mot en stor generell allmenn, tilgjengelig corpus, samme språk) De genererte kode-til-kode-kobhnger mellom ord som passer keyness-terskelverdier er del av tesaurus-strukturen Det er flere årsaker til restnksjoner som er pålagt generell tesaurusbruk

Når substantiver og verb (i deres basisform) er lokalisert i teksten, vil et generelt ordboksoppslag ha som formål å oppnå en videre semantisk klassifisering Likevel vil en enkel sjekk ikke resultere i disambiguasjon og resultatet kan være mer forvirrende enn avklarende angående seleksjonen og tildeling av en riktig semantisk kode (abstrahert konsept) F eks vil meningen av det samme substantiv vanere ved verbene og meningen av verbene forandres med substantivet og semantiske karakteristikker av substantivet Det er også vanskeligere å avklare de semantiske grenser av abstrakt-substantiver

Emnerammer fTome frames")

Denne seksjon skildrer i store trekk prosedyren for konstruksjon av sammenlenkede emnerammer I denne beskrivelse er fokus på to basiskomponenter - SVOS en og

APOS en Disse komponenter er formalisert som et tnplett <konsept, assosiasjonstype, kontekst> Denne tnplettformelen gjelder for alle abstraksjonsnivåer

De grammatikalske merknader levert fra en Constraint Grammar

Ordmvå eller høyere ordens segmenttyper i teksten

Subjekt-verb-objekt-strukturer (SVOS) ekstrahert fra merket tekst eller utvalgt sett

av setninger

Den validerte SVOS angitt som Agent-Process-Object Structures (APOS)

Noder med tildelte APOS (noder er tekstsegmenter sammenlenket i en hypertekst),

osv

Forskjellen mellom SVOS og APOS følger den tradisjonelle inndeling av syntaktiske og semantiske typer SVOS'ene er direkte assosiert til setningene de er ekstrahert fra (assosiasjoner representert ved kantelementer i XML-filer og ord/setning-identifiserere som URI) APOS'ene er et subsett av SVOS'ene og subsettet er i samsvar med grammatikalske (reduksjons)-mønster Hver APOS er et sett av lndeksmnfønnger som

«arven> kantelementene fra SVOS ene [APOS<is denved from>SVOS] APOS'ene er derfor assosiert til underliggende setninger (eller andre tekstsegmenter idet setmnger <is part of> større tekstuelle enheter) lndeksmnfønnger i APOS er derfor angitt som ((tekstuelle kontakter» eller «kontakter» for å adskille dem fra konsepter som er brukt i presentasjonen av ordinære lndeksstrukturer

Realiseringen av assosiasjonstyper gjør det mulig å konstruere et mdeks-system hvor konseptene ikke bare er organisert i hierarkier men også i en slags «heterarkien> (topp-ned og også side-ved-side, dvs hypotaktisk og parataktiske forbindelser) Visualiseringen i en grensesnitt vil anta form av vinduer som ordnet side-ved-side, hvert vindu med opsjoner for ekspansjon/reduksjon (mer generelle eller mer spesifikke benevnelser), og opsjoner for å vise underliggende ord shkde opptrer i teksten En foretrukket utforming er vist i Fig 5 Figuren skildrer en prototyputforming implementert ved å anvende Visual Basic for Applications, et programmenngs-språk som er fremragende når det designes/konstruerer visuahsennger av formelle system-modeller (arkitektur, datastrukturer, algoritmer) Den endelige arkitekturen

(sammenlenkede filsystemer, grensesnitt, etc) skal implementeres i en mer robust teknologisk plattform (Unix Java, Lisp, XML/XSL) De underliggende datastrukturer i vinduspanelene som vist i Fig 5 er generert fra en CG-tagger for norsk, en gratis programvare for forskningsmiljø og med normale lisensavtaler i kommersielle organisasjoner Som de adskilte felter (APO) viser er de underliggende datastrukturer ikke konsolidert i denne prototypversjon Programmet (i Visual Basic for Applications) er laget som en utvidelse til Microsoft Word 2000, sistnevnte valgt fordi det gir en viss XML-støtte Bortsett fra faktumet at underliggende datastrukturer ikke er konsolidert, omfatter prototypen hovedfunksjonaliteten som opererer på systemselektiviteten presentert i dette dokument Likevel vil fremtidig bruk av den nevnte teknologiske plattform nye prinsipper tilpasset fira feltet Human Computer Interaction (HCI)

Tnplettformel

Som antydet ovenfor er SVO-tripIetter og APO-tripletter konsepter som er organisert i strukturer ved forskjellige abstraksjonsnivåer Tnplettformelen er [consept

<association typocontext] Dette er vist i Fig 6

APOS ene er avledet fra SVOS 'ene og er et resultat av reduksjonsprosedyrer som involverer grammatikkbaserte ekstraksjonsmønstre, prinsipper innenfor fri-fasettert ("free faceted") klassifiseringsteon (inkludert konsept-abstraksjon og applikasjon av makroregler) og TWS-prosedyrer basert på domenespesifikke tesaun

Grunn-nivået er sammensatt av Subject Verb Object Structures avledet fra grammatikalsk merkede setninger og setmngsgrammatikken er enheten for ekstrahenngsprosedyrer realisert gjennom sett av regulære uttrykk kombinert i søke-makroer Hva en setning handler om er ikke nødvendigvis det dens grammatikalske subjekt angir, likevel innebærer enhver formalisme som ligger under lnformasjons-representasjonen forenkling og reduksjon Selv om de grammatikkbaserte eks-traksjonsmønstre ikke fanger leksikalske enheter fra alle tekstsetningene, betyr det ikke at mønstrene ikke kan produsere en god informasjonsrepresentasjon for gransknings-formål Nominale uttrykk kan betraktes som om de angir tekstens "world building"-elementer og verbfrasene hva som er sagt om dem Dette er også implisitt i den fri-fasetterte klassifikasjonsteonen idet dokumentettema eller -emne kan sluttes fra de nominale ekspresjoner i de individuelle setningene Ved å bruke en utviklende domenespesifikk tesaurus i ekstraksjonsprosedyrer vil det bh mulig å skreddersy APOS ene for å støtte spesifikke brukersamfunn Siden en tesaurus er et dynamisk objekt, kan APOS ene bli regenerert ved visse intervaller Det er også viktig å bemerke at APO-tnplettene utgjør basis-strukturen i innholdsrepresentasjoner Dersom et bestemt brukersamfunn uttrykker behovet for en mer detaljert representasjon for noen dokumentklasser eller noen sentrale dokumenter, kan representasjonene bh ytterligere detaljerte gjennom et passende sett av grammatikkmønstre som ligger under ekstraksjonsprosedyren APO-tnplettene vil også gjennomgå vahdenngsprosedyrer som i nødvendige situasjoner kan bh utført ved menneskelig intervensjon ved alle nivåer Target Word Lister

TWS og domenespesifikke tesaun de semantiske nettene kodet i tesaun kan gjennomsøkes for konsepter og semantiske konseptrelasjoner definert som relevant til et domene

I den foreslåtte løsning, i samvar med en foretrukket utførelse av oppfinnelsen, er substantiver (eller nominale ekspresjoner) representert i S- og O-komponentene som er

<part of> SVOS ene SVOS ene er ekstrahert fra et utvalgt sett av setninger med grammatikalske merknader En oppslag i en tesaurus gjør det mulig å undersøke om disse nominale ekspresjonene finnes i allerede etablerte semantiske nett En mekanisk ordbokoppsalg vil likevel ikke si om substantivets mening i teksten er hk meningene som er gitt til det samme substantivet i de semantiske nett Derfor er settene med substantiver (merket som S eller O) også undersøkt med hensyn til hvordan de sam-inntreffer innenfor et tekstsegment Identifiserte sam-inntreffelser (kollokasjoner) er sammenlignet med konseptrelasjonene som er kodet i de domenespesifikke tesaun som er benyttet (konsolidert samling av domenekonsepter)

Disse TWS-prosedyrer er avhengig av prebearbeided, kodet domenekunnskap som inneholder tekster med grammatikalske merknader og konsepthierarkier som enten er tilgjengelig i domenespesifikke tesaun eller som online leksikalske ressurser Generelle tesaun inneholder konsepter som er relevante for alle typer domener og inkluderer ofte også indirekte relasjoner mellom konseptene Dette påvirker selvfølgelig den semantiske presisjonen når det kartlegges ord fra en tekst (grammatikalsk merkede ord), enten enkle ord eller ord gruppert til SVOS, mot konsepter kodet i en generell tesaurus F eks er et konsept i WordNet et element i en syn-sett' (synonymsett) og hvert element kan ha hyperonymer og hyponymer (bortsett fra elementer i genus-posisjon, hvor konseptet har ett eller flere underordnede konsepter) I nåværende TWS-tilnærmelse er konsepter som er kodet i domenespesifikke tesaun kartlagt mot ordene i SVOS ekstrahert fra filene merket av en Constraint Grammar Dvs konseptene i tesaun er kildekonseptene og ordene som er representert i S- og O-komponentene er målet for kartleggingsprosedyren

TWS en vil returnere verdiene Consept Match eller No Match Foreliggende oppfinnelse er basert på påstanden at retningen av kartleggingsprosedyren har viktige praktiske implikasjoner Først og fremst er det lettere å overvåke og administrere kartleggingsresultatene hvis retningen er fra tesaun mot SVOS en ekstrahert fra grammatikalsk merkede setninger For det andre returnerer en generell ordboksjekk for mange synonymforslag og abstraksjoner<*>, og vahdenngsprosedyren blir således tidkrevende En oversikt over dette konsept er vist i Fig 7 og i Tabell 2

Et spesielt problem med WordNet er at alle elementer i et synsett har et hyperonym med et gitt navn (termer ved alle nivåer) Dette leder til navigenngsproblemer og uten en streng kontroll av konseptabstraksjonsprosedyren kan det foreslåtte settet av abstraksjoner gå i alle slags ganske forskjellige rare retninger F eks ordet «girl» leder på et punkt til «bird» (slang) og fra bird er det videre semantiske relasjoner til substantivet «animal» som tydeligvis ikke er en bra konseptabstraksjon for kildeordet «girl» Likeledes vil ordet «bird» lede til genus-substantivet «person» via «giri» Dette problemet ville være eliminert hvis relasjonene var på en annen måte F eks ved å bruke en kuttoperator for relasjonen fra «girl» til «bird», som betyr at hvis «girl» er kildeordet i synonymgenerasjon (og «bird» er klassifisert som slang), ville videre navigasjon fra «bird» bli forkastet Disse trinn skisserer TWS-prosedyren I stedet for å kartlegge ord i SVOS med verdien «No Match» på konsepter i mer generelle tesaun, ekspanderer kartlegging av konsepter i domenespesifikke tesaun (DST) på kodete konseptrelasjoner i generelle tesaun (GT) trinnvis i målordhstene Ved gradvis økende behandling av ett DST-konseptklynger av gangen, blir det lettere å iterativt holde styr på kodetildehng og ha bedre kontroll i vahdenngsprosedyrer I disse vahdenngsprosedyrer vil det også være lettere å inkludere «kunnskap» om ordene i SVOS som har tilordnete koder fra tidligere sykluser Det vil også være lettere å ta hensyn til ord som sam-inntreffer i større enheter så som flere setninger, f eks utformet som avsnitt

V-komponenten både i SVOS og APOS er en slags indre triplett-assosiasjonstype som forbinder subjektet (agent) og objektet (object) Disse indre assosiasjoner kan gi retningslinjer for hvilke relasjoner som skal følges i ordbøkene (som er etablerte kodete semantiske rom) Likevel vil en TWS som er rettet mot relasjoner som forutsetning trenge en mer detaljert vahdenng og/eller menneskelig intervensjon/korreksjon Identisenngen av semantiske relasjoner mellom en verbfrase i en tekst og verb som er

kodet i en tesaurus er ekstremt komplisert Dette kan forklares teoretisk ved henvisning til Thomas (1995)

«1) Det er ingen formell (grammatikalsk) måte for å

adskille utøvende verb, fra andre sorter verb

2) Tilstedeværelsen av et utøvende verb,

garanterer ikke at den spesifiserte handling

utføres

3) Det er måter for «å gjøre ting uten ord» som ikke

trekker inn bruk av utøvende verb» (1995 44)

Basert på teon og rapporterte erfaringer med ordbok-sjekk (Harabagio 2000), er det bestemt at TWS-prosedyrer for verbene ikke vil bh utført Denmot vil verbene som er kodet i V-komponenten i SVOS erstattes med verbet i dets basisform (som representerer P-komponenten i APOS) Således vil verb-hendelser som (reduces, reduced etc) erstattes med «reduce» Disse basisformer må også inkludere adverbiale deler (viktig i representasjonen av verbale fraser i skandinavisk språk) Det kan likevel være praktisk å gruppere visse verb i generelle semantiske klasser, f eks klassen «express meaning» med forekomster som {say, declare, tell utter, announce affirm, assert, claim, etc }

I den foreliggende utførelse av oppfinnelsen er det mulig å tildele koder som representerer Tid (aspekt av tidsdimensjonenng) og Modalitet, begrenset til settet Fortid, Nåtid og Fremtid Denne mer detaljerte grammatikalske informasjon om verb-forekomster kodet i P-komponenten av APOS, er representert i adskilte fasetter (kodet som egenskaper til hver P-forekomst) Brukeren kan hente frem disse fasetter for videre granskning Imidlertid har Tid en semantisk relasjon både til dokumentets produksjonsdato og også til setningens tekstuelle innhold Dokumentets produksjonsdato er representert som Logical Now, og Past og Future-former i uttalemåten, kan bh representert som relativ til Logical Now Likevel vil denne strukturen som er et element i en mer detaljert fn-fasettert klassifikasjon ikke omgå representasjonene problemer som er relatert til den tekstuelle konteksten av forfatterens uttrykk Tidsmessige relasjoner reflekterer en dypere semantikk, og en formell representasjon av disse relasjoner må være basert på mer grundige fortolkninger

Riktige substantiver kan bli gjenkjent og kodet under Constraint Grammar-parsing, forutsatt at disse substantiver er kodet i ordlisten som er bearbeidet under spalting Filteropsjonene som omfatter søke-makroer som identifiserer riktige substantiver av interesse til et brukersamfunn, må i tillegg inkludere skreddersydde ordlister som refererer til organisasjoner, personer, steder, etc Disse samlinger av spesielle termen- vil organiseres i mønstre basert på prinsipper som ligger under den fri-fasettede klassifikasjonsformel

Noen gjeldende constraint grammars er rapportert å ha over 90% nøyaktighet med hensyn til gjenkjennelse av navngitte enheter Nominale ekspresjoner (en ordgruppe som funksjonerer som et substantiv) forårsaker likevel spesielle problemer En TWS vil ikke løse semantiske ambiguiteter forårsaket av bestanddeler i nominelle uttrykk substantiver modifisert av verb etc Dette betyr en disambiguasjon som involverer menneskelig intervensjon - menneskelige inspektører må validere de foreslåtte semantiske koder før de blir innført i gradvis utviklende semantiske nett (som er for bruk i konstruksjonen av hypertekst som er tematiske mterkoblede noder ordnet i en hypertekstuell arkitektur)

TWS og validasjonsprosedyren som er rettet mot en domene-spesifikk tekstsamling og i samsvar med de spesifikke behov i et brukersamfunn, inkluderer rutiner for systematiseringen av de grammatikalske mønstre som ligger under det selekterte sett av setninger og det ekstraherte sett av SVOS Denne samling av SVOSer vil være for ett formål De er input i søke-makroer i form av regulære ekspresjoner Disse regulære ekspresjoner er mer korrekt beskrevet som «byggeklosser» eller komponentene i søke-makroer Byggeklossene dekker ikke hele SVOS'en men de representerer vanlige ekspresjoner rettet mot S-komponenten og de påfølgende V- og O-komponentene Søkemakroer som er basert på disse byggeklosser er også kombinert inntil høyere ordens søkemakroer

Studien av kollokasjoner (ved bruk av et verktøy som WordSmith og Corpus WorkBench) viser at en betydelig mengde av leksikalske enheter er tilbakevendende ordkombinasjoner Tilbakevendede bundne ordkombinasjoner er en typisk lingvistisk egenskap av ethvert domene, som for spesialisert terminologi (spesialisert terminologi tar ofte formen av spesifikke ordkombinasjoner)

Signaler for spesifikt språk som tar formen av en sammensatt term må derfor bh indeksert som komplekse eller sammensatte termer Det fhfasetterte klassifikasjonsskjema gir retningslinjer for representasjon av indeksinnganger i form av komplekse termer Applikasjon av disse regler eller retningslinjer leder til konstruksjon av et mdeks-subsystem som inneholder komplekse termer som refererer til typiske fraser brukt i et domene En lndeksstruktur med fraser (fraseregister) er et viktig informasjonsfiltenngsverktøy APOSene vil ha høyere diskriminerende evner hvis det også inkluderer assosiasjoner til idet minste veldig vanlige fraser innen domenet

Muhtleveled Annotation File System inkluderer registreringer (i tilleggsfiler) av assosiasjonene mellom APOSene og SVOSene hvorfra APOSene er avledet Systemet av identifiserere (tilordnet til Logical Object Types) gir forbindelse med underliggende tekstsegmenter (merket i filsystemet) Fraser inntreffer også i synonyme vananter dvs de varierer i ordsekvens og har transformasjonsvanasjoner minister for utenrnkssaker (' minister of foreign affairs"), utenriksminister ("foreign minister') I grensesnittstrukturen har brukerne mulighet å vise alle registrerte fraser i tillegg til defaultopsj onene

Bundne ordkombinasjoner forårsaker spesielle problemer fordi de ikke kan bh behandlet helt komposisjonelt (Braasch 2000) Hvis de blir betraktet som sammenhengende byggeklosser i språkbruk må de bh representert som det i et indekssystem Det første problemet er identifikasjonen av bundete ordkombinasjoner I denne prosessen tilbyr WordSmith eller Corpus Workbench datahjelp (kollokasjoner med forskjellige gruppestørrelse sammen med frekvensdata) Frekvensinformasjon (kvantitative kriterier) blir brukt i kombinasjon med grammatikalsk informasjon og kunnskap om domenet (kvalitative kntener) som vurdert sammen sørger for retningslinjer for terminkludenng Det mer vanskelige problem er hvor komplekse termerskal plasseres (kobles) med hensyn til basiskonseptene som ligger i APOS Svaret på dette spørsmål blir funnet i den grammatikalske informasjonen som beskriver underliggende SVOSer (regler og regulære mønstre som beskriver den systematiske språkbruk, men dekker ikke de mer eller mindre vilkårlige valg som er laget av språkbrukere)

Leksikalske enheter som signaliserer problemer løsninger eller evalueringer (ledefunksjoner) vil også inntreffe som ordkombinasjoner Noen av disse ledefunksjoner kan identifiseres av mer eller mindre utvetydige leksikalske signaler

(direkte stikkordfraser) Opplagte stikkordfraser er lagret i separate filtre og disse er input til søkemakroer som er sammenstillinger av regulære uttrykk basert på tekststrenger som er i filteret Talemåter som implisitt gir uttrykk for f eks et problem kan ikke bh dekket av automatiske prosedyrer

Tilordne domenekoder

Målordhstene blir brukt i en prosess med formål å tildele domenekoder til de SVO-tnpplettene, som etter en validenngsprosedyre følger SVO-trippletten som er transformert til en APO-tnpplett SVOS er en struktur som omfatter settet av SVO-tnppletter og APOS er en struktur som omfatter det reduserte set av APO-tnpplettene som henviser til tilsvarende subsett av SVO-trippletter APO-tnppletter som henviser til setninger i teksten er en del av en større representasjonsenhet angitt som emneramme ( Topic Frame") Emnerammen lagrer registreringer med koplinger til alle Documental Logical Object Types som innholdsrepresentasjoner henviser til TWS-sykluser med domenekodetilordning er presentert i fig 8 og i tabell 4 Figur 9 presenterer hovedtrekkene av forbindelser mellom subset av komponentene

Filtermodul

Det har blitt bekreftet at brukere trenger avanserte verktøy for tekstutforskmng inklusive sofistikerte muligheter for informasjonsfiltrenng Verktøy med disse kvaliteter må være basert på en ny type selektivitet

Selektiviteten av foreliggende oppfinnelse inkorporerer og støtter

• Leksikal-semantisk informasjon avledet fra CG-taggere

• Overføring av teknikker som er relatert til tesauruskonstruksjon

• Statistisk informasjon avledet fra keynessberegmnger og inkludert som nye elementer i dokumenterstatmnger • Frekvensinformasjon som kopler grammatikkbaserte koder til dokumentenes logiske objekttyper • Filteropsjoner realisert som predefinerte søkermakroer som inkluderer grammatikkbaserte og semantiske søkeroperander

Foreliggende oppfinnelse tar siket på å forbedre den filtrerte informasjon ved korrelasjon til bakgrunnsdatakilder (tesaun rammer) og å presentere den filtrerte og semantisk koplete informasjon på en koherent og begripelig måte til sluttbrukeren

Prosessen med å finne informasjon i store mengder av lagrete data involverer en rekke oppgaver som rekker fra problemdefinisjon til vurdering av relevans

Foreliggende oppfinnelse tar sikte på å støtte brukeren i disse oppgaver I bunn og grunn er denne tilnærmelsen basert på et predefinert sett med grammatiske mønstre som spesifiserer regler for å ekstrahere saklig informasjon fra tekster, som illustrert i figur 10

Basisideen er å organisere kodene (kontakter i APOS og semantiske koder avledet fra TWS-prosedyrer) og søkemakroer for å tilpasse forskjellige typer av tilsiktede handhnger(seleksjon av kontakter som således aktiviserer dem som søkeoperander) Tradisjonelt er det en forskjell mellom tre slags handlinger eller seleksjoner basert på hvordan brukeren evaluerer søkeresultater

• det er for mange tekstsegmenter i resultatet (brukbarhetspunkt oversteget)

• det er for få tekstsegmenter i resultatet

• eller tekstsegmentene er å betrakte som ikke relevant eller utenfor målet

De forventede brukerhandlinger er således at brukeren vil prøve å spesifisere søkeuttrykkene som

• Reduserer det mottatte settet (øke presisjonen)

• Øke det mottatte settet (øke utvalget)

• Eller spesifisere søkeuttrykk som gir en bedre match med de bestående lndeksmnfønnger

Imidlertid vil seleksjonen av en ny konstellasjon av kontakter eller aktiveringen av et filter eller predefinert søkemakro ikke nødvendigvis redusere det mottatte sett Istedenfor blir et fullstendig nytt sett mottatt Underliggende søkeselektivitet bestemmer på hvilken måte det er mulig å konstruere søkeuttrykk med formål å tilfredsstille brukerens søkeintensjoner

Den foreslåtte selektiviteten er basert på prinsippene innenfor fnfasetterte klassifikasjonsskjema og kombinert med både segmentinformasjon og grammatikalsk informasjon som er levert fra en constraint grammar-tagger Søkemakroen er strukturert i nivåer, fra generell til spesifikk, hvor de mest spesifikke makroer innlemmer bruk av grammatikkbaserte fasetter, angitt som APO-trippletter (sett av trippletter organisert i en Agent Process Object Structure) som på sm tur er del av et høyere nivå Topic Frame Når en bruker oppfatter sit mottatte sett som for stort eller begrenset gjør den underliggende selektiviteten det mulig å konstruere et system som viser nyttige søkeretmnger ved å forsørge et systematisk sett med predefinerte søkemakroer Dvs at koplingene mellom søkemakroer og den viste informasjon skal fortelle brukeren om en overordnet eller underordnet makro vil øke eller minske det mottatte settet Navnene som er tildelt makroene, sammen med korte forklaringer vil sørge for informasjon om søkeoperandtypene Den eksakte realisering av disse hjelpemidlene er avhengig av HCI-perspektivet som er benyttet

Klassifikasionsskiema

Klassifikasjonsskjemaet er et verktøy som blir brukt når det proposisjonelle innhold av et tekstsegment er analysert, redusert og representert i en emneramme I denne prosess benyttes et sett med makroregler og pnnsippene som ligger under den fnfasetterte klassifikasjonen gir retningslinjer for anvendelse av disse regler Sådan bestemmer disse prinsipper også assosiasjonstypene mellom kategorier og fasetter spesifisert i klassifikasjonskjemaet En emneramme er en kodekonstellasjon hvori assosiasjonene mellom koder er som spesifisert i klassifikasjonsskjemaet En emneramme refererer til det aktuelle innhold i et tekstsegment (node) Settet av emnerammer (konsolidert) er del av et indekseringssystem som gir de logiske tilgangspunkter til tekstsegmenter Systemet av logiske aksesspunkt utgjør en viktig del av systemets selektivitet

Hovedstrukturen i dette klassifikasjonssystem er enkel - den består av fem kategoner Hver kategori er ytterligere fordelt i fasetter som deretter kan oppdeles i mer detaljerte fasetter Denne utviklende struktur er basert på fnfassetterte klassifikasjonsprinsipper hvori det endelige sett av fasetter bør reflektere den utførte klassifikasjonen Kodene tildelt til hver fasett, og hvordan disse koder er ordnet innenfor en fasett, bestemmer gradvis om en fasett bør inndeles i underordnede fasetter Den enkle strukturen og retningslinjene for bruk reflekterer et viktig perspektiv på innholdsrepresentasjonen - det er mulig å konstruere svært generelle emnerammer, og også emnerammer med høy termspesifisitet Avgjørelsen om nivå av generahtet-spesifisitet vil være basert på hva et viss brukersamfunn oppfatter som relevant å inkludere i et indekssystem

Strukturen til klassifikasjonsskjemaet og hvordan det er lenket sammen med andre komponenter er summert i tabellen nedenfor

Metastrukturkomponentene er lenket sammen på forskjellige mvåer i designmodellen Konseptuahsenng av b<y>ggeklosser i søkemakroer

Denne presentasjonen er en samling av byggeklosser som er bundet sammen i et multisjiktsystem av predefinerte søkemakroer Søkemakroene er ordnet i nettverk som følger de samme prinsipp som i konstruksjon av tesaun, dvs prinsippene som ligger under den fnfasetterte klassifikasjonsteon De sammenlenkete søkemakroer former en viktig komponent i systemet av logiske aksesspunkter (systemets selektivitet) til tekstsegmenter

Ideen bak konstruksjonen av et predefinert sett av søkemakroer er å bygge et verktøysett for lnformasjorisfiltrering Fokus er på bruk av grammatikalsk informasjon ekstrahert fra output fra CG-tagger som er transformert mn i koder utformet i APO-tnppletter (part-of Type Tropic Frame) Nominale uttrykk separeres i to fasetter angitt som ' Agent' (nominale uttrykk med den grammatikalske funksjonen subjekt innenfor en setning) og 'Objekt (nominale uttrykk med den grammatikalske funksjonen objekt innenfor en setning) En emneramme er ulik andre typer av ordlister fordi ord med visse grammatikalske funksjoner blir vist (basisopsjonen) i deres tilstedeværelse i teksten Hovedgrammatikkmønster-modellen er sammensatt av to sett med regulære uttrykk

Et sett virker på to hovedsøkeroperandklasser, de grammatikalske ordklasser substantiv og adjektiv Disse regulære uttrykk gir tilgang til elementer som bygger tekstverden ( texts 'world-building elements") Det andre sett av regulære uttrykk virker på de grammatikalske ordklasser "verb" og "adverb", og gir indikatorer for funksjondnvendeelementer ('function advancmg elements"') i teksten Disse to sett, sammen med andre regulære uttrykk som virker på andre ordklasser, sørger for en grammatikk-basert selektivitet Kombinert i søkemakroer som er gjort tilgjengelig i spesialdesignete vindusfelt (med all funksjonalitet som følger) kan brukeren granske underliggende tekst og videre gjøre handlinger som minsker eller øker søkerekkevidden Hovedtrekk til totalstrukturen er presentert nedenfor

Type Grammar Pattern

<gives rules for> cat5 facO Subject matter

<gives niles for> Type Search Macro Type Grammatical Information <is abstracted into> Type Regular Expression <is part of>

Type Grammatical Information

<output from process> Process Text Disambiguation <is den ved from> Type CG Tagger Output <is abstracted into> Type Grammar Pattern <is assigned to> Type LOT Word Type Grammatical Function (GF) <is a> Type Grammatical Word Gass (GWC) <is a>

Type Grammatical Function (GF)

<is a> Type Grammatical Information Type GF Object <is a>

Type GF Subject <is a>

Type GF Transitivity <is a>

Type GF Verb Tense & Modality <is a>

Type Grammatical Word Class (GWC)

<is a> Type Grammatical Information Type GWC Adjective <is a>

Type GWC Adverb <is a>

Type GWCNoun<isa>

Type Verb <is a>

Type GWCNoun

<is input to> Type Filter Noun <is a> type Grammatical Word Class (GWC)

<is part of> Type GWC Nominal Expression Type GWC Noun Common <is a>

Type GWC Noun Proper <is a>

Type SVO Entry Noun <is subset of> Type SWC Noun <refers to>

Ett sett med søkemakroer virker på dokumentenes logiske objekttyper eller utgangen danner segmentenngsprossessen som er kodet i underliggende tekstbase Segmentenngsprossessen returnerer også frekvensinformasjonen og brukeren vil således ha en mulighet for å vise kontakter til teksten i forhold til fire forskjellige frekvensmål

Totalstrukturen er skissert nedenfor

Type Search Operand

<is input to> Type Search Macro

Type Association Type <is a>

Type Category <is a>

Type Code<isa>

Type Code Family <is a>

Type Documental Logical Object Type (LOT) <is a>

Type Dublin Core Element Set (DCE) <is a>

Type Facet <is a>

Type Free-Text Index Term <is a>

Type Frequency Information <is a>

Type Search Macro <is a>

Type Documental Logical Object Type (LOT)

<is an object in> Type Documental in Collection

<is part of> Type Node

<output form process> Type Search Macro

<isa>Type Search Operand

<is a> Type Segment Information

Type LOT Header <is a>

Type LOT Identifier <is assigned to>

Type LOT Paragraph <is a>

Type LOT Sentence <is a>

Type LOT Title <is a>

Type LOT Token <is a>

Type LOT Word <is a>

Type Topic Frame <refers to>

Type Frequency Infonnation

<is assigned to> Type Code

<refers to> Type LOT Word

<isa>Type Search Operand

Type Frequency GF Level <is a>

Type Frequency Paragraph Level <is a>

Type Frequency Sentence Level <is a>

Spesifikasjonen av søkeoperander viser at søkemakroer også er søkeoperander (tilbakevendende) Dette betyr at en aktiv søkemakro til enhver tid kan kombineres med søkeoperander som henviser til innholdet av forskjellige typer kategorier og fasetter som spesifiseres i forhold til reglene som er gitt i klassifikasjonsskjemaet Kategorien "Agent" er som default oppdelt i fasetter for personer, organisasjoner, sosial/arbeidsrelaterte posisjoner, og andre typer av tematisk matenale inndelt mn i fasetter basert på semantiske kntener Disse kategoner/fasetter kan aktiviseres som tilleggsfiltre som virker "på toppen' av de grammatikkbaserte søkemakroer Søkemakroene og filtrene er videre ordnet i sjikt, og sammenlenket i et semantisk nett

Kodene som er tildelt til kategoriene/fasettene i det andre sjikt er resultatet fra TWS-prosedyren, men inkluderer også ordlister ekstrahert fra offentlig tilgjengelig informasjon (registre over jobbtitler, registre over firmaer, etc) Disse filtre må selvfølgelig være avstemt i forhold til hva et bestemt brukersamfunn kan finne interessant å gjøre "mer" gjenfinningsbart

Søkeroperandene, inklusiv søkemakroer, ordnet i nettverk, representerer faktisk et slags ' konsept abstrahering' Abstraheringsgraden idet disse konseptene benyttes som søkeoperander vil selvfølgelig ha en effekt på gjenfinmngsresultater En passende realisering av denne struktur skulle derfor inkludere opsjoner for forespørsel-modifikasjoner En søkemakro representerer en forening og/eller avsondnng av flere søkeoperander, som hver refererer til et visst nivå i et konsepthierarki (indekstermer organisert i abstraksjonsnivåer) Brukeren bør gis muligheten til å selektere "bevegelser" for hver av disse seperat, f eks ved å tilveiebnnge muligheter for å flytte søket opp ett eller flere nivåer (forespørselutvidelse som sikter på høyere tilbakekalling) eller ned (forespørselreduksjon som sikter på høyere presisjon) Hver søkeroperand blir betraktet som et objekt med opsjoner for fremvisning av innførte koder (lndeksmnfønnger) eller koder av høyere orden (' embedding") Når en bruker selekterer en erstatning, er dette nye lndeksmnfønnger den aktuelle søkeroperanden innenfor den modifiserte aktuelle søkemakro (og den modifiserte søkemakro kan bh lagret for senere bruk)

Det øvre nivå av predefinerte sett med grammatikkbaserte søkemakroer er rettet mot komponenten APO-tripplett (del av Topic Frame) Når en bruker har gransket resultat fra aktivisering av disse søkemakroer, kan hun da aktivisere komponenter i et system med mer "spesifiserte grammatikkbaserte søkemakroer) Disse er regulære uttrykk med navn som gir et meningsfylt signal til brukeren Denne opsjon har noe overensstemmelse med tradisjonelle KWIC-indekser dog er de gjort tilgjengelig på toppen av mer kraftige grammatikkbaserte reduksjonsanordninger F eks hvis brukeren har aktivisert en APO-tnpplett, begrenset mot Oil Company i "Agent"-posisjonen kan hun deretter aktivisere et regulært uttrykk som viser alle tre ord på høyre og/eller venstre for de viste firmaer, og deretter velge mellom tradisjonelle sortenngsoppsjoner

Regulære uttrykk kan også aktiviseres isolert (ikke på toppen av grammatikkbaserte søkemakroer som arbeider på APO-tnppletten) F eks et veldig enkelt søkemønster av typen

• null eller flere adjektiver fulgt av minst et substantiv, fulgt av null eller flere egennavn fulgt av en verbfrase - vil identifisere fraser/uttrykk som "norsk statsminister Jens Stoltenberg bekrefter", Engelsk avis The Times rapporterer",' tidligere Amenkansk president Bill Clinton hevdet", osv

Kombinert riktig og i forhold til spesifikke behov i et brukersamfunn, og ikke minst gitt bestemte navn som betegner deres karatenstiske egenskaper, vil brukeren ha et kraftig og sofistikert utforskmngsverktøy

Et mer fortolkende nivå av søkemakroer er basert på pnnsippene som er relatert til superstrukturer i tekster I en tekst finnes det en slags overordnet kommunikativ funksjon og det er mulig å identifisere ledefunksjoner for deler av teksten F eks under lesmg av tekst, erfarer leseren at segmenter vedrører "en viss aktør som uttrykker memnger om"noe'<*>som er antatt å være ett problem", "en aktør argumenterer mot foreslåtte løsninger", "løsningsforslag er evaluert og sammenlignet" Disse ledefunksjoner oppdages i løpet av et vekselspill mellom leseren og teksten (hvor teksten er et delegat på vegne av en forfatter) Imidlertid inneholder høy strukturert tekst fra profesjonelle forfattere (og utpreget innenfor visse profesjonelle domener som f eks jus) leksikalske signaler som merker ut noen seksjoner i dokumentet For å identifisere og kode disse tekstsegmenter, er det nødvendig å registrere fraser (ordkonstellasjoner) som signaliserer ledefunksjoner Stikkordfraser er fraser med leksikalske signal (ord) som gir uttrykk for noen aspekter av det tematiske materiale som blir behandlet innenfor et tekstspenn (setning, paragraf, seksjon, etc) og kan bh registrert i en separat fasett (stikkordfilter) Imidlertid kan leksikalske signaler til f eks "problem" være eksplisitt eller implisitt, i sistnevnte tilfelle f eks uttrykk som negative evalueringer av den beskrevne situasjonen (inklusiv en negativ evalenng av en foreslåtte eller utvalgt løsning) Koder som disse er av semantisk-pragmatisk karakter og en inngående koding vil nødvendigvis kreve menneskelig intervensjon/validering Hvis dette er av interesse i et brukersamfunn (balanse mellom kostnad og gjenfinmngyerdi), vil stikkordfraser som har høy score fra validasjonsprosedyrer bh inkludert i "Type Filter Cue Phrase" Disse filtre vil vanere i forhold til dokumentgenre

(lover, rapport, etc)

Når kodet, vil en søkemakro som gir brukeren mulighet til å selektere ett sett av filtre, gjenfinne disse segmenter (adressen til alle typer segmenter kan avledes fra dokumentenes logiske objekt type LOT Identifier)

Siden hovedsøkemakroener virker på et nokså begrenset sett av grammatikalske merker, vil de ikke unngå ambiguasjoner i teksten Likevel er, sammenlignet med de tradisjonelle fritekstsøk (selv med nøyaktige konstruerte grensesnitt og brukerstøtte), filtrering basert på ganske enkle regulære uttrykk lovende Ved reahsenng i full skala, har dette sett med teknikker en utsikt av interesse til atskillelige profesjonelle brukersamfunn Forskjellige brukersamfunn må forsynes med skreddersydde søkermakroer basen på kombmasjonen av grammatikk-baserte søkeoperander (nokså statisk) og semantiske søkeoperander (dynamisk/utviklende)

Arrangementet av søkemakroer kan avstemmes for å tjene typiske informasjonsbehov innenfor et brukersamfunn Spørsmålet er hva som kan anses som et minimalt og nødvendig sett av søkemakroer og hva er den beste måten å ordne disse i nivåer Innenfor en ekspenmentell omgivelse, vil profesjonelle brukere innenfor domenet 'Petroleum Affairs", inklusive "Petroleum Law", skaffe feedback i prosessen hvor den foreliggende utførelse av oppfinnelsen skal konverteres til en robust teknologisk plattform Representanter fra det valgte brukersamfunn vil bh utsatt for forskjellige sett med grammatikkbaserte makroer, filteropsjoner, grensesnittdesign, etc Ved samtaler med representantene, er målet å identifisere hvordan komponentene bør lenkes sammen i en detaljert design for å maksimere systemets potensiale utforskmngskapasitet

Logiske obiekttvpcr

Søkemakroer kan aktiviseres for alle typer av logiske objekter hele dokumenter, tekstdeler av alle størrelser (ett eller flere avsnitt eller setmnger), og også spesielle setninger som titler, filtopper etc

«Node» er et konsept som dekker alle dokumentenes logiske objekttyper og nodestørrelsen beskriver systemets granulantet

Søkeoperandkomponenter

Systemet i overensstemmelse med foreliggende oppfinnelse vil støtte krysningen med fnteksttermer på alle nivåer

Byggeklosser

Det underliggende forespørselsspråk er basert på algebra (XML-verktøy for søking kan betraktes som lagt overbasert på de samme prinsipper som den tradisjonelle rela-sjonsmodell) og vil med tiden bh spesifisert i BNF

Byggeklossene kan kombineres i predefinerte søkemakroer og således dekke søkeoperander som er grammatikk-baserte koder, semantiske koder, henvisninger til logiske objekttyper forskjellige typer av frekvenssmformasjon og tradisjonelle fnteksttermer

Byggeklossene presenteres i forhold til søkemtensjon - utvid det mottatte settet og/eller reduser mottakersettet

Overensstemmelsen mellom byggeklossene er ikke entydig siden et forsøk med å øke presisjon vanligvis vil etterfølges av en reduksjon av størrelsen til det mottatte sett Byggeklossene er lenket sammen i et system som er definert av en formell grammatikk

Grensesnitt-designet vil fokusere på å tilveibnnge retningslinjer til brukeren som vil selektere visse søkeretninger (eller bevegelser) som tar sikte på å granske tekst-mnholdet

Brukerens intensjoner er hele tiden kontekstavhengig (termen "bruker" har ikke en eksakt betegnelse), og byggeklossene er derfor formulert som generelle krav Beskrivelsene vil inkludere de følgende elementer, gitt i Tabell 6

Reduksjonsfiltre

Hovedintensjonen med de følgende byggeklossene er å redusere det mottatte sett

Ekspansionsfiltre

Hovedintensjonen med de følgende byggeklossene er å øke det mottatte settet Ekspansjonsfiltrene er mer eller mindre motstykker til reduksjonsfiltrene

Definisjon av termer brukt i denne spesifikasion

Tekstuelle kontakter, etler kontakter. Indeksinngangene representert i APO-tnplettene som er en del av et høyere nivå representasjonen form - «Topic Frames» er termer som er ekstrahert fra den underliggende grammatikalsk merkede tekstbasen Hvert ord i det multinivå-merkede filsystem er tildelt en identifiserer (dokument ID + ordets relative posisjon innenfor filen) og derved er det mulig å direkte få tilgang til ordet eller ordkonstellasjonen fra hvilken indeksinngangen er avledet Siden indeksinngangen ved denne mekanisme er forbundet til den underliggende tekst, er indeksinngangene angitt som kontakter i at de er kontaktbunter til den underliggende tekst Gjennom disse forbindelser kan brukeren besøke og utforske tekstsegmentene og selektere eller fjerne de viste segmentene

Tnpletter av kontakter Den tilsiktede hoved visualiseringen av kontakter i vinduspanel er tenativt designet som en kombinasjon av tre lndeksmnfønnger som henviser til henholdsvis Agent Process og Object Hver tnplett inneholder ordforbindende kontaktpunkter til underliggende tekstsegmenter, ordforbmdende ved at de representerer kollokasjonsord i den underliggende tekst Tnplettstrukturen er en manifestasjon av tre basisfasetter i den klassifiserende metastrukturen som følger pnnsippene som er adaptert fra ideen bak «fn-fasettert klassifikasjon» opprinnelig frembragt av Ranganathan Likevel er et sett av grammatikkbaserte ekstrahenngs-mønstre det overordnede prinsipp som ligger under den faktiske ekstrahenngsprosess I henhold til prinsippene som ligger under fnfasetterte klassifikasjonsnormene, kan hver fasett blir videre organisert i runder og nivåer Hver runde har forskjellige nivåer - nivåer mer detaljert grammatikalsk informasjon og nivåer med semantisk informasjon (abstraksjonsnivåer) Det høyeste nivå i hver runde er et sett av predefinerte søke-makroer og komponentene i en søkemakro er regulære uttrykk brukt for å ekstrahere ordene/ordkonstellasjonene fra teksten, videre overført til den representasjonene formen som foreskrevet for den grunnleggende tnplettstrukturen

Epitomiske tnpletter. Termen blir brukt for å referere til det faktum at hoved-APO-tnplettene representerer en form for ekstrem oppsummenng av et skrevet arbeid

(epitom) Termen «sammendrag» er synonym med termen «synopsis», det første foreslåtte foreløpige navnet til foreliggende oppfinnelse

Dublin Core: Dublin Core er et sett av 15 basisinformasjonselementer som er designet for bruk på web-sider for å forbedre indeksering og gjenfinning Disse elementene er title creator subject, descnptions pubhsher, contnbutor, data, type, format, resource-ldentifier, source language, relation, coverage, rights Fullstendige, up-to-date-detaljer er tilgjengelig gjennom websiden for Dublin Core-metadata elementsettet http // purl org/ metadata/ dubhn core/ (sist besøkt i oktober 2001)

Emnerammer: Termene «subjekt» «tema» og «emne» er ofte definert som nære synonymer En foretrukket definisjon av «subjekt» (N tema) er Ranganathan s basert på forskjellen mellom omfang og intensjon «Subjekt er en systematisert mengde av ideer, med sitt omfang og intensjon som koherent sammenfaller innenfor feltet av interesse Det er også konfortabelt innenfor den intellektuelle kompetansen og området av uunngåelig spesialisering hos en vanlig person» (1987 28)

Et relatert konsept er «omtrentlighet», vanligvis definert atferdsmessig i termer av brukerens menmger om forskjellen mellom hva som er i teksten og hvordan brukeren oppfatter dette innholdet (lnnholdspersepsjonrelativt for en bestemt person) En «emneramme» er en representasjonen enhet i et informasjonsgjenfinningssystem hvon hver bestanddel er uttrykt i regler og retningslinjer som foreskrevet i et klassiflkasjons-skjema Det er et rammeverk for å representere forskjellige aspekter av emnet/tema innenfor en tekstuell enhet som setning, avsnitt, kapittel eller hele dokumentet En slik emneramme inkluderer representasjonen av «komplekse tema» med «sammensatte tema» som bestanddeler som på sin måte har «basistema» som bestanddeler

Målordseleksjonsprosedyre, forkortelse TWS (Target Word Selection) Rundene og nivåene som er konstruert for hver komponent i hovedtnplettstrukturen (Agent, Process og Object) vil inneholde lndeksmnfønnger ved f eks et høyere abstraksjonsnivå enn de kontaktene som er avledet fra den underliggende tekst En målordseleksjonsprosedyre er en teknikk for data-abstraksjon hvor konseptene kodet i en domenespesifikk tesaurus er kartlagt mot kontakter som er avledet fra den underliggende tekst Hvis en kontakt returnerer med verdien «konsept-match» i denne prosedyren (flere sykluser), vil det bli opprettet en koblmg mellom kontakten og konseptet som er kodet i tesaun Det kntiske ved dette er ikke om hvordan det opprettes relasjoner eller hvilken type av koblinger eller relasjoner som skal brukes, men heller hvilke relasjoner som vil tjene et brukeisamfunn

Ordsensing-disambiguasjon (WSD, Word Sense Disambigua-tion): Disambiguasjon betyr å opprette en enkel grammatikalsk eller semantisk tolkning av et ord (eller ord-konstel-lasjon) slik det forekommer i teksten En CG-tagger håndterer de grammatikalske ambiguiteter, CG-taggere har en feilrate (avhengig av språk- og tekstsjangre) og oppløsing av meningene av multireferensielle ord fullt ut vil kreve vahderingsprosedyrer

Ord er karakterstrenger og selv om deres grammatikalske ordklasse og grammatikalske funksjon er bestemt av en CG-merker, kan en karakterstreng ha mer enn én mening F eks kan en karakterstreng være et homonym hvor de forskjellige henvisningene er tydelige Målordseleksjonsprosedyrer og teknikker som er brukt for å oppløse noen av de semantiske ambiguitetene, f eks ved anvendelse av de kontrollerte ordlister som er kodet i tesaun som er begrenset til spesifikke domener WSD og TWS er en angår å traversere databaser i forhold til spesifiserte regler Det vil si å traversere de grammatikalsk kodete tekstfilene, leksikalske og domenespesifikke tesaun og til det punktet funnet nødvendig for å oppløse ambiguiteter som alvorlig forstyrrer systemprestasjonene Graden av grammatikalsk og semantisk disambiguasjonsgrad er en diskusjon om kostnader i forhold til memngsfulle (koherente) innholdsrepresentasjoner

Subjekt-verb-objekt-strukturer (SVOS, Subject Verb Object Structures)* Det grammatikalske subjekt av en setning kan besknves ved at det angir hva setningen handler om, mens dets predikatledd kommenterer dette Setningen «Hydro er et oljefirma» har «Hydro» som grammatikalsk subjekt og dets predikatledd «er et oljefirma» som kommenterer Hydro Setningen opplyser et faktum om Hydro og gir informasjon om Hydro Hvis ekstrasjonsmønstrene fokuserer på hovedsetningens grammatiske komponenter «subjekt-verb-objekt», vil en samling av setninger om Hydro resultere i en struktur av representasjoner om Hydro Grammatikkmønstrene som styrer termekstraheringen er en slags oppsummenngsprosess ved at visse ord med visse grammatikalske funksjoner innenfor visse typer av setninger blir kvalifisert som input til ekstrahenngsprosedyren I enhver type av mformasjonsrepresentasjon vil det være et informasjonstap, og det viktige er derfor å identifisere semantiske kategorier av spesiell interesse innenfor brukersamfunnet som betjenes av søke-makroene (regulære uttrykk) som forsyner lndeksmnfønnger

Agent-, prosess- og objekt-strukturer (APOS, Agent, Process and Object Structures)- Abstraheres inn i en lignende tnplettstruktur for agent og objekt (fortrinnsvis av overgangshandhnger) APO-tnplettene representerer en viktig reduksjon av alle SVO-tnplettene som er kodet i det nedre lag av multinivå-merknadsfil-systemet Reduksjonen resulterer fra settet med grammatikkbasert ekstrahenngsmønstre som virker på det nedre lag F eks ved å spesifisere at de eneste subjektene som skal inkluderes i APO-tnplettene er de som tilfredsstiller kntenene «substantiv og subjekt» og videre at substantivet også finnes som kodet i en fasett som angir organisasjoner som er relatert til norske petroleumsvirksomheter

Kildebeskrivelsesrammeverk RDF (Resource Descnption Framework): Er et teknologisk forslag for utviklingen av såkalt semantisk web og i relasjon med eXtensible Markup Language (XML) I bunn og grunn er dette en enkel struktur for å definere relasjoner mellom semantiske konsepter som også er kodet i sett av tnpletter, likevel ikke med henvisning til den grammatikalske strukturen av setningen i teksten Tnplettene av RDF utformer koblingsinformasjon om relaterte saker på samme måte som konsepter er koblet til hverandre i en tesaurus I «semantisk web»-terminologi, er disse informasjonsstrukturer kodet som «ontologier» En utvidelse av en RDF inneholder påstander om fakta, f eks «London er en by», en teknikk som var ganske populær i tidligere «ekspertsystemen) som er kodet i programmeringsspråk som PROLOG Det nye aspektet av «semantisk web» er at RDF'ene er forbundet til URL'er

(Universal Resource Identifier)

Foreliggende oppfinnelse er basert på en ganske forskjellig ideologi som er formulert med hensyn til de mål som skal oppnås ved det foreslåtte system for å strukturere informasjon og teoretiske prinsipper som styrer designet Dette er grunnen til hvorfor det er foretrukket å ikke bruke konsepter relatert til «semantisk web»-teknologi som tar sikte mot forskjellige mål og med forskjellige formahseringsprosesser

Claims

1 En fremgangsmåte for tekstuell granskning og oppdagelse, hvor et sett av sammenkoplete termer med spesifikke grammatikalske roller bhr ekstrahert fra en grammatikalsk kodet elektronisk tekst, karakterisert ved at settet av sammenkoplete termer tilveiebringes på en fremvisningsenhet som kontakter til den underliggende tekst

2 Fremgangmåte i samsvar med krav 1, karakterisert ved at settet med sammenkoplete termer inneholder tre termer som oppretter og viser tre sammenkoplete kontakter som en triplett

3 Fremgangsmåte i samsvar med krav 2 karakterisert ved at de nevnte tnpletter er basert på et grammatikkbasert design med formål å støtte granskning og oppdagelse

4 Fremgangsmåte i samsvar med krav 3, karakterisert ved at det grammatikalske designet er basert på grammatikalsk annotenng

5 Fremgangsmåte i samsvar med krav 4, karakterisert ved at den grammatikalske annotenng er basert på part-of-speech tagging (POS-tagging)

6 Fremgangsmåte i samsvar med krav 4, karakterisert ved at den grammatikalske annotenng er basert på constraint grammars

7 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at nevnte tnpletter er dynamisk ekstrahert fra en grammatikalsk kodet tekst

8 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at brukeren etter evaluering av et sett av kontakter kan åpne og se direkte mn i tekstsegmentet hvorfra disse kontaktene er ekstrahert

9 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at kontaktene relaterer til fasetter som benevnes subjekt-verb-objekt-strukturer (SVOS)

10 Fremgangsmåte i samsvar med krav 9, karakterisert ved at SVOSene er organisert i tnpletter

11 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at kontaktene relaterer til fasetter som benevnes "Agent", "Process" og "Object", dvs APOS, og hvori disse tnpletter er avledet fra SVOSen

12 Fremgangsmåte i samsvar med krav 11 karakterisert ved at APOSene er organisert i tnpletter angitt som APO-tnpletter

13 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at brukeren kan granske kontaktene gjennom forskjellige opsjoner for filtrering og sortering

14 Anordning for tekstuell granskning og oppdagelse karakterisert ved at et sett av sammenkoplete termer med bestemte grammatikalske roller er ekstrahert fra en grammatikalsk kodet elektronisk tekst, hvori systemet omfatter a) en akkvisisjonsmodul for innsamling av dokumenter som er i stand ul å formatere dokumentene til mmst ett felles format b) En segmenteringsmodul for generering av Annotated Text Files (ATF), for således å etablere Annotated Text Corpus, og c) En disambiguasjonsmodul for tekstdisambiguenng, og d) En fremvismngsenhet der settet av sammenkoplete termer tilveiebringes som kontakter til den underliggende tekst

15 Anordning i samsvar med krav 14, karakteri sert ved at akkvisisjonsmodulen er i stand til å administrere, indeksere og forespøne store tekstcorpora

16 Anordning i samsvar med krav 14 karakteri sert ved at dokumentene kan bli annotert med strukturell informasjon (dokumentale logiske objekttyper som tittel, topptekst, paragrafer setninger, etc) og grammatikalsk informasjon (Part-of-speech-tagger og CG-tagger)

17 Anordning i samsvar med krav 14, karakteri sert ved at modulen skaffer en dokumental lenkestruktur for eksempel en gruppe av penfere dokumenter blir lenket til et sentralt dokument (første ordens penfensk-til-sentral-lenker), de sentrale dokumenter kan lenkes til hverandre (hierakisk eller nettverk), eller penfere dokumenter assosiert med et sentralt dokument kan også bh lenket til et annet sentralt dokument som kanskje igjen er et annet sentralt dokument (andre ordens penfensk-nl-sentrallenker)

18 Anordning i samsvar med krav 14 karakteri sert ved at modulen muliggjør opptak av forskjellige typer informasjon om tekstene som dokumentkilde, innsamlingsdato, personansvarlig for samling, språk, copyright status (tillatelse tildelt, tillatelse nektet eller begrenset) formatinformasjon og versjonsinformasjon

19 Anordning i samsvar med krav 14, karakteri sert ved at segmentenngsprosessen inkluderer metadatatildehng

20 Anordning i samsvar med krav 14 karakteri sert ved at segmentenngsprosessen anvender Dublin Core Metadata Element-settet

21 Anordning i samsvar med krav 14, karakteri sert ved at et multileveled annotation-filsystem blir konstruert

22 Anordning i samsvar med krav 14 karakteri sert ved at disambiguasjonsmodulen behandler teknikker for konvertering av output fra Constraint Grammar-taggere (CG-tagger) til et annotenngsformat i samsvar med strukturen/arkitekturen spesifisert for Multileveled Annotation File System (MAFS)

23 Anordning i samsvar med krav 22, karakteri sert ved at de ekstraherte subset av grammatikalske tagger (koder) kombineres med et selektert sett av semantiske koder

24 Anordning i samsvar med krav 22, karakteri sert ved at spesielle koder som beskriver forskjellige lingvistiske/semantiske egenskaper blir tildelt til ordene/setningene i tekstene

25 Anordning i samsvar med krav 22, karakteri sert ved at modulen tilveiebringer et rammeverk basert på tnpletter i basisformen Subject Verb Object Structures (SVOS)