NO316480B1 - Fremgangsmåte og system for tekstuell granskning og oppdagelse - Google Patents

Fremgangsmåte og system for tekstuell granskning og oppdagelse Download PDF

Info

Publication number
NO316480B1
NO316480B1 NO20015581A NO20015581A NO316480B1 NO 316480 B1 NO316480 B1 NO 316480B1 NO 20015581 A NO20015581 A NO 20015581A NO 20015581 A NO20015581 A NO 20015581A NO 316480 B1 NO316480 B1 NO 316480B1
Authority
NO
Norway
Prior art keywords
text
accordance
information
search
grammatical
Prior art date
Application number
NO20015581A
Other languages
English (en)
Other versions
NO20015581L (no
NO20015581D0 (no
Inventor
Brit Helle Aarskog
Original Assignee
Forinnova As
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Forinnova As filed Critical Forinnova As
Priority to NO20015581A priority Critical patent/NO316480B1/no
Publication of NO20015581D0 publication Critical patent/NO20015581D0/no
Priority to US10/495,727 priority patent/US8265925B2/en
Priority to EP02778124A priority patent/EP1454262A2/en
Priority to CA2467369A priority patent/CA2467369C/en
Priority to PCT/NO2002/000423 priority patent/WO2003042859A2/en
Publication of NO20015581L publication Critical patent/NO20015581L/no
Publication of NO316480B1 publication Critical patent/NO316480B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Monitoring And Testing Of Exchanges (AREA)

Abstract

Foreliggende oppfinnelse vedrører en metode og system for tekstuell (innsikt, utforskning og) granskning, hvori et sett av sammenkoblede termer med detaljerte grammatikalske roller ekstrahert fra en grammatikalsk kodert elektronisk tekst og frembragt på en skjerm som kontakter til den underliggende tekst.

Description

Område for oppfinnelsen
Den foreliggende oppfinnelse vedører en fremgangsmåte for tekstuell granskning og oppdagelse, hvor et sett av sammenkoplete termer med spesifikke grammatikalske roller blir ekstrahert fra en grammatikalsk kodet elektronisk tekst, samt en anordning for for tekstuell granskning og oppdagelse Nærmere bestemt tilveiebringer metoden og systemet et grammatikkbasert søkeverktøy, hvori indeksinnføringer er koblet til underliggende tekstsegmenter som lndeksinnfønngene er avledet fra
Indeksstrukturer utgjør et system av representasjoner av dokumentsamlinger, og indekser står i stedet for den opprinnelige aktuelle tekst for en bruker Foreliggende oppfinnelse fokuserer på reglene som er anvendt for konstruksjon av representasjoner, og prosessen for å anvende representasjonene under informasjonssøk og tekstgranskning
Den tradisjonelle modellen av informasjonssøking forutsetter at den som etterspør informasjonen vet hva det er hun leter etter og at hun er i stand til å fremstille informasjonsbehovet som et sett termer (søkeoperander) og søkeoperatorer som antas å lede til nyttig informasjon
WOOO/46701 beskn ver en metode for språklig analyse av en tekst, mens US 5 619 809 beskriver et system og en metode for å lage kontekstuelle vektorer for bruke ved lagring og gjenfinning av dokumenter Ingen av disse publikasjoner beskriver imidlertid en metode og en anordning der den elektroniske teksten er grammatisk kodet slik at en del termer med bestemte grammatiske funksjoner kan ekstrheres fra teksten Bakgrunn for oppfinnelsen
Beskrivelsen av problemområdet er begrenset til det tosidige problem som brukeren av et lnformasjonsgjenfinningssystem blir konfrontert med
1) hun overlesses med informasjon, og
2) hun synes det er vanskelig å formulere forespørsler, og filtrere ut informasjon av interesse
Problemet som er angitt som «lnformasjonsoverlessmg» er seriøst og forbedrede indekseringsmotorer søkemotorer og andre verktøy er utviklet som svar på dette overflytsproblemet Problemet er fremstilt i flere rapporter som
• store vanskeligheter med å vite hvor man skal se etter informasjon
• for mange informasjonskilder
• informasjon, selv om den er levert tidsnok til å være nyttig, er ikke i den riktig form for å kunne ta avgjørelser • masse tid brukt på å gjenoppfinne informasjon heller enn å gjenfinne den tidstap ved å søke etter informasjon, til og med i domenespesifikke
dokumentsamlinger
ikke den riktige mengden informasjon tilgjengelig for å utføre jobben
tilfredsstillende
dokumentsamlinger er ikke samlet etter jobbansvarsområdene
Til tross for alt arbeidet på søke- og indeksmotorer de siste 50 årene fortsetter problemet med klassifisering og indeksering og å hente frem digitalt innhold å være stort for ustrukturerte data som tekst Søke- og indeksenngsmotorer (som Lycos, Google AltaVista, InfoSeek, etc) forsøker å løse problemet med å finne informasjon, ved å konstruere indekser fra informasjonskilder som er tilgjengelig på World Wide Web Overforenklet blir dette gjort ved å spore lenker og analysere sidene disse lenkene henviser til URL ene er lagret som innføringer globale indeksregistre som disse motorer skaper og sidene som URL ene henviser til kan bh hentet frem som svar på et søkeoppdrag Informasjonsfiltre forsøker å løse informasjonsoverlessingsproblemet ved å sette sammen tidligere brukerforespørsler i kategorier som regelmessig blir påkalt for å behandle informasjonsstrømmer
Tidligere søkesystemer er stort sett basert på den såkalte «tradisjonelle modell av
i
lnformasjonsfremhenting» Denne modellen er grundig karakterisert og diskutert i mformasjonsgjenfinnings-litteratur Et sitat av Blair (1990) indikerer hovedtrekkene for problemet i fokus « den tradisjonelle modellen av informasjonsgjenfinning som stipulere? at indeksers ( eller automatisk indekseringsprosedyrens) jobb er å beskrive presist innholdet og konteksten av dokumenter, uansett hvordan den som søker kan beskrive innholdet, og søkerens oppgave er å gjette hvordan dokumentene han kan finne brukbare, er blitt representert Dette er den vanlige modellen av informasjonsgjenfinning og det er underforstått i de fleste informasjonsgjenfinmngsmodellene»
(1990 189)
Tradisjonelle søkesystemer er avhengig av forskjellige indekseringsanordnmger, og forskjellige indeksenngsspråk varierer med hensyn til i hvilken grad de bruker enkle eller sammensatte termer og hierarkier, uansett om mdekstermene er regulert for synonymer eller homografer Fntekstmdekseringsanordninger er ofte kombinert med kontrollerte ordlister (tildelte nøkkelord) Brukeren kan vanligvis begrense søkeområdet til bestemte områder (katalogelementer så som tittel, forfatter, pubhkasjonsdata, filtopper. sammendrag og så videre) og/eller til visse dokumenttyper Typiske søkemuligheter er enkle søk kategonsøk (liidekstermer er arrangert i kontrollerte rangordninger) Mer avanserte systemer støtter GREP-søk (Get Regular Expressions) som regulerer den tilpasningsprosessen basert på «spesielle karakterer» inkludert i søkestrengen og forskjellige typer av nærhetsoperatører Anvendelsen av statistiske- og sannsynhghetsteknikker er en alminnelig akseptert kvantitativ ramme Likevel er begrensningene av den statistiske fremgangsmåten nylig blitt mer utbredt siden gjenfinningsprestasjonen av systemer som bruker statistiske teknikker fortsatt er (i absolutte termer) lave
t
Tilveiebringelsen av den riktige informasjonen og tidsspanng forutsetter vektlegging av bedre akkvisisjonsprosedyrer, og siden mengden av tilgjengelig informasjon stadig vokser, blir byrden på indeksenn<g>sanordmnger også større
Foreliggende oppfinnelse overser informasjonsutbredelse som bare gjør mer informasjon tilgjengelig Foreliggende oppfinnelse forutsetter mellomledd i organisa-sjonen (brukersamfunn) som samler dokumenter fra forskjellige kilder Akkvisision, segmentering, disambiguasjon og underliggende indeksenngspnnsipper er avgjørende for effektiv spredning, søking og bruk av dokumentsamlinger Svaret på de forelagte problemer som er undersøkt finnes ikke i smartere søkealgontmer eller såkalte intelligente virkemidler per se, selv om ny funksjonalitet og nye visuahsenngsteknikker kan hjelpe Løsningen som er en del av foreliggende oppfinnelse, er å få brukeren til å være nærmere innholdet ved bruk av nye representasjonsmidler, og et nytt sett verktøy som danner grensesnitt mellom disse verktøyene
Utfordringen er å transformere de relevante dokumenter til et system som differensierer mellom dokumenttyper og som konstruerer dokumentrepresentasjoner som tiltrekker brukerens oppmerksomhet Innholdet må transformeres og reduseres til en form som gjør innholdet tilgjengelig med mindre innsats og tidsforbruk Spesialdesignede tjenester vil gi ytterligere verdi til innholdsrepresentasjonene gjennom segmentering og disambiguasjonsprosedyrer og resultatet blir levert gjennom et spesialdesignet grensesmttsystem
Indeksenngsproblemet
Som nevnt utgjør lndeksstrukturer et system av representasjoner Konseptet representasjon betyr definisjonsmessig at noe informasjon er utelatt For å forsikre seg om at tapet ikke er avgjørende i forhold til informasjonssøk bør indekserings strategien fokusere på hvilken informasjon som er utvidbar og hvilken som ikke er det I det etterfølgende er noen grunnleggende forhold kort beskrevet
Indeksering og klassifisering (indeksering her anvendelse av noteringer i etnotasjoner i et klassifikasjonssystem) er en spesialisert profesjon og er ofte betraktet som bundet til gjenfinningsbehov Forskjellige dokumentsamlinger har indeksstrukturer som er basert på forskjellige kontrollerte ordlister, i motsetning til naturlig språkindeksenng Myriaden av indeksenngsstrategier kan bh posisjonert på et stort område i samsvar til dimensjonene som er kontrollert eller ukontrollert, pre- eller post-koordinat Søkemotorer som opererer på disse indeksstrukturene inkluderer sjelden teknikker for å integrere (sammenligne og sammensette) indekstermer på tvers av databaser
Siden indeksering er bestemt til teknisk bruk i mformasjonsgjenfinning må indekserere (personer eller programmer) nøye overholde et sett av representasjonsangivelser f eks som beskrevet i klassifikasjonsssystem og/eller tesauri (ordbøker) Representenng av tekstinnhold i overensstemmelse med en standardisert ordliste og indekseringsregler er årsaken til forskjellige problemer relatert til gjenfinningsresultat
Først av alt bestemmer den kontrollerte ordlisten betingelsen for indekstermene, slik at de kan bli kilden til beskrivelsene som er tildelt dokumentet på bekostning av de tekstuelle formuleringer som kan være de beste diskriminatorer i en gitt søkesituasjon
For det andre resulterer forskjellige indeksenngsstrategier i forskjellige indekstermer for det samme dokumentet (interindekserers samsvarproblemer)
Avstemningen av indekstermer basert på statistisk informasjon (ordvektprosedyrer) kan videre skjule tekstuelle detaljer som har en atskillende søkeeffekt F eks antas det at profesjonelle forfattere bruker et større ordforråd enn mer uerfarne forfattere Leksikalsk stil (påvirket av mange personlige sosiale, kulturelle og andre kontekstuelle faktorer) viser forfatterens valg blant enorme variasjoner av ordkonstellasjoner brukt for å uttrykke mer eller mindre det samme Ord som «junst», «sakfører» eller «advokat» er variasjoner i ordstil, likevel kan den kontekstuelle konteksten avsløre større betydnmgs-vanasjoner Slike enkle ordvananter kan innbefattes i mdekseringsanordninger med synonymrelasjoner som er avledet fra tesaun Problemet blir større når man tenker på det faktum at like betydninger kan uttrykkes med setninger som har forskjellig ordstruktur eller ordsammensetninger som besknver enkle ordbetegnelser
(«barnesykdom» i stedet for «pediatn»)
Spørsmålet om ordstil er relatert til et annet indekseringsproblem Å selektere de «riktige» ord fra et klassifikasjonssystem eller tesauri kan være ganske komplisert i tilfelle med mdeksenngsdokumenter med et «uventet» eller innovativt innhold Nye termer som ikke er dekket i klassifikasjonssystemet må projiseres inn i bestående termer eller indeksereren må utvide klassifikasjonssystemet slik at det inneholder de nye termer Det siste tilfellet krever menneskelig mnvolvenng (uavhengig innholds- eller temaanalyse), og krever i prinsippet også en profesjonell indekserer med leksikografisk kompetanse
Disse og relaterte problemer forklarer synspunktet til Langndge (1989) «7 øyeblikket går potensialet for datamaskiner overveiende tapt fordi de bare blir brukt som et medium for dårlige indekseringsmetoder» Blair går enda videre og sier «^ se informasjonsproblemet som et dataproblem er som å blande fysisk tilgang med logisk tilgang eller å blande verktoyet medjobben» (1990 70) Konseptet «logisk tilgang» i lnformasjonsgjenfinmng henviser til saker som er relatert til å minske antallet logiske avgjørelser som brukeren må ta når det søkes etter informasjon Fokus er på hvordan dokumenter skal representeres for gjenfinning og disse representasjoner er de logiske aksesspunkter for disse dokumenter og utgjør systemets selektivitet Brukerens problem
Problemet til brukeren er relatert til lndeksenngsanordnmgene (regulert eller fritekst-mdeksenng) og ikke så mye relatert til systemets søkefunksjonalitet (Konseptets søkefunksjonalitet henviser til utførelse av hvordan systemet sammenligner brukerens forespørsler med representasjoner av dokumenter i systemet, og hvordan systemet beregner/presenterer de elementene som mest sannsynlig tilfredsstiller brukerens behov)
Hovedproblemet for brukeren er relatert til brukerens evne til å uttrykke informasjonsbehovet som en forspørsel sendt til søkesystemet Søkeoppdraget er et søkeuttrykk sammensatt av et sett av søketermer og søkeoperatorer Søkeuttrykkene er indirekte fordi søkene ikke er utført i selve teksten, men i indeksstrukturer som er forutsatt å representere tekstinnholdet (tekstinnholdserstatninger) Søkesystemet sammenligner sammenstillingen av termer i søkeuttrykket med systemets lndeksenngstermer
(dokumentrepresentasjoner eller dokumentvektorer)
Termene i et søkeuttrykk kan kombineres på et tilsynelatende uendelig antall måter, og brukeren vil oppleve usikkerhet om hvorvidt dokumenter er indeksert med termene inkludert i søkeuttrykket Det er klart at alle informasjonssøk innebærer en investering i tid Avanserte indeksenngsanordninger sikter på å redusere søketid ved å "trimme" søkeområdet Likevel er det et poeng at brukeren vil møte samme type problemer uansett om mdeksstrukturene inneholder såkalte fntekst-termer eller termer fra en regulert ordliste (indekstermer som bruker noteringen fra et klassifikasjonssystem som faktisk er en ekstrem form av summering) mdeksstrukturene kan være begrenset til kjeder av nominelle uttrykk, og konsepter kan være relatert ved enkle semantiske koblinger (synonymer, etc), arrangert i hierarkiske strukturer (bredere termer og smalere termer) Likevel er disse relasjoner alltid mye svakere enn de originale tekstuelle ordkobhnger som innkorporerer tekstuell koherens (sammenheng)
Søkeprosessen i en språklig transformasjons<p>rosess
Empiriske undersøkelser avdekker forskjellige faktorer som forklarer brukerens manglende evne til å uttrykke sitt informasjonsbehov på en nøyaktig måte, shk at systemet produserer et resultat som dekker informasjonsbehovet (vanligvis skiller diskusjonene mellom målonenterte søk og mteresseorienterte søk) Brukeren er i en situasjon hvori hun må balansere to ganske forskjellige mål
Først og fremst må brukeren forutsi hvordan antatte relevante deler av teksten er representert i indekseringssystemet For det andre må brukeren formulere et oppdrag som gjenfinner et antall poster (dokumenter eller tekstsegmenter) som er adekvat i forhold til mengden av ressurser brukeren har tilgjengelig når hun vurderer postens nyttighet
Når det utføres et målorientert søk i en domenespesifikk forholdsvis liten dokumentbase, har brukeren behov for en mulighet til å granske tilgjengelige indekstermer for å kunne gi en presis forespørsel til systemet Et søkeresultat av la oss si 100 Ul 1000 poster (eller mer), er i noen situasjoner ikke av noen verdi for brukeren Antall poster i resultatlisten overstiger brukerens «brukbarhetspunkt», brukerens kapasitet til å se gjennom/lese, og for å finne informasjon som er sett på som brukbar
Mange faktorer påvirker brukeren når hun prøver å formulere en «best match forespørsel» (bakgrunnskunnskap, database-heterogenitet, etc) Denne prosessen er faktisk en lingvistisk transformasjonsprosess, hvori brukeren er nødt til å transformere sine ideer om et informasjonsbehov til en rekke nominelle uttrykk På den andre side er dokumentinnholdet blitt transformert i en annen prosess som resulterer i lister av isolerte konsepter
En isolert term eller konsept er et ord som isolert sett ikke kan referere til meningen som er formidlet i teksten (Ranganathan 1967) "Et isolert konsept kan være en komponent i et blandet emne/tema som er en del av et komplekst emne/tema" Denne påstanden dekker både indekser som resulterer fra automatiske mdekseringsprosedyrer eller såkalte uavhengige lnnholds-eller temaanalyser Ordkobhnger som finnes i teksten kan ikke bh uttrykt i indeksen (i motsetning til ordkobhnger kodet i f eks tesauri
(ordbøker)
Hvorfor mislykkes brukerens forespørsel
En søkeforespørsel kan mislykkes av mange grunner (en forespørsel mislykkes når systemet gir et resultat som brukeren synes er utilfredsstillende) Følgende liste gir en enkel oversikt av noen viktige årsaker relatert til ordbruk (ord uttrykk) i søkeforespørselen • Tennene mangler (ekskludert) kanskje fordi brukeren antar at de ikke er i systemets indeksstruktur, eller fordi at brukeren antar at de ikke er relevante i et søkeoppdrag eller fordi at brukeren tror at visse termer ikke har tilstrekkelig diskriminerende evne • Termer er inkludert fordi brukeren tror at visse ord finnes i dokumentene eller er representert i indeksstrukturer Automatiske prosedyrer kan fjerne slike termer og/eller erstatte dem ved å klassifisere dem som del av en semantisk gruppe i en ordbok Erstatninger kan være i konflikt med brukerens mtensjon, eller den ide
brukeren forsøker å uttrykke gjennom et sett termer (likevel ber systemer som støtter denne opsjon vanligvis brukeren om å bekrefte erstatning av termer) • Brukeren selekterer termer som refererer til ord som blir brukt i nåtid (nye eller populære ord) eller ord som er relatert til et bestemt felt (profesjonsspråk) Potensielt relevante dokumenter kan indekseres med termer som er forskjellige fra dem som anvendes nå, men som har samme mening Tesaurioppslag/ordboksoppslag kan etablere termsamsvar (termer i oppdraget og i lndeksstrukturen) Denne strategien øker imidlertid søkeområdet (omfatter operatøren OR), og resultatlisten kan derfor overskride brukerens brukbarhetspunkt • Oppdraget inkluderer for mange termer eller termer som er kombinert med operatorer som ekskluderer potensielt relevante dokumenter (tekstsegmenter) Empiriske undersøkelser viser at brukere er motvillige for å forandre eller fjerne de første 2-3 termer i en kombinert liste Automatiske prosedyrer kan justere sekvensen av termene, eller/og gi termene vekt i samsvar med deres posisjon i en liste Hvis brukeren betrakter den første term som viktigere enn de andre, kan disse automatiske prosedyrer være i konflikt med brukerens intensjon • Forespørselen inkluderer termer på et abstraksjonsnivå som er forskjellig fra termene i lndeksstrukturen I mer avanserte systemer får brukeren muligheten til å selektere bredere eller smalere termer Alternativt kan brukeren velge operatorer som beveges nedover eller oppover i en termrangordning Avhengig av tesaun kan søkeområdet bh tilsvarende for stort eller for lite i forhold til brukerens søkemtensjon
Det språklige kompetanseproblem
Brukerens språklige transformasjonsproblem er at flere av disse «mislykkingsårsaker» kan skje i en søkeforespørsel Brukeren har ingen mulighet til å evaluere eget søkeoppdrag i forhold til termer som er tilgjengelige i mdeksstrukturene Indekstermene er «skjulte» slik at brukeren bare kan motta deler (hvis systemet i det hele tatt tilbyr muligheten til å se inn i indekssystemet)
Problemet ligner litt på en situasjon der to personer forsøker å ha en samtale ved å snakke to forskjellige språk (brukerens naturlige språk transformert til en rekke termer og systemets dokumenter transformert til en mdeksstruktur med isolerte termer uten relasjoner) Brukeren er i en situasjon hvor hun prøver å lære systemets språk for å oppnå målet (tilfredsstille et informasjonsbehov) Å lære et nytt språk forutsetter imidlertid tilbakemeldinger om hvorfor et visst uttrykk ikke produserer noe tilfredsstillende søkeresultat Intet system (ennå) gir tilbakemelding med forklaring om hvorfor søkeoppdraget mislykkes - en komplisert tilbakemelding hvis flere av de forannevnte «mislykkingsårsaker» skjer i samme oppdrag Siden brukeren ikke kan inspisere systemets språkbruk, er hun ikke i stand til å korrigere sin egen språkbruk, når det formuleres søkeoppdrag Den eneste tilgjengelige strategien er å fortsette prøvene (trial en error) i hver ny søkesituasjon (nye oppgaver med nye informasjonsoppdrag)
Det pågår forskning som har som formål å konstruere diagnostiske anordninger som analyserer brukerens forespørsler sammenlignet med resultatene brukeren evaluerer og markerer som relevant Slike diagnostiske anordninger kan likevel ikke håndtere faktumet at språkbruk er en dynamisk ting «hvis største dynamikk og forandring faktisk kan komme i interaksjonsprosessen med et informasjonssystem» (Doyle 1963)
Løsningsforslag
Allerede i 1963 vurderte Doyle relevansen av mformasjonfremhentingstester og konkluderte «Den gradvis voksende bevissthet av menneskets udugelighet i å formulere sitt virkelige behov i en enkel form, vil tendere mot å velte mange evalueringsstudier av informasjonsfremhentingssyslemer som har blitt gjort i mellomtiden»
Doyle argumenterte med at løsningen for dette problemet ikke var å designe systemer rundt relevanskonseptet, men å basere designet på konseptet granskningsevne «søkeren trenger heller et effektivt granskningssystem enn et forespørsehmplementerende system»
Med henvisning til dette sitat undersøker oppfinneren av foreliggende oppfinnelse derfor i hovedsak brukerens problem relatert til det å formulere forespørsler og å tilveiebringe feedback om i hvilken grad forespørselen passer det egentlige innhold i dokumentene/tekstene En kontekst-avhengig og situasjonstilpasset lnnholds-representasjon tar hensyn til brukerens aktuelle situasjon Forutsetningen for foreliggende oppfinnelse er en domene-spesifikk dokumentsamling, vurdert som verdt å levere til fagpersoner innenfor et visst brukersamfunn
Heller enn å stole på brukerens evne til å uttrykke informasjonsbehov på en presis måte, bør systemet fremsette mekanismer som gjenspeiler det faktiske innhold i dokumentsamlingen til brukeren Fremstillingen av dokumentinnholdet må gå på effektivisere tidsforbruket, og mer kostbare teknikker er berettiget i forhold til å tilby brukeren avanserte valgmuligheter for å granske tekst for å oppdage tekstsegmenter som er nyttige i en viss situasjon Sconngsprosenten av nåværende søkemotorer er i denne sammenheng et fullstendig utilstrekkelig mål av et systems verdi for brukeren
Dette problem forsøkes løst ved å innlemme nye tekstteorier og språkteknologi inn i indekseringsfeltet Segmentering og disambiguasjon er vesentlige verktøy når det konstrueres innholdsrepresentasjoner som støtter tekstgranskning og effektiv søking
De foreslåtte lndeksenngsprosedyrer gir en ny type av selektivitet Visualiseringen av grammatikkbaserte kontakter ti! de underliggende tekster, som vil bh forklart mer detaljert nedenfor, tilveiebringer en slags «avgjørelsesstøtte» for brukeren som søker etter et sett av diskriminerende søketermer Tanken er også at brukeren (en fagperson innen et visst område) kan lage presumptive vurderinger av forespørselens brukbarhet siden indekstermene (kontaktene) uttrykker sammenhenger, formidlet gjennom ordene i den underliggende tekst
Selektiviteten til foreliggende oppfinnelse omfatter og støtter
• Leksikal semantisk informasjon avledet fra CG-taggere (Constraint Grammar Taggere)
• overføring av teknikker som er relatert til ordbok-konstruksjoner
• statistisk informasjon avledet fra keyness-beregning og inkludert som nye elementer i dokumenterstatmngene • frekvensinforrnasjon som kobler grammatikkbaserte koder til dokumentenes logiske objekttyper • filtermuligheter realisert som predefinerte søkemakroer som inkluderer grammatikkbaserte og semantiske søkeoperander
Sammendrag av oppfinnelsen
Foreliggende oppfinnelse er gitt det foreløpige navnet «Synopsis»
Foreliggende oppfinnelse øker brukerens «innsikt» ved den valgte måten å søke på, og tilbyr tallnke muligheter for å granske søketermer som er strukturert til et sett kontakter til de underliggende tekstsegmenter Foreliggende oppfinnelse gjør det mulig for brukeren å overføre sin innsikt til tekstuell granskning
Spesielt gis brukeren mulighet til å utforske slike sett av termer som er ekstrahert pga deres grammatikalske funksjoner (grammatikalsk ordklasse og syntaktisk/grammatikalsk funksjon) innen setninger Disse termer er gjennom et system av unike identifikatorer forbundet med den underliggende tekst Med henvisning til denne karakteristiske egenskapen blir termene angitt som tekstuelle kontakter eller bare kontakter Fortnnnsvis er de tekstuelle kontakter presentert for brukeren som et sett av tripletter Disse tnpletter er basert på et grammatikk basert design med formål å støtte utforsking og oppdagelse
Denne type selektivitet krever at teksten er grammatikalsk kodet, og kontakter er dynamisk ekstrahert fra den underliggende tekst som spesifisert i et system av grammatikk baserte søkemakroer Tekstene med grammatikalske annotennger eller merknader er strukturert i et multimvåannotenngsfilsystem Siden tekst har et uforutsigbart innhold kan verken settet av kontakter eller sammenhengene mellom disse som fremvist i tnpletter forutsies på forhand
Videre utførelser av oppfinnelsen omfatter sett med predefinerte relasjoner mellom kontakter og semantiske kategorier på et høyere nivå Kontaktene er inter aha mappet mot domenespesifikke tesaun i en "Target Word Selection" (TWS) prosedyre som har semantisk disambiguasjon som mål (med henvisning til predefinerte terminologiske strukturer) Relasjonene mellom ekstraherte kontakter og konsepter kodet i tesaun støtter flere filtermuligheter
Forespørselen fremsatt til systemet eller heller retningen til et søkeforløp (bevegelser) vil påvirkes av mønstre til kontakt-kollokasjoner vist i tnplettene Hvis disse kontaktene (tegn) ligner «noe» som brukeren hadde planlagt å finne eller lete etter, kan søket fortsette som planlagt Hvis interessene og/eller kontaktene avviker, kan brukeren ønske å forandre søkets fokus TextSounder tilbyr muligheter for å navigere opp og ned abstraksjonssjikt (runder/sykluser og nivåer innen tnplettene)
Det som kjennetegner den innsiktsfulle brukeren i forhold til den mer gjennomsnittlige brukeren, er evnen å se et mønster eller implikasjoner når hun er eksponert for det Foreliggende oppfinnelse er designet for brukere som er forberedt på å gjenkjenne tnpletter som inneholder tegn som gjenspeiler informasjonen som det søkes etter, og derfor forutsetter oppfinnelsen at tnpletter av kontakter (eller deler av dem) vil bli gjenkjent som betydningsfulle når de forekommer i vindusfeltene Brukeren kan oppdage potensiell relevans av de viste mønstrene
Når en bruker har vurdert et sett med kontakter, kan hun be om videre raffinement, eller til slutt åpne eller se direkte inn i tekstsegmentene som disse kontaktene er ekstrahert fra Mye av det som vises frem til brukeren vil raskt bh forkastet Synopsis presenterer epitomiske tnpletter, og muliggjør at brukeren kan bla igjennom ordnede sett av tekstuelle kontakter Filter- og fremvismngsmuhghetene er laget for å støtte brukeren til å avgjøre den relative viktigheten enten til kontaktene eller de underliggende tekstsegmenter
Den foreliggende oppfinnelse beskriver så en fremgangsmåte for tekstuell granskning og oppdagelse, hvor et sett av sammenkoplete termer med spesifikke grammatikalske roller blir ekstrahert fra en grammatikalsk kodet elektronisk tekst, kjennetegnet ved at settet av sammenkoplete termer tilveiebringes på en fremvisningsenhet som kontakter til den underliggende tekst Mer spesifiserte utføresler er angitt i underkravene 2-13
Oppfinnelsen omfatter også en anordning for tekstuell granskning og oppdagelse, kjennetegnet ved at et sett av sammenkoplete termer med bestemte grammatikalske roller er ekstrahert fra en grammatikalsk kodet elektronisk tekst, hvori systemet omfatter a) en akkvisisjonsmodul for innsamling av dokumenter, som er i stand til å formatere dokumentene til minst ett felles format b) En segmenteringsmodul for generering av Annotated Text Files (ATF), for således å etablere Annotated Text Corpus, og
c) En disambiguasjonsmodul for tekstdisambiguenng, og
d) En fremvisningsenhet der settet av sammenkoplete termer tilveiebringes
som kontakter til den underliggende tekst
Ytterligere utførelser av oppfinnelsen er agitt i underkravene 14-25
Kort beskrivelse av tegningene
Oppfinnelsen vil bh beskrevet detaljert med henvisning til medfølgende figursett
Fig 1 er en generell oversikt av noen av modulene som fortrinnsvis er inkorporert i en foretrukket utførelse av oppfinnelsen Fig 2 er en skjematisk fremstilling av en akkvisisjonsmodul i samsvar med en utførelse av foreliggende oppfinnelse Fig 3 viser en skjematisk fremstilling av en segmenteringsmodul i samsvar med foreliggende oppfinnelse Fig 4 er en skjematisk representasjon av en disambiguasjonsmodul i samsvar med oppfinnelsen
Fig 5 viser et grensesnittdesign av APO-tnplettene (Agent, Process and Object)
Fig 6 viser en representasjon av APOer og SVOer (Subject Verb, Obkect Structures) og hvordan disse konsepter er organisert i tnpletter ved forskjellige abstraksjonsnivåer Fig 7 gir en skjematisk representasjon av konstruksjonen til TWS-lister (TWS = Target Word Selection)
Fig 8 viser prosessen til oppretting av foreslåtte domene-koder
Fig 9 viser prosessen for etablering av APOene
Fig 10 gir en skjematisk representasjon av elementer i en filtermodul i samsvar med oppfinnelsen
Som kort beskrevet ovenfor er hovedprinsippet som danner basis for foreliggende oppfinnelse å bruke grammatikkkkodet tekst for å danne et sett av kontakter som presenteres for brukeren som tnpletter
Akkvisisionsmodul
Denne seksjon beskn ver teknikkene for teksinnhenting fra www-sider eller andre dokumentkilder i et elektronisk format Fortnnnsvis vil foreliggende oppfinnelse fokusere på «avgrensede» dokumentsamlinger dvs at dokumentene er relatert til et spesifikt domene eller interessefelt Foreliggende oppfinnelse er likevel ikke begrenset til slike avgrensede dokumentsamlinger og kan brukes som søkemotorer for alle typer elektronisk tekst
Et hovedformål med foreliggende oppfinnelse er imidlertid å vurdere informasjonsbehovet til et selektert brukersamfunn, mer spesifikt hvilke dokumenter som brukes i brukerens arbeidsomgivelser, hvorfor de blir brukt/lest og hvordan de er brukt/lest Målet er å konstruere et sett med verktøy som understøtter mformasjonsfiltrenng - verktøy som er skreddersydd med hensyn til spesifikke dokumentsamlinger og brukersamfunn
Tekstsamlingen er i første omgang hentet i forskjellige formater og må konverteres til minst ett felles format Dette utføres av akkvisisjonsmodulen som spesifiseres i Fig 2
Som nevnt ovenfor er et formål med foreliggende oppfinnelse å tilveiebringe en søkemotor som blir brukt på en samling dokumenter som på en eller måte er beslektet Termen «corpus» brukes for å beskrive slike dokumentsamlinger, og før diskusjon av akkvisisjonsmodulen blir prosessen for å konstruere en corpus kort beskrevet
Termen corpus blir anvendt til en samling språktekster i elektronisk format og kan bestå av skrevet eller/og talt tekst Teksten kan representere en spesifikk sjanger eller språkmangfold Den omfattende informasjonsmengden som er tilgjengelig via internett har gjort det lettere å finne og innsamle data som kan inkorporeres i en corpus Når et system skal tilpasses til et brukersamfunn som jobber i et spesifikt domene, er det nødvendig å konstruere og styre en domene-spesifikk corpus, og dette øker behovet for verktøy som hjelper corpus-konstruktørene i arbeidet
Det finnes mange rapporter om forsking på corpus-hngvistikk rettet mot design av annotenngsskjemaer for lingvistiske kjennetegn i tekstene Derfor er det et formål med foreliggende oppfinnelse å frembringe universelle programvareverktøy som lett kan tilpasses til kundespesifikasjoner i forhold til de forskjellige input-tekstformatene, og i henhold til brukerens behov
Data-opptaket involverer bruk av universell programvare kjent innen teknikkens stand Corpus WorkBench (CWB) fra IMS ved universitetet i Stuttgart er et system for administrering indeksenng og undersøkelse av store tekst-corpora og kan brukes for tekst bestående av flere hundre millioner ord Tekstene kan annoteres med strukturell informasjon (dokumentenes logiske objekttyper som tittel, filtopper, paragrafer, setning etc) og grammatikalsk informasjon, dvs Part-of-speech tags (POS) og Constramt Grammar tags (CG-tags) CWB har en kommandohnje-forespørselgrensesnitt og forespørslene opererer mot tekstinformasjon arrangert i en matnks med informasjon som er koblet til hvert ord i teksten CWB kan derfor brukes som universell-programvare for å utforme tradisjonelle konkordansutganger som f eks en KWIC-konkordans (KW1C - Key Word In Context) CWB kan altså fremkalle lister av sammenstillinger og produsere fordelinger av frekvenssett for forskjellige parametre Slike lister kan sørge for basisen for identifikasjonen av nye innholdsord i innkommende tekster Konseptet «innholdsord» refererer vanligvis til de 4 hovedklasser av språket - substantiver, adjektiver, verb og adverb
WordSmith kan anvendes for å granske ordene, sammenstillinger, konkordanser, samsvar mellom tekster (dokumenter), tegninger som viser spredningen til forekomster beregne «keyness» (uvanlig høyfrekvente ord i ett dokument eller dokumentsegment sammenlignet med en større corpus) sortering og filtrering av ord og grupper, beregne statistikk, eksportere filtrerte ordlister, etc Både WordSmith og CWB støtter konstruksjonen av domene-spesifikke tesaun basert på klassiske algoritmer for automatisk ordbok-generenng («for hvert innholdsord i corpusen og for hvert annet innholdsord, finne ut hvor ofte begge forekommer innenfor et oppgitt antall ord av hverandre»)
Corpuskonstruksjonen må fokusere på kvaliteten for den innsamlete tekst For å sikre kvaliteten omfatter systemet registre med forskjellige typer informasjon om tekstene Eksempler er dokumentkilder innsamlingsdato, person som er ansvarlig for innsamlingen, språk, copynght-status, spredningshsens (tillatelse er oppnådd, tillatelse nektet eller begrenset) formatinformasjon, versjonsinformasjon, osv Disse registrene er fortrinnsvis lagret og administrert i en web-basert database-apphkasjon, og hvert regi-ster gis tilgang til en URL og dokumentet som er lagret som vedvarende i et web-tilgjengelig system (Multileveled Annotation File System, MAFS)
Tekstsamlingen kan være dynamisk og uten grenser, eller stønelsen kan være kjent i innledningsvis eller i det minste er det en estimert størrelse av corpusen Når størrelsen på corpusen er kjent på forhånd, gir dette uttrykk for at et mål er oppnådd og markerer slutten av en datasamhngsfase Hvis samlingen skal være uten grenser, må dokumentposisjonenngen være basert på et spesifikt sett kntener som passer for spesialinteresser/perspektiver av brukergrupper
Brukere innen et brukersamfunn vil ha forskjellige synspunkter på kategonene og subkategoriene av tekstene som skal samles Likevel er slike synspunkter ofte oppgitt i svært alminnelige termer f eks dokumenttyper, organisasjoner hendelser, spesielle år, etc Derfor er det første tnnn å få brukersamfunnet til å formulere deres databehov i klare termer Deretter å avgjøre hvilken datatype som skal inkluderes i corpusen, og i hvilke størrelsesforhold
Foreliggende oppfinnelse tilveibnnger også en metode for å fremkalle en dokumentlenkestruktur Lenkestrukturen er basert på en avstand-rom-modell der dokumentene er organisert med hensyn til faktorer som er definert av brukersamfunnet Den flerdimensjonale fremstilling av dokumentsettet er basert på en modell som beskriver dokumentklasser hvori hver klasse har underklasser i overensstemmelse med dokumentets status (produksjonsdato, produsentens myndighet, etc) Ved det høyeste abstraksjonsnivå er det fire hovedklasser angitt som
• Normative reguleringer - alle typer formelle vedtatte normer som lover, reguleringer, instruksjoner regler, etc som regulerer foretaket og aktiviteter
innenfor en institusjon
• Forhandling - dokumenter forbundet med innhold som gjelder i et administrativt byrå eller annen institusjon, etc • Kompetanse - alle typer klargjøring, rapporter, etc , dvs en person eller institusjon blir tildelt kompetansen (myndighet) til å fungere som undersøkelseskomité på
vegne av andre personer, institusjoner
• Debatt - alle typer synspunkter uttrykt i forskjellige typer debatt som taler, kommentarer, kromkkbøker i alle typer media, inkluderende nyhetsrapporter, intervjuer, etc
De fire generelle dokumentklasser (hver klasse med underklasser) vil støtte behovet for begrensning av søkeomfanget De fleste gjenfinningssystemer tilbyr valgmuligheten å begrense søkeomfanget ved å selektere databasedeler Klassifikasjonskriteriet som
ligger under dokumentklassene i forhold til foreliggende oppfinnelse er imidlertid forskjellig idet det er tatt hensyn til kontekstuelle egenskaper Det underliggende kriteriet er avledet fra jundisk teori (Eckhoff 1991) og tradisjonell klassifikasjonsteori (Langndge 1989 1992) Dokumentklassene skal også støtte definisjonen av hypertekstuelle koblinger mellom knutepunkter (noder) som er ekstrahert fra forskjellige dokumenter F eks kan knutepunkter (noder) ekstrahert fra debattdokumenter (f eks avis), på en måte være relatert til ytringer i forhandhngsdokumenter (f eks
diskusjoner i regjeringer) og videre i normative reguleringer (f eks lover, forskrifter, reguleringer) Knutepunktene (nodene) skal være sammenhengende i et hypertekst-system dvs forhåndsdefinerte koblinger mellom selekterte (ekstraherte) tekstsegmenter
(koblingene blir betraktet som konseptuelle baner gjennom tekstbasen)
Konseptet bak de faste kobhngsstrukturene er at brukeren lett skal kunne identifisere dokumentene som mest sannsynlig er relevante i forhold til de aktuelle informa-sjonsbehovene Kobhngsstrukturene blir presentert til brukeren som et grafisk bilde med hver klasse, underklasse og dokument representert ved et ikon Brukeren kan «åpne» ikonene for mer informasjon om dokumentene, og denne informasjon er også systematisert i forskjellige abstraksjonslag Ved det øvre nivå kan brukeren granske dokumentklasseinformasjon, ved det neste nivå kan brukeren granske informasjon som er kodet i Dublin Core-elementsettet og på det mest detaljerte nivå kan brukeren granske dokumentene ved bruk av hovedtriplettstrukturen Brukeren får kontroll over fremvisning av lagene og kan lett navigere gjennom dokumentsamlingen Ved å innlemme dimensjonen sentral og periferisk i forhold til f eks organisasjons- eller prosessuelle saker, er kobhngsstrukturene realisert som flerdimensjonale F eks kan en gruppe perifere dokumenter innenfor en klasse bh koblet til et sentralt dokument innenfor den samme klasse og sentrale dokumenter kan bh koblet til hverandre innenfor den samme klasse eller på tvers av forskjellige klasser (hierarkisk eller i nettverk)
Dokumentklasseordningen skal brukes når det avgjøres hva slags type tekster som skal inkluderes i hver klasse/underklasse og i hvilken mengde (aktualitet, temadekning etc) Avgjørelsen på en strategi for corpusens størrelse og komposisjon kan vanere gjennom disse brede dokumentklasser F eks kan det være passende å bestemme seg for en nokså lukket strategi for normative reguleringer og en mer uavgrenset eller blandet strategi for de andre tre klasser Brukerne må sørge for utvelgelseskriteriene
Corpusen skal omfatte tekster som allerede eksisterer i elektronisk format Data kan bh ervervet ved å skanne trykksaker (krever god utskrift og papir) og konvertere disse til elektronisk format Prosessen er tilbøyelig til å ha en feilrate og dyr og skal bare utføres når det er nødvendig for å imøtekomme brukerens dekningskntenum Filer i pdf
(portable dokument format) fremsetter en annen type problemer Dersom talematenale skal være innbefattet vil ikke disse filer bh konvertert gjennom en transkripsjons-prosess Filene vil bh beskrevet i en tilkoblet Dublin Core-registrenng og hvis hensiktsmessig koblet til segmenter i det skrevne materialet
Pre-behandhngstnnnene omfatter formatkonvertenng og oppdeling av dokumenter til setmnger (og noen andre typer av syntaktiske/leksikalske enheter) og indeksering av hele corpusen En komplett full-tekst-indeks av hele corpusen gjør det mulig å utføre statistiske analyseoppgaver Programvarene WordSmith og Corpus WorkBench kan fortrinnsvis bh brukt for disse typer oppgaver
Det finnes en stor variasjon av formater ("multiformity") og hvert format trenger spesiell behandling Kildetekstene (doc, rtf, html, SGML, XML, txt, pdf, etc ) må konverteres til minst ett fellesformat (inntak til den grammatiske tagging er den essensielle delen av diambiguasjonsprosessen (beskrevet nedenfor))
"Multiformity" i kildetekster og kildetekster med lav kvalitet kan resultere i en tidkrevende formatkonvertenngsprosess F eks høyt formatterte tekster har ord som ligger oppå bakgrunnsbilder, ord blir satt i «skjulte» kolonner eller tabeller, tekstene er ofte avbrutt av illustrasjoner, stavefeil bruk av bindestrek tabulatortagger enkle linjeskift mellom avsnitt, manglende tegnsetting, forkortelser, etc Det finnes normer for dokumentstruktur, men ikke for forfatterens skriveatferd Dette betinger et blandet verktøysett som støtter konverteringsprosessen
De domenespesifikke corpora må innta to former pga den programvare som skal anvendes og den nye programvare med spesielle formål som blir konstruert En Plain Text Corpus (PTC) inneholder rene tekstfiler og en Annotated Text Corpus (ATC) inneholder det samme sett av tekst med annotennger
Når en corpus er satt sammen ved bruk av elektroniske dokumenter er det behov for å lagre dokumentene i deres onginalformat Dette er nødvendig av flere grunner Onginalformatet inneholder ofte verdifull informasjon som må bh ekstrahert inn i metadata-beskn vel sene (f eks kan topp-teksten i html-dokumenter inneholde informasjon om forfatter, nøkkelord, produksjonsdato, språkversjoner, formatversjoner etc ) Denne type informasjon vil bh ekstrahert og tildelt felter i Dublin Core-elementsettet (DC)
Versjonsdata er nødvendig av to hovedgrunner
Brukt for å måle fremskritt og statistikk (hvor mange filer i de forskjellige formater
etc)
Brukt for å vite hvilke verktøy som skal anvendes i påfølgende behandling
(omforming til ren tekst, part-of-speech tagging etc )
Ikke-annoterte tekster er et passende input-format til forskjellige databehandlingsprogrammer - som Corpus WorkBench, WordSmith, ATLASti, forskjellige statistiske programmer, Part-of-speech taggere, Constraint Grammer taggere, etc
Et ideal a\ Plain Text Format kan være fra penoden da tekstsamlinger stort sett ble brukt for lingvistisk undersøkelse Særpreg som bokstavtype, bokstavstørrelse, tabeller og grafiske bilder blir ikke betraktet som særlig relevant for lingvistiske analyser og derfor blir de vanligvis fjernet fra corpustekster Imidlertid med henvisning til anvendelse av lnformasjonsfiltrenng, kan slik informasjon ha sin egen verdi Bokstavstørrelse kan f eks betegne at forfatteren legger trykk på visse fraser (stikkordfraser) eller antyder viktige synspunkter (veivisende funksjoner) osv Overskrifter til seksjoner/avsnitt betegner vanligvis innhold (hvis de er «sanne» makroproposisjoner som oppsummerer teksten som følger under) Enheter som er elementer i dokumentenes logiske struktur (som definert i dokumenttypedefimsjon, DTD) fremsetter ingen spesielle problemer hvis de er riktig merket (SGML/XML)
Foreliggende oppfinnelse er basert på en corpus med annotering - grammatikalske annotennger og annotennger som beskriver dokumentets logiske struktur
Foreliggende oppfinnelse vil bruke grammatiske annotennger som er produsert av andre, enten ved å anvende lisensierte constraint grammer taggere eller betalte tjenester fra «tagger»-firmaer CG-taggeren fra Centre for Computing in The Humanities (Bergen, Norge) anvendes for norske tekster Taggeren fra Lmgsoft (Finland) eller UCREL-taggeren fra Lancaster (England) vil anvendes for engelsk tekst Det finnes også flere muligheter angående tysk tekst De grammatikalske taggene fra de forskjellige taggerene normaliseres inn i et felles tagger-sett og konvertert tih XML-format
Foreliggende oppfinnelse vil bruke et spesialdesignet merknadsskjema (annoterings-skjema) for dokumentets logiske struktur I et veldig enkelt merknadsskjema, markeres bare avsnitt- og setningsgrenser Dette ses på som minimalt og obligatorisk for en corpus Merkede tekster tillater lettere automatisk manipulasjon og det finnes flere merknadstandard-forslag (det finnes enda ikke en generell godkjent standard for tekstannotenng) Vi har bestemt oss for å bruke annoteringsrammeverket angitt som Text Encodmg Initiative (TEI) TEI frembringer et sett med retningslinjer for hvordan et stort antall merknadstyper kan bh kodert i elektronisk format og bruker XML som merknadsformat 12001 utga TEI konseptet XML-skjemaet, som vil bh tilpasset for strukturspesifikasjoner TEI tar også hensyn til de nødvendige regler for fremtidens konvertering betinget av teknologiske forandnnger På det nåværende tidspunkt er XML et uavhengig utvekslingsformat som tillater maksimum overførbarhet Tekstsegmentenng
Fig 3 viser en skjematisk fremstilling av segmentenngsmodul i henhold til foreliggende oppfinnelse Segmenteringsmodulen virker med teknikker for å konstruere filer som er beriket med merknader som besknver dokumentets logiske struktur Segmentenngsprosessen inkluderer også metadata-tilordnmg og en foretrukket utforming av oppfinnelsen anvender Dublm Core Metadata Element Set I samsvar med oppfinnelsen er det foretrukket å konstruere et multinivåannoteringsfilsystem (MAFS)
Segmenteringsmodulen oversetter teksten til en strøm av enheterfdokumentenes, logiske objekttyper) Nåværende standardpraksis er merknader basert på SGML eller XML XML (Extensible Markup Language) er en undergruppe SGML (Standardized General Markup Language, ISO 8879) XML er et dataformat for å lagre strukturert og semi-strukturert tekst tilsiktet for spredning over et mangfold av media eller hardware/ programvare plattformer Et XML-dokument kan bh oppdelt (definert) til dets hierarkiske strukturerte komponenter og lagret i f eks en relasjonsdatabase Nåværende XML/SGML-kompatible dokumenthåndteringssystemer på markedet er vanligvis bygget på toppen av en objektrelasjonsdatabase Dette er i all vesentlighet et objekuag «plassert» på toppen av et eksisterende relasjonsdatabaseprodukt XML kan også bh brukt som et utvekslingsformat for data som tilhører relasjonsdatabasesystemer XML-merknader blir brukt som et dataomslag under overføring av teksten (eller andre datatyper) mellom systemer
XML (som SGML) er et meta-språk og det er ingen predefinert liste med elementer Brukeren kan navngi og bruke elementer ved eget valg I XML er det en valgfri mekanisme (obligatorisk i SGML) for å spesifisere elementene som er tillatt i en spesifikk klasse av dokumenter (dokumentklassen er spesifisert i ISO 15255 19199) Det som fremgår av dokumentene må være i overensstemmelse med denne type definisjon, eller mer spesifikt hvert dokument (eksempel) kan valideres mot DTD (Document Type Defenition) Et dokument i XML-format er selvbeskrivende og informasjon om dokumentet som er representert i merknadssystemet kan ekstraheres manipuleres og formatteres til kravene til forskjellig mål-programvare XML-dokumenter kan bh vist, søkt i og manipulert ved å anvende XML-verktøy
Pga de spesifiserte filter-valgmuhgheter vil segmentenngsprosedyren bruke et sett med faste uttrykk som identifiserer et sett med segmentenngsenheter Word, Punctuation Abbreviation, Acronym, Time (Date), Number EOS (End-Of-Sentence marker) Special {(Titles and Header <is-a> Sentence, Sentence <part-of> Paragraph)}
En skreddersydd grensesnitt tilveiebnnger støtte for å forbedre disse pre-definerte regler, og tilsette nye typer av segmentenngsenheter, og for å lette manuelle inngrep og koneksjoner i de segmenterte filene Segmentenngsmodulen genererer Annotated Text Files (ATF)
Når merknader er innført (lagret i ATF ene), inneholder filtoppen ("header') (av filen) generell informasjon om filen Denne registrenngen som er benyttet for versjonkontroll inneholder et sett med flagg som viser om filen har, eller ikke har vært igjennom ordboksjekk, ordtypeangivelse (part-of-speech tagging), cg-tagging, og informasjon tilordnet etter disambiguasjonen, f eks elementer i Dublin Core-metadataregistreringer
Denne registrenng av informasjon er nødvendig for å overvåke etterfølgende prosesser
- f eks når det konverteres fra ett format til et annet Siden de forskjellige typer av programvare som brukes i analyser har spesielle formatkrav, vil hvert dokument finnes i forskjellige versjoner Versjonskontroll er derfor meget viktig og er del av corpusdokumentasjonen Høykvahtetsprosedyrer og konsekvent informasjon om elementene i corpusen er essensielt for å måle fremgang, unngå dataduphkasjon, overvåke input-data-kvalitet for senere behandling i programvare for spesial-formål, som er brukt når tekster berikes med merknader eller ved analyse av tekster osv Formatproblemet kan ellers utvikles til å bh en flaskehals i corpusbehandhngen En konsekvent formatbehandhng vil sikre at det samme sett med transformasjons-skripter kan bh anvendt for deler av den samlede kildetekst i en kjønng Et XML-registrenngsformat vil også være nyttig for corpusdokumentasjonen og hvert element som er skrevet inn vil tilordnes en signatur
Det finnes hovedsakelig to begrensninger som gjør bruk av innsatt (embedded) XML som uhensiktsmessig for koding av syntaktisk informasjon (fra Mengel 2000) «Innførte strukturer for syntaktisk informasjon begrenser beskrivelsesvariasjonen til en relasjon, part-whole '-relasjonen Disse strukturene kan representere en hierarkisk arrangert sek-vens av innførte segmenter, men er ikke i stand til å kode syntaktiske relasjoner eller nettverksstrukturer I denne strukturen må høyere ordens elementer (f eks setninger) omfavne en kjede av kontinuerlige sub-elementer/fraser, eller ord)) Diskontinuerlige bestanddeler kan ikke representeres»
Siden det bare er én relasjon med denne type merknad, finnes det ingen midler for å merke forbindelser mellom høyere ordens elementer og deres bestanddeler Standardrelasjonen er del-helhets"-relasjonen (part-whole ralation)
XML og multmivå- merknader
Behovet for å representere overlapping og diskontinuerlige bestanddeler viser at en tilleggsmulighet er å lagre og å administrere merknader i adskilte eksterne filer Effekti-vitetskrav indikerer "embedded option") der filene lagres i et XML-kompatibelt dokumentbehandhngssystem Det foreslåtte system vil utforme begge opsjoner med filer som er lagret og behandlet i sjikt (et Multileveled Annotations File System)
En lagring og behandling av merknader som er organisert i sjikt (abstraksjonsnivåer) støtter datauavhengighet og mulighet for å definere utsnitt hk dem i tradisjonelle database-behandhngssystemer (inkluderende et metadatasjikt som representerer forbindelsene mellom filelementer i de forskjellige sjikt)
Det nedre sjikt er et sett filer med alle typer av merknader innført, dvs merknader for strukturell informasjon og grammatikalsk informasjon og dessuten spesielle merknader for tekstrekkeviddekanter ('text span edges") Sistnevnte muliggjør eksplisitt fremstilling av ord- og setnmgsidentifiserere (brukt for å representere tekstrekkeviddekanter) Det nedre sjikt inneholder også filtoppinformasjon (se ovenfor)
Det midtre laget er et sett filer dynamisk generert med subsett av XML-merknader, lagret i eksterne filer (f eks merknader for tekstrekkeviddekanter som representerer kilden og målforankringer i hypertekst-strukturer) Slik vil det bh mulig å representere forskjellige hypertekstuelle perspektiver som er plassert over den samme underliggende tekstbasen Overlapping og usammenhengende bestanddeler vil bh behandlet via det mellomliggende sjikt
Det øvre sjikt utgjør filer som er optimalisert for spesifiserte behov innefor visse brukerområder Sjiktet kan bh begrenset til et subsett av merkede corpora og/eller til et begrenset sett med strukturelle grammatiske og semantiske merknader Dersom et brukersamfunn foretrekker/godkjenner visse grammatikk-baserte filtre og legger bort andre (betrakter noen filtre som mmdre brukbare), kan dette sjikt bh optimalisert i henhold til brukerkrav
Fordeler
Sjiktene gir system-designeren en høy grad av fleksibilitet i forhold til spesifisering, avstemming og optimalisering av søkeselektivitet og søkefunksjonalitet Fra det nedre sjkt kan designeren (basert på brukersamfunn-ønsker) ekstrahere et subsett med merknader og lagre disse i en mellomliggende sjikt (Det nedre lag utgjør filsystemet med alle merknader, bortsett fra merknader som er tildelt samme tekstrekkevidder eller del av tekstrekkevidder som tagger overlappende og usammenhengende bestanddeler, og merknader som markerer hypertekst-ankere)
En spesialprogramvare (designer's verktøy) vil tilveiebnnge fasiliteter for system-designeren som er interessert i å skreddersy merknadene og/eller attributtene som er assosiert med hver merknad Designeren vil gis mulighet til å selektere, akseptere, ignorere, begrense, redigere (f eks gi nytt navn) eksisterende merknader innenfor et arbeidsområde (buffer) og lagre deres sluttutvalg som et merknadsperspektiv Det mellomliggende sjikt er faktisk et lagret sett av filer som reflekterer forskjellige perspektivei på den underliggende tekst Systemstrukturen har visse overensstemmelser med «utsnittsmuhgheten» eller «subskjema-muhghet» i tradisjonelle databasebehand-hngssystemer Når informasjon om hypertekstuelle koblinger mellom tekstsegmenter lagres og behandles i eksterne filer blir kobhngstype tilføyd til søke-operand-settet noe som muliggjør ervervelse av parvise tekstsegmenter (eller bunter av tekstsegmenter som avhenger av kobhngstypens kardinahtet) Pragmatisk-semantiske koblingstyper som er brukt som søke-operand (f eks <problem has solution>, <more details in>, <agreement between> <argues against>, etc) vil gjenfinne tekstsegmenter som avspeiler dypere semantiske relasjoner enn det som er inkludert i hvert av tekstsegmentene isolert sett
De midterste og øvre sjikt vil genereres dynamisk (for hver tekstbaseutviding eller forandringer i brukerønsker) Derfor kan nye filer med merknader bh tilføyd til «eldre filer» slik at disse sjiktene vil støtte fremtidige applikasjoner (ikke-forutsette typer av informasj onsbehov)
I automatisk modus markeres tekstene (struktur og grammatikk) uten manuell intervensjon Hvis de automatiske verktøyene resulterer i flertydighet, kan disse korrigeres med manuelle inngrep ved å gå inn i en merknadsredigenngsmodus (for å øke kvalitet av corpus) Designeren kan velge å beholde de foregående merknader eller tillegge attnbuttverdier i en versjon og erstatte dem med nye merknader og/eller attributtverdier i en ny versjon
Metadata er data som beskriver attributter til en ressurs Metadata støtter et antall funksjoner plassering, dokumentasjon, evaluering selektenng, etc Metadataen kan innføres *'embedded! (del av dokumentet selv) eller eksternt Spørsmålet som oppstår er hvilke typer informasjon som skal opptas for hvert dokument inkludert i corpusen<9 >Brukersamfunnene vil mest sannsynlig ha behov for forskjellig slags informasjon og ikke nødvendigvis vite om dette fra begynnelsen For å kunne beskrive datatypene er det et beho\ for et generelt skjema som gjør det mulig å samle og registrere metadata for dokumenter
I samsvar med foreliggende oppfinnelse er det foretrukket å bruke et sett med standard bibliografisk informasjon i det aller høyeste metadatanivå Dublin Core synes tilfredsstillende idet dette er en struktur som er fleksibel uten å være for komplisert Hovedideen bak Dublin Core-utviklmg var å bygge et metadata-elementsett som er så mangesidig at ethvert internettdokument kan beskrives med det, men på den andre side er så enkelt at forfattere selv kan tilveibnnge metadata v Dublin Core er unikt i forhold til dets universelle karakter og kan bh betraktet som en slags «laveste felles benevner»
Hypertekstuell arkitektur
Foreliggende oppfinnelse omfatter to generelle klasser av assosienngsstyper, dvs dokumentnivåassosienngstyper og segmentmvåassosieringstyper og er gitt mer detaljert i Tabell 1
Dokumentnivå-assosiasjonstyper er koblinger mellom noder som er hele dokumenter APOS (Agent Process Object Structure) ved dette nivå vil være informasjon ekstrahert fra Dublin Core Element-settet Disse assosiasjonstyper betraktes som kontekstuelle assosiasj onstyper
Segmentmvå-assosiasjonstyper ("Segment Association Types"), inkluderende veivisende assosiasjonstyper (Lead Association Types') Den sistnevnte relaterer APOS innen lokale kontekstuelle eller argument-fremsettende rammer som' Problem' or "Solution", etc Andre anvendelser vil være APOS ekstrahert fra det samme dokument eller dokumenter som er nært forbundet med hensyn til hendelser, organisatoriske saker osv
Disambiguasionsmodul
Den neste operasjon som utførest er tekst-disambiguasjon Fig 4 gir en skjematisk presentasjon av en disambiguasjonsmodul i samsvar med foreliggende oppfinnelse
Språk-kilder så som corpora, tesaun, leksikalske databaser, systemer for grammatikkanalyser, etc representerer omfattende investennger, og disambiguasjonen av tekst er derfor basert på gjenbruk og integrasjon av eksisterende kilder Disambiguasjonsmodulene benytter teknikker for konvertenngs av utgang ("-output") fra en CG-tagger til et merknadsformat i samsvar med strukturen/arkitekturen som er spesifisert for Multileveled Annotation File System (MAFS) Ifølge oppfinnelsen er det foretrukket å ekstrahere et subsett av grammatikalske merknader som er levert som output fra CG-taggere Disse ekstraherte subsett blir konvertert til merkede innganger (både innførte, og i eksterne indeksfiler), med hver post koblet til ordene eller ordkombinasj onene i teksten
Disambiguasjonsprosessen dekker også tilnærmingsmåter som er relatert til Target Word Selection-prosedyrer (TWS) for å forbedre strategien av tekstindeksenng
Den foretrukne utforming av oppfinnelsen anvender ekstraherte subsett med grammatikalske merknader (koder) kombinert med et utvalgt sett av semantiske koder Oppfinnelsen anvender eksisterende semantiske kilder kodet i Domain Specific
Thesaurus (DST) som eies av brukersamfunnet (eller brukersamfunnet lisensierer DST)
Informasjonfiltrerings-apphkasjoner som involverer oppgaver som er relatert til naturlig språkbehandling krever merkede tekster Som nevnt ovenfor refererer ordet merknad til merking av informasjon Med hensyn til disambiguasjonsprosedyrer betyr dette spesielle koder som beskriver forskjellige lingvistiske egenskaper som er tildelt til ordene i tekster Den fundamentale lingvistiske tagging er Part Of Speech-tagging (POS-tagging) Denne type tagging blir betraktet som obhgatonsk for lnformasjons-ekstrahenng og semantisk disambiguasjon Constraint Grammar tilveibnnger tagging ved et høyere nivå En Word Sense Disambiguation(WSD)-prosess er basert på i det minste POS-tagging
Multinivå-tagginger krever en avgjørelse med hensyn til merknadsskjemaene anvendt for hvert nivå, og hvordan utgangen konverteres fra de forskjellige behandhngsverktøy til formater i samsvar med merknadsskjemaene Denne multinivå-tilnærmelsen trenger ekstern lagring av merknader (koblet til ord, ordkombinasjoner setninger eller andre strukturelle enheter (tekstsegmenter) i tekstfilene)) Tekstsegmenter kan markeres med kant-merknader ('edge-tags )(attnbutt-verdipar), hver merknad refererende til nedre-mvå-enheter (og med pekepinner til fysiske adresser) En multinivå-løsning krever videre bevaring av tekster etter segmentenng
Enheter av høyere nivå, så som sener av setninger (paragrafer, seksjoner etc) vil også ha tildelt et sett med koder som henviser til ledefunksjoner Tekstrekkevidder kan klassifiseres ifølge overliggende kommunikative funksjoner, f eks besknvelse av en situasjon, talemåter relatert til problemer, vurdennger av problemer, sammenligninger av problemer, foreslåtte løsninger selekterte løsninger, vurdenng av løsninger, osv Slike ledefunksjoner vanerer med tekstsjanger, og det er mulig å forestille seg substrukturer (systemer eller ledefunksjoner) for enhver sjanger Leksikalske signaler for ledefunksjoner er identifisert og lagret/vedlikeholdt i en separat stikkordfil (stikkordfraser) Løsningen som tar sikte på oppdeling av lndeksstrukturen ved at grammatikkbaserte koder kan bh filtrert i forhold til om de er avledet fra omfattede tekstdeler (tekstdeler med semantiske-pragmatiskekoder som henviser til lede-funksjonen) Som en konsekvens kan brukeren be om å få vist APOS som oppstår «inni» antatt «mer relevante» tekstsegmenter, f eks alle segmenter som er kodet som om de handler om problemer relatert til det aktuelle domenet
Kvaliteten til systemets selektivitet er sentralt Tekst som er benket med grammatikalske og semantiske koder (merknader) vil støtte semantiske applikasjoner bedre, og forbedre prestasjonen av datautforskning i tekster, og kan også støtte foremngen av dataopptak ('data mining") og tjenester med applikasjoner for semantisk gjenfinning
Kildeteksten (rene textfiler) som er tagget (benket) med grammatikalske merknader er en forutsetning for å konstruere søke-makroer med grammatikk-baserte søke-operander I samsvar med foreliggende oppfinnelse har grammatikalsk koding sin svakhet i at det leder til «over-kodenng» Hvis ekstraheringsprosedyren ikke er begrenset til visse grammatikalske kategoner vil hvert ord i teksten bli tildelt en grammatikalsk merknad bestående av forskjellige informasjonstyper (ordets grammatikalske kategon og funksjon, og andre typer av morfologiske og syntaktisk informasjon) Detaljert grammatikalsk informasjon er interessant for forskere som er opptatt med studier i språkbruk (lingvistiske kjennetegn), men foreliggende oppfinnelse er imidlertid basert på et forskjellig sett med bruksperspektiver
Et sett med overføringsregler påvirker designet av et nytt verktøysett og blir brukt av systemdesigneren i løpet av ekstrahenngsprosedyren Ekstrahenngsprosedyren er også påvirket av et sett grammatikkmønstre realisert som byggeklosser i søke-makroen
(komponenter i filter-opsjonene)
Merknader som angir de forskjellige grammatikalske ordkategonene blir brukt som et middel for å konstruere lndeks-mnfønnger til punkter i teksten Nominale uttrykk kan tyde på visse typer av proposisjonalt innhold, verbale uttrykk kan tyde på visse handlinger, og adjektiver eller adverbiale setninger kan tyde på visse måter av oppnåelse og på styrkegraden relatert til oppnktighetsforhold POS-merknader former en viktig del av input'en til Word Sense Diambiguation (WSD) Resultatene av en TWS-prosedyre kan for noen brukerapplikasjoner være tilfredsstillende i byggingen av dokumentets tematiske profil
Grammatikkbaserte søke-operander kombinert i søkemakroer (grammatikalske søke-mønstre) vil hente setmnger fra de underliggende tekster Dette er likevel ikke en tilstrekkelig filtrering (tilstrekkelig i forhold til visse kriterier som utformer informasjonsbehovet) Ord som er kodet som substantiver, verb eller annet, må filtreres videre og valideres for å tildele diskriminerende besknvere som er nødvendige deler av emnerammer (Topic frames") For hver validering, enten ved manuell intervensjon eller/og en TWS-prosedyre (tesaurussjekk), kan designeren (brukeren), eller systemet tildele en eller flere semantiske koder til ordene (eller andre tekstuelle enheter, fortnnnsvis semantiske koder ved forskjellige abstraksjonsnivåer) Disse semantiske koder kan også bh tildelt til setninger, paragrafer eller seksjoner som inneholder de aktuelle ordene F eks kan det bh foreslått at koder ved et høyt abstraksjonsnivå tildeles tekstuelle enheter som paragrafer eller seksjoner Videre er semantiske koder på et lavere abstraksjonsnivå forbundet til mindre tekstuelle enheter så som en setning
TWS-prosedyrer kan også anvendes som en komponent i et språkavhengig anafor-oppløsningsprogram (et program som finner det foregående ord eller ordgrupper som mest sannsynlig refereres til av et grammatikalsk substitutt så som pronomener) I det enkleste tilfellet er T WS-prosedyren mellom tilgrensende setninger brukt for å identifisere/validere relasjonen mellom et grammatikalsk substitutt og dets korrelat som manifistert i to nominale uttrykk (med syntaktiske og/eller semantiske nyanser)
Ordtype-taggere ("Part-Of-Speech taggers") er klassifiserere som velger den mest sannsynlige merknaden for hvert ord i en kontekst (vanligvis en setning), og med referanse til et gitt sett av mulige merknader Hvert ord er tildelt en merknad (eller annotenng) som indikerer dets morfologiske kategori (substantiv, verb, adjektiv, ) og morfologiske egenskaper som antall, kjønn, tid, osv (en-tall, flere-tall, basisform, fortid, komparativ, ) POS-taggere har nådd et rimelig tilfredsstillende nivå av nøyaktighet og mengden av slike ressurser tilgjengelig på www vokser stadig Deres til-gjengelighet er likevel sterkt avhengig av språket
Bonn's (2000) undersøkelser bekrefter at taggerytelse i en viss grader avhengig av teksttypen (sjanger) Han påstår at det er en mangel på kunnskap angående prestasjons-forandringer når det flyttes fra treningsdomenet (tekstsj anger) til andre domener Prestasjonen av taggere på en corpus kan være ujevn (siden de representerer forskjellige underliggende teorier og derfor har forskjellige merknadssett i henhold til dekning og størrelse) og også kan være trent på forskjellige tekstsjangere Informasjon om dokumentklasse og tekstsjanger vil derfor påvirke valget av gramatikktagger hvis det finnes flere konkurrerende taggere tilgjengelig Kontrollen av taggerprestasjonen i forhold til tekstsjanger påvirker derfor den påfølgende merknadsekstrahenngs-prosedyren Det vil si at reglene for overføring blir tilpasset til samlede prestasjonsdata
Dersom tekstene i en corpus er merket ved bruk av forskjellige merknader, er det ingen garanti for konsistens mellom de forskjellige merkede tekster Dette er selvfølgelig et viktig problem innenfor lingvistisk forskning Når målet er å gjøre essensiell grammatisk informasjon tilgjengelig som søke-operander, kan slike forskjeller bh minimalisert ved å konstruere kartleggingsskjemaer Forskjellene er systematisert og konverteringsregler integrerer merknadssettene fra de forskjellige taggere inntil ett konsolidert merknadssett
I foreliggende oppfinnelse kartlegges prosedyren for integrering og konsolidering av forskjellige merknadssett overensstemmende inntil et «standardterm-skjema» og «merknadsnomenklatur» Settet som inneholdes av merknadnomenklaturen ("Tag nomenclature') vil være et redusert merknadssett i forhold til de forskjellige typer av grammatikalsk informasjon levert fra de forskjellige taggere som er anvendt Kriterier for reduksjon reflekterer avgjørelser som er tatt om hvilke typer av merknader som det skal tas hensyn til ved konstruksjonen av søke-makroer med tilfredsstillende diskriminerende evner Merknadsnomenklaturen vil bh utvidet for hver «ny» tagger brukt i disambiguasjonsprosedyrer Utvidelsen er basert på data som er satt sammen gjennom sener av undersøkelsestnnn, hvor det viktigste er forbmdelse og adskillelse av merknadstyper (F eks er det tilfredsstillende å definere en merknad som dekker substantiv entall og substantiv flertall, er det nødvendig å beholde alle verbtidene som adskilte merknader eller vil basisform, nåtid og fortid være tilstrekkelig) Et annet viktig trinn er å se om det er et behov for tilpasning i forhold til forskjellige tekstsjangre) Når disse undersøkelsene er blitt utført og merknadsnomenklatur oppdatert i konespon-danse er integrasjonen og konsohdenngsprosedyren til en viss grad hk skjema-lntegrasjonsprosedyrer i tradisjonelle databasesystemer
Imidlertid, siden hver merknadsprosedyre produserer en «ATF (Annotated Text File) med grammatikkmerknader» er det mulig å lagre og behandle de originale og detaljerte merknader i et adskilt filsystem ((ATF <part of> Bottom Layer) <part of> MAFS)) De reduserte og konsoliderte merknader lagres og behandles i en annen del av det «nedre sjikt» Detaljerte merknader i det «nedre sjikt» støtter ekspenmentenng som er rettet mot å finne det «beste» merknadssett for lnformasjonsfiltrenng til hvert bmkersamfunn som ønsker tjenesten
Constraint Grammar- merknader
I en foretrukket utforming av foreliggende oppfinnelse, foreløpig kalt for «synopsis» blir Part-of-Speech-tagging brukt for leksikalsk fiertydighets-oppløsmng
Et høyere nivå av grammatikalsk tagging er syntaktisk oppmerking hvon hele eller deler av parsing-trær er merket for hver proposisjon Dette markenngsnivå utvikles raskt En
Constraint Grammar gjenkjenner ord-mvå-flertydighet, f eks i en frase som «the claim» er ordet claim markert som et substantiv siden et bestemmelsesord aldn blir fulgt av et verb
Studien av verbene er kompleks pga listene av former som verbene antar og typer av substantiver eller substantivfraser i argumentposisjon som sammen danner en verbfrase En Constraint Grammar inkluderer informasjon som er nødvendig for senere syntaktisk-semantisk analyse så som semantikkroller til substantivene og semantiske begrensninger Verbflertydighet er relatert til forskjellene i substantivene som inntreffer samtidig i setningsstrukturen rundt det samme verbet Klassifisenng av verb i til transitiv, intransitiv, og transitiv/intransitiv er en del av disambiguasjonsprosessen I forhold til de grammatikalske karakteristikkene av verbene er listen av argument-substantiver økt Således er samtidig inntreffelse av verb og substantiver av interesse, men også posisjonen til ho ved verbet og hjelpeverb relativt i forhold til hovedverbet og substantivenes posisjoner Adverbiale partikler spiller også en viktig rolle i semantisk disambiguasjon av verb (dette gjelder i hvert fall for de skandinaviske språkene, men disse mønstre er ulike fra det ene språk til det andre)
De semantiske relasjoner til samlokaliseringer av verb og substantiver kan brukes for å løse noen typer av ambiguititet og de korresponderende grammatikalske merknader vil derfor støtte lnformasjon-filtrenngsapphkasjoner (setningsekstrahenng, tekstoppsum-mering. node-identifikasjon, indeksgenerenng etc ) Grammatikalske søke-mønstre uttrykt i søke-makroer som er arrangert i en genensk-spesifikk struktur, vil også støtte tekstuell granskning som er en viktig komponent i konstruksjonen av avanserte filtermuligheter
Konstruksjonen av søke-makroer er derfor avhengig av avlevering fra grammatikk-taggere ( constraint grammer taggers ) og for hvert spesifikke brukersamfunn (typiske oppgaver, typiske informasjonsbehov, etc) er typene grammatikalsk informasjon som blir levert nøyaktig overveid for å designe en konseptuell ramme for filteropsjoner Foreliggende oppfinnelse tilveiebringer en ramme basert på tnpletter i hovedformen subjekt-verbobjekt-strukturer (SVOS) Disse er abstrahert inntil en lignende tnplett med fasetter for agent, prosess og objekt (APOS) med assosiasjoner til inntreffelses-settet for hver av dem (inntreffelse i forhold til SVOS som er forbundet til APOS) Informasjonen om lnntreffelses-sett må bh registrert for hver tekst (dvs tekst som er ekstrahert fra dokumentet som er en del av en dokumentklasse) og for hver SVOS-utvelgelse Disse registreringer danner basis for sammenligning for å finne frekvens-score av tnplettene og deres komponenter Systematiske sammenligninger kan avdekke tnpletter eller fasetter med høye disknminasjonsevner og i det minste danne en grunn for å selektere essensielle tnpletter eller fasetter Valg av essensielle tnpletter/fasetter vil selvfølgelig gjøres i allianse med representanter fra brukersanifunn
Uansett hvilken programvare som anvendes under de analytiske oppgaver, forutsetter foreliggende oppfinnelse aksess til ressurser, hvon ord med lignende meninger (eller funksjoner) er gruppert Lingvistiske forekningssamfunn har produsert verdifulle kilder av lingvistisk informasjon, og noen av resultatene er enten gjort tilgjengelig som gratisprogramvare, eller det er mulig å erverve spesielle lisenser for videre bruk i nye applikasjoner Disse ressurser inkluderer domenespesifikke tesaun (tematiske tesaun) og flere leksigrafiske tesaun Det skal understrekes at slike tesaun representerer bestående kunnskap og vil bh gjenbrukt hvis produsentene eller opphavsrettighetene tillater det «Tesaurusfiltrenng» er videre beskrevet nedenfor
Target Word Selection
Prosedyren Word Sense Disambiguation (WSD) er avhengig av det som er «unit of meamn<g> » Hvis WSD er basert på output fra POS-taggere er enhetene ord - og en WSD ved enkel ordboksjekk vil ikke være pålitelig (polysemisk, forskjellige konsepter passer for hvert ord, etc ) Et ord som en isolert enhet har ingen semantisk disknminerende evner - for å danne en pålitelig WSD må ordet være klassifisert i henhold ul det tekstuelle innhold det fremkommer i WSD-prosedyren må derfor valideres, enten manuelt eller av programmer som validerer klassifisenng basert på semantisk constraint grammar
Foreliggende oppfinnelse er basert på forutsetningen at det er mulig å identifisere et visst tilfredsstillende nivå av konseptabstraksjonen med hensyn til konstruksjonen av filtermuhgheter som støtter målonenterte undersøkende søk i et visst brukersamfunn Konseptabstraksjonen er prosedyren som selekterer et visst sett av lavere nivå konsepter i et konsepthierarki (tesaurus) og sporer settet til ett eller flere øvre nivåer av (abstrakte) konsepter Altså, i stedet for å bruke termen WSD, er en mer treffende term i foreliggende oppfinnelse Target Word Selection (TWS), dvs å supplemente mdeks-mnganger ved å utvelge ord/konsepter fra et visst abstraksjonsnivå i eksisterende leksikalske databaser, dvs domenespesifikke tesaun (DST)
Konseptabstraksjon er en mekanisk operasjon som gjør et konsepthierarki enklere Angående mdeksinnfønnger, organiserer foreliggende oppfinnelse disse inntil tnpletter, hvon merkede ord som komponenter i SVOS (Subject Verb Object Strucures) blir ekstrahert fra setninger og deretter videre abstrahert til tnpletter i form av APOS(Agent Process Object Structures) Den utøvde prosessabstraksjonen er en lovende tilnærming for datareduksjon Det onginale ordet (som er en komponent i SVOS) er koblet til høyere nivåkonsepter (en komponent i APOS og hovedsakelig gjennom IS_A-relasjoner) Det er derfor mulig å vise assosiasjonene (forekomster av en viss assosiasjonstype) i semantiske nett (i dokumenter, noder eller setninger siden hvert ord eller mdeks-innfønnger også implisitt inkluderer referanser til slike enheter) Disse semantiske nett er basert på retningslinjer som er gitt for RDF (Resource Descnption Framework) med XML for deres syntakse og URL"ene for å spesifiseresarnmenlenkede objekter
Vedlikehold av indeks-innfønnger er utsatt for feihng(overensstemmelsesproblemer mellom de forskjellige indekserere) Kazuhiro (2000) oppsummerer fordelene av å bruke konseptabstraksjoner (i et slags datareduksjonsperspektiv) og gir en kort besknvelse av tre teknikker angitt som flat-dybde-metode, flat-størrelses-metode og flat-sannsynhghetsmetode Pga vedhkeholdsarbeidsbyrden relatert til klassifikasjons-strukturer er det ønskelig å minimere konseptene og holde strukturene så tydelig som mulig Denne tilnærmelsen er innbefattet under termer som "minimalisme" og "koherens' Minimalisme må være balansert mot krav til semantisk disknrmnasjons-evne som igjen må være vurdert i forhold til apphkasjonsformål Konseptabstraksjoner generaliserer konseptbesknvelser og oppnås inkrementelt fra tekster Konseptabstraksjoner gjennom ordboksjekk kan bidra til en eksakt og kompakt konseptbeskrivelsesutvikhng Imidlertid kan en for overdreven abstraksjon senke systemets pålitelighet (feil «kunnskap» blir representert)
Disse angivelser av fordeler er således tilsvaarende velkjente prinsipper innenfor klassifikasjonsteon, og teknikkene er faktisk et sett av klassifiserende datareduksjons-regler (makroregler) med formål å forenkle konsepthierarkier Menneskelig analyse trengs for å vurdere/ validere de datamaskinassisterte operasjoner, inkludert sammenligninger mellom varianter av de anvendte regler Denne prosedyren er del av «tesaurusbruk og ekspansjon»
Hvis konseptstrukturen i en tesaurus tillater flerfoldig nedarvmg ('lnhentances") kan abstraksjonsprosedyren enten abstrahere til en av disse eller til begge Den første kan forårsake en abstraksjon i «feil» retning, den sistnevnte kan forårsake overflødig semantisk ambiguitet (produserer 1 m-korrespondanser) Ved flerfoldig nedarving ("multiple lnharitances") må abstraksjonsprosedyren tilsvarende være basert på informasjon som er ekstrahert via en semantisk constraint grammar (basert på sammenstilling (kollokasjon) av ord klassifisert inn i grammatikalske kategorier og inferensregler for sannsynligheten til de forutgående fenomen)
Domenespesifikke Tesaun
En domenespesifikk tesaurus er liten eller medium i størrelse, og går ut på å forklare memngen(e) av et ord via en kortfattet definisjon med henvisning til et domene av
interesse For norske tekster har vi planer om å bruke en terminologisk database relatert til Petroleum Affairs, oppnnnehg utviklet hos Center for Computmg in The Humanities Tesaurusen må imidlertid transformeres til kravene som er gitt for XML som merknads-formatet
Lister av kandidattermer av domenene kan ekstraheres fra lingvistisk behandlede tekstcorpora En term er et ord som kan assosieres med et domene-spesifikt konsept og vanligvis antar formen av en nominal ekspresjon Identifisenngen og kodingen må ta hensyn Ul at det samme ord (eller ordgruppe) kan ha forskjellige grammatikalske funksjoner i teksten TWS anvendes iterativt ved å mappe konseptene i domenespesifikke tesaun (med morfologiske varianter) mot ord som er ekstrahert til SVOS ene (Subject Verb Object Structures) Konseptene i de domene-spesifikke ordbøkene som ble returnert med verdien «no match» blir da mput til en DWS-prosedyre mellom disse «no match»-konseptene og konsepter som er kodet i mer generelle tesaun (leksikon) Denne kartleggingsprosedyren søker etter synonymer og/eller abstraherte konsepter, og disse «erstatninger» blir da kartlagt mot SVOS'ene i en andre runde Konseptabstraksjonen er begrenset til visse subsett av konsepter som er organisert i den generelle tesaurus, f eks ved å begrense søket til visse abstraksjonsnivåer (opp) Sluttavgjørelsene om slike begrensninger vil være basert på tilbakemelding fra brukersamfunn som ber om filtrenngsmekanismer som ligger under de undersøkende søkemuligheter
TWS som er basert på domenespesifikke tesaun (f eks basen Petroleum Affair eller andre) kan lede til en dypere semantisk klassifikasjon basert på identifikasjon av hvordan et spesifikt ord saminntreffer med andre ord som foreligger i SVOS-ekstraksjonene Begivenheten av to eller flere ord innenfor en veldefinert enhet (frase, setning) blir kalt for en kollokasjon Kollokasjoner er beregnet basert på kollokasjonens mål f eks G-testen for Poisson fordelinger (Quasthoff 2000) SVOS'ene vil derfor ikke avsløre kollokasjoner i denne forstand SVOS-ekstraktene skal likevel minst gjengi hvordan ord saminntreffer innenfor setninger sammen med informasjon om ordets grammatikalske funksjoner Denne informasjon kan bh kalkulert i programvaren Corpus WorkBench (CWB) med forutsetningen at det «nedre nivå» i Multileveled Annotation File System er konvertert Ul et format som er kompatibelt med CWB krav Både CWB og mer generelle XML-verktøy kombinert med skreddersydde nye verktøy kan produsere frekvensmformasjon som er nødvendig i visse filteropsjoner Det samme sett av programvareverktøy kan også anvendes når det genereres nærhetsinformasjon som er essensiell i adskillige grammatikkbaserte søke-makroer (filtermodul) F eks forutsetter en filteropsjon aktiveringen av søke-makroer som identifiserer alminnelige substantiver merket som objekt i en setnmg og som opptrer som subjekt i tilgrensende setning eller setninger innenfor samme avsnitt (avstandsoperator) Søke-makroen er en implementenng av en algontme for å beregne en nærliggenhetsfaktor (setningavstand mellom fellesnavn (substantiv) som objekt, og det samme fellesnavn (substantiv) som subjekt) og bruker nærhetsmål i vektingsprosedyrene Nærhetsmål blir brukt som input i filteropsjoner (beskrevet nedenfor)
Generelle Tesaun
En generell tesaurus er medium i stønelse eller stor, med formål å forklare memngen(e) av et ord gjennom en generell besknvelse Disse generelle beskrivelser, avhengig av ordets semantikk-type, kan inkludere informasjon som klassifiserer ordet til en gruppe av lignende ord, informasjon som besknver egenskaper, informasjon om deler, mnfor-masjon om oppnnnelse, informasjon om funksjoner osv Labropoulou (2000) angir disse forskjellige relasjoner mellom ord (konsept) og desknptorer som formell rolle, konstitutiv rolle, tehsk rolle, og representerende rolle Disse relasjoner underordner mange andre relasjonstaksonomier Prosedyren for TWS som er en nødvendig bestanddel av tesaurus-ekspansjon vil ha fordel av denne taksonomi Likevel er input til eks-pansjonsprosedyren begrenset til ord i dokumenter med en viss keynessverdi (beregnet mot en stor generell allmenn, tilgjengelig corpus, samme språk) De genererte kode-til-kode-kobhnger mellom ord som passer keyness-terskelverdier er del av tesaurus-strukturen Det er flere årsaker til restnksjoner som er pålagt generell tesaurusbruk
Når substantiver og verb (i deres basisform) er lokalisert i teksten, vil et generelt ordboksoppslag ha som formål å oppnå en videre semantisk klassifisering Likevel vil en enkel sjekk ikke resultere i disambiguasjon og resultatet kan være mer forvirrende enn avklarende angående seleksjonen og tildeling av en riktig semantisk kode (abstrahert konsept) F eks vil meningen av det samme substantiv vanere ved verbene og meningen av verbene forandres med substantivet og semantiske karakteristikker av substantivet Det er også vanskeligere å avklare de semantiske grenser av abstrakt-substantiver
Emnerammer fTome frames")
Denne seksjon skildrer i store trekk prosedyren for konstruksjon av sammenlenkede emnerammer I denne beskrivelse er fokus på to basiskomponenter - SVOS en og
APOS en Disse komponenter er formalisert som et tnplett <konsept, assosiasjonstype, kontekst> Denne tnplettformelen gjelder for alle abstraksjonsnivåer
De grammatikalske merknader levert fra en Constraint Grammar
Ordmvå eller høyere ordens segmenttyper i teksten
Subjekt-verb-objekt-strukturer (SVOS) ekstrahert fra merket tekst eller utvalgt sett
av setninger
Den validerte SVOS angitt som Agent-Process-Object Structures (APOS)
Noder med tildelte APOS (noder er tekstsegmenter sammenlenket i en hypertekst),
osv
Forskjellen mellom SVOS og APOS følger den tradisjonelle inndeling av syntaktiske og semantiske typer SVOS'ene er direkte assosiert til setningene de er ekstrahert fra (assosiasjoner representert ved kantelementer i XML-filer og ord/setning-identifiserere som URI) APOS'ene er et subsett av SVOS'ene og subsettet er i samsvar med grammatikalske (reduksjons)-mønster Hver APOS er et sett av lndeksmnfønnger som
«arven> kantelementene fra SVOS ene [APOS<is denved from>SVOS] APOS'ene er derfor assosiert til underliggende setninger (eller andre tekstsegmenter idet setmnger <is part of> større tekstuelle enheter) lndeksmnfønnger i APOS er derfor angitt som ((tekstuelle kontakter» eller «kontakter» for å adskille dem fra konsepter som er brukt i presentasjonen av ordinære lndeksstrukturer
Realiseringen av assosiasjonstyper gjør det mulig å konstruere et mdeks-system hvor konseptene ikke bare er organisert i hierarkier men også i en slags «heterarkien> (topp-ned og også side-ved-side, dvs hypotaktisk og parataktiske forbindelser) Visualiseringen i en grensesnitt vil anta form av vinduer som ordnet side-ved-side, hvert vindu med opsjoner for ekspansjon/reduksjon (mer generelle eller mer spesifikke benevnelser), og opsjoner for å vise underliggende ord shkde opptrer i teksten En foretrukket utforming er vist i Fig 5 Figuren skildrer en prototyputforming implementert ved å anvende Visual Basic for Applications, et programmenngs-språk som er fremragende når det designes/konstruerer visuahsennger av formelle system-modeller (arkitektur, datastrukturer, algoritmer) Den endelige arkitekturen
(sammenlenkede filsystemer, grensesnitt, etc) skal implementeres i en mer robust teknologisk plattform (Unix Java, Lisp, XML/XSL) De underliggende datastrukturer i vinduspanelene som vist i Fig 5 er generert fra en CG-tagger for norsk, en gratis programvare for forskningsmiljø og med normale lisensavtaler i kommersielle organisasjoner Som de adskilte felter (APO) viser er de underliggende datastrukturer ikke konsolidert i denne prototypversjon Programmet (i Visual Basic for Applications) er laget som en utvidelse til Microsoft Word 2000, sistnevnte valgt fordi det gir en viss XML-støtte Bortsett fra faktumet at underliggende datastrukturer ikke er konsolidert, omfatter prototypen hovedfunksjonaliteten som opererer på systemselektiviteten presentert i dette dokument Likevel vil fremtidig bruk av den nevnte teknologiske plattform nye prinsipper tilpasset fira feltet Human Computer Interaction (HCI)
Tnplettformel
Som antydet ovenfor er SVO-tripIetter og APO-tripletter konsepter som er organisert i strukturer ved forskjellige abstraksjonsnivåer Tnplettformelen er [consept
<association typocontext] Dette er vist i Fig 6
APOS ene er avledet fra SVOS 'ene og er et resultat av reduksjonsprosedyrer som involverer grammatikkbaserte ekstraksjonsmønstre, prinsipper innenfor fri-fasettert ("free faceted") klassifiseringsteon (inkludert konsept-abstraksjon og applikasjon av makroregler) og TWS-prosedyrer basert på domenespesifikke tesaun
Grunn-nivået er sammensatt av Subject Verb Object Structures avledet fra grammatikalsk merkede setninger og setmngsgrammatikken er enheten for ekstrahenngsprosedyrer realisert gjennom sett av regulære uttrykk kombinert i søke-makroer Hva en setning handler om er ikke nødvendigvis det dens grammatikalske subjekt angir, likevel innebærer enhver formalisme som ligger under lnformasjons-representasjonen forenkling og reduksjon Selv om de grammatikkbaserte eks-traksjonsmønstre ikke fanger leksikalske enheter fra alle tekstsetningene, betyr det ikke at mønstrene ikke kan produsere en god informasjonsrepresentasjon for gransknings-formål Nominale uttrykk kan betraktes som om de angir tekstens "world building"-elementer og verbfrasene hva som er sagt om dem Dette er også implisitt i den fri-fasetterte klassifikasjonsteonen idet dokumentettema eller -emne kan sluttes fra de nominale ekspresjoner i de individuelle setningene Ved å bruke en utviklende domenespesifikk tesaurus i ekstraksjonsprosedyrer vil det bh mulig å skreddersy APOS ene for å støtte spesifikke brukersamfunn Siden en tesaurus er et dynamisk objekt, kan APOS ene bli regenerert ved visse intervaller Det er også viktig å bemerke at APO-tnplettene utgjør basis-strukturen i innholdsrepresentasjoner Dersom et bestemt brukersamfunn uttrykker behovet for en mer detaljert representasjon for noen dokumentklasser eller noen sentrale dokumenter, kan representasjonene bh ytterligere detaljerte gjennom et passende sett av grammatikkmønstre som ligger under ekstraksjonsprosedyren APO-tnplettene vil også gjennomgå vahdenngsprosedyrer som i nødvendige situasjoner kan bh utført ved menneskelig intervensjon ved alle nivåer Target Word Lister
TWS og domenespesifikke tesaun de semantiske nettene kodet i tesaun kan gjennomsøkes for konsepter og semantiske konseptrelasjoner definert som relevant til et domene
I den foreslåtte løsning, i samvar med en foretrukket utførelse av oppfinnelsen, er substantiver (eller nominale ekspresjoner) representert i S- og O-komponentene som er
<part of> SVOS ene SVOS ene er ekstrahert fra et utvalgt sett av setninger med grammatikalske merknader En oppslag i en tesaurus gjør det mulig å undersøke om disse nominale ekspresjonene finnes i allerede etablerte semantiske nett En mekanisk ordbokoppsalg vil likevel ikke si om substantivets mening i teksten er hk meningene som er gitt til det samme substantivet i de semantiske nett Derfor er settene med substantiver (merket som S eller O) også undersøkt med hensyn til hvordan de sam-inntreffer innenfor et tekstsegment Identifiserte sam-inntreffelser (kollokasjoner) er sammenlignet med konseptrelasjonene som er kodet i de domenespesifikke tesaun som er benyttet (konsolidert samling av domenekonsepter)
Disse TWS-prosedyrer er avhengig av prebearbeided, kodet domenekunnskap som inneholder tekster med grammatikalske merknader og konsepthierarkier som enten er tilgjengelig i domenespesifikke tesaun eller som online leksikalske ressurser Generelle tesaun inneholder konsepter som er relevante for alle typer domener og inkluderer ofte også indirekte relasjoner mellom konseptene Dette påvirker selvfølgelig den semantiske presisjonen når det kartlegges ord fra en tekst (grammatikalsk merkede ord), enten enkle ord eller ord gruppert til SVOS, mot konsepter kodet i en generell tesaurus F eks er et konsept i WordNet et element i en syn-sett' (synonymsett) og hvert element kan ha hyperonymer og hyponymer (bortsett fra elementer i genus-posisjon, hvor konseptet har ett eller flere underordnede konsepter) I nåværende TWS-tilnærmelse er konsepter som er kodet i domenespesifikke tesaun kartlagt mot ordene i SVOS ekstrahert fra filene merket av en Constraint Grammar Dvs konseptene i tesaun er kildekonseptene og ordene som er representert i S- og O-komponentene er målet for kartleggingsprosedyren
TWS en vil returnere verdiene Consept Match eller No Match Foreliggende oppfinnelse er basert på påstanden at retningen av kartleggingsprosedyren har viktige praktiske implikasjoner Først og fremst er det lettere å overvåke og administrere kartleggingsresultatene hvis retningen er fra tesaun mot SVOS en ekstrahert fra grammatikalsk merkede setninger For det andre returnerer en generell ordboksjekk for mange synonymforslag og abstraksjoner<*>, og vahdenngsprosedyren blir således tidkrevende En oversikt over dette konsept er vist i Fig 7 og i Tabell 2
Et spesielt problem med WordNet er at alle elementer i et synsett har et hyperonym med et gitt navn (termer ved alle nivåer) Dette leder til navigenngsproblemer og uten en streng kontroll av konseptabstraksjonsprosedyren kan det foreslåtte settet av abstraksjoner gå i alle slags ganske forskjellige rare retninger F eks ordet «girl» leder på et punkt til «bird» (slang) og fra bird er det videre semantiske relasjoner til substantivet «animal» som tydeligvis ikke er en bra konseptabstraksjon for kildeordet «girl» Likeledes vil ordet «bird» lede til genus-substantivet «person» via «giri» Dette problemet ville være eliminert hvis relasjonene var på en annen måte F eks ved å bruke en kuttoperator for relasjonen fra «girl» til «bird», som betyr at hvis «girl» er kildeordet i synonymgenerasjon (og «bird» er klassifisert som slang), ville videre navigasjon fra «bird» bli forkastet Disse trinn skisserer TWS-prosedyren I stedet for å kartlegge ord i SVOS med verdien «No Match» på konsepter i mer generelle tesaun, ekspanderer kartlegging av konsepter i domenespesifikke tesaun (DST) på kodete konseptrelasjoner i generelle tesaun (GT) trinnvis i målordhstene Ved gradvis økende behandling av ett DST-konseptklynger av gangen, blir det lettere å iterativt holde styr på kodetildehng og ha bedre kontroll i vahdenngsprosedyrer I disse vahdenngsprosedyrer vil det også være lettere å inkludere «kunnskap» om ordene i SVOS som har tilordnete koder fra tidligere sykluser Det vil også være lettere å ta hensyn til ord som sam-inntreffer i større enheter så som flere setninger, f eks utformet som avsnitt
V-komponenten både i SVOS og APOS er en slags indre triplett-assosiasjonstype som forbinder subjektet (agent) og objektet (object) Disse indre assosiasjoner kan gi retningslinjer for hvilke relasjoner som skal følges i ordbøkene (som er etablerte kodete semantiske rom) Likevel vil en TWS som er rettet mot relasjoner som forutsetning trenge en mer detaljert vahdenng og/eller menneskelig intervensjon/korreksjon Identisenngen av semantiske relasjoner mellom en verbfrase i en tekst og verb som er
kodet i en tesaurus er ekstremt komplisert Dette kan forklares teoretisk ved henvisning til Thomas (1995)
«1) Det er ingen formell (grammatikalsk) måte for å
adskille utøvende verb, fra andre sorter verb
2) Tilstedeværelsen av et utøvende verb,
garanterer ikke at den spesifiserte handling
utføres
3) Det er måter for «å gjøre ting uten ord» som ikke
trekker inn bruk av utøvende verb» (1995 44)
Basert på teon og rapporterte erfaringer med ordbok-sjekk (Harabagio 2000), er det bestemt at TWS-prosedyrer for verbene ikke vil bh utført Denmot vil verbene som er kodet i V-komponenten i SVOS erstattes med verbet i dets basisform (som representerer P-komponenten i APOS) Således vil verb-hendelser som (reduces, reduced etc) erstattes med «reduce» Disse basisformer må også inkludere adverbiale deler (viktig i representasjonen av verbale fraser i skandinavisk språk) Det kan likevel være praktisk å gruppere visse verb i generelle semantiske klasser, f eks klassen «express meaning» med forekomster som {say, declare, tell utter, announce affirm, assert, claim, etc }
I den foreliggende utførelse av oppfinnelsen er det mulig å tildele koder som representerer Tid (aspekt av tidsdimensjonenng) og Modalitet, begrenset til settet Fortid, Nåtid og Fremtid Denne mer detaljerte grammatikalske informasjon om verb-forekomster kodet i P-komponenten av APOS, er representert i adskilte fasetter (kodet som egenskaper til hver P-forekomst) Brukeren kan hente frem disse fasetter for videre granskning Imidlertid har Tid en semantisk relasjon både til dokumentets produksjonsdato og også til setningens tekstuelle innhold Dokumentets produksjonsdato er representert som Logical Now, og Past og Future-former i uttalemåten, kan bh representert som relativ til Logical Now Likevel vil denne strukturen som er et element i en mer detaljert fn-fasettert klassifikasjon ikke omgå representasjonene problemer som er relatert til den tekstuelle konteksten av forfatterens uttrykk Tidsmessige relasjoner reflekterer en dypere semantikk, og en formell representasjon av disse relasjoner må være basert på mer grundige fortolkninger
Riktige substantiver kan bli gjenkjent og kodet under Constraint Grammar-parsing, forutsatt at disse substantiver er kodet i ordlisten som er bearbeidet under spalting Filteropsjonene som omfatter søke-makroer som identifiserer riktige substantiver av interesse til et brukersamfunn, må i tillegg inkludere skreddersydde ordlister som refererer til organisasjoner, personer, steder, etc Disse samlinger av spesielle termen- vil organiseres i mønstre basert på prinsipper som ligger under den fri-fasettede klassifikasjonsformel
Noen gjeldende constraint grammars er rapportert å ha over 90% nøyaktighet med hensyn til gjenkjennelse av navngitte enheter Nominale ekspresjoner (en ordgruppe som funksjonerer som et substantiv) forårsaker likevel spesielle problemer En TWS vil ikke løse semantiske ambiguiteter forårsaket av bestanddeler i nominelle uttrykk substantiver modifisert av verb etc Dette betyr en disambiguasjon som involverer menneskelig intervensjon - menneskelige inspektører må validere de foreslåtte semantiske koder før de blir innført i gradvis utviklende semantiske nett (som er for bruk i konstruksjonen av hypertekst som er tematiske mterkoblede noder ordnet i en hypertekstuell arkitektur)
TWS og validasjonsprosedyren som er rettet mot en domene-spesifikk tekstsamling og i samsvar med de spesifikke behov i et brukersamfunn, inkluderer rutiner for systematiseringen av de grammatikalske mønstre som ligger under det selekterte sett av setninger og det ekstraherte sett av SVOS Denne samling av SVOSer vil være for ett formål De er input i søke-makroer i form av regulære ekspresjoner Disse regulære ekspresjoner er mer korrekt beskrevet som «byggeklosser» eller komponentene i søke-makroer Byggeklossene dekker ikke hele SVOS'en men de representerer vanlige ekspresjoner rettet mot S-komponenten og de påfølgende V- og O-komponentene Søkemakroer som er basert på disse byggeklosser er også kombinert inntil høyere ordens søkemakroer
Studien av kollokasjoner (ved bruk av et verktøy som WordSmith og Corpus WorkBench) viser at en betydelig mengde av leksikalske enheter er tilbakevendende ordkombinasjoner Tilbakevendede bundne ordkombinasjoner er en typisk lingvistisk egenskap av ethvert domene, som for spesialisert terminologi (spesialisert terminologi tar ofte formen av spesifikke ordkombinasjoner)
Signaler for spesifikt språk som tar formen av en sammensatt term må derfor bh indeksert som komplekse eller sammensatte termer Det fhfasetterte klassifikasjonsskjema gir retningslinjer for representasjon av indeksinnganger i form av komplekse termer Applikasjon av disse regler eller retningslinjer leder til konstruksjon av et mdeks-subsystem som inneholder komplekse termer som refererer til typiske fraser brukt i et domene En lndeksstruktur med fraser (fraseregister) er et viktig informasjonsfiltenngsverktøy APOSene vil ha høyere diskriminerende evner hvis det også inkluderer assosiasjoner til idet minste veldig vanlige fraser innen domenet
Muhtleveled Annotation File System inkluderer registreringer (i tilleggsfiler) av assosiasjonene mellom APOSene og SVOSene hvorfra APOSene er avledet Systemet av identifiserere (tilordnet til Logical Object Types) gir forbindelse med underliggende tekstsegmenter (merket i filsystemet) Fraser inntreffer også i synonyme vananter dvs de varierer i ordsekvens og har transformasjonsvanasjoner minister for utenrnkssaker (' minister of foreign affairs"), utenriksminister ("foreign minister') I grensesnittstrukturen har brukerne mulighet å vise alle registrerte fraser i tillegg til defaultopsj onene
Bundne ordkombinasjoner forårsaker spesielle problemer fordi de ikke kan bh behandlet helt komposisjonelt (Braasch 2000) Hvis de blir betraktet som sammenhengende byggeklosser i språkbruk må de bh representert som det i et indekssystem Det første problemet er identifikasjonen av bundete ordkombinasjoner I denne prosessen tilbyr WordSmith eller Corpus Workbench datahjelp (kollokasjoner med forskjellige gruppestørrelse sammen med frekvensdata) Frekvensinformasjon (kvantitative kriterier) blir brukt i kombinasjon med grammatikalsk informasjon og kunnskap om domenet (kvalitative kntener) som vurdert sammen sørger for retningslinjer for terminkludenng Det mer vanskelige problem er hvor komplekse termerskal plasseres (kobles) med hensyn til basiskonseptene som ligger i APOS Svaret på dette spørsmål blir funnet i den grammatikalske informasjonen som beskriver underliggende SVOSer (regler og regulære mønstre som beskriver den systematiske språkbruk, men dekker ikke de mer eller mindre vilkårlige valg som er laget av språkbrukere)
Leksikalske enheter som signaliserer problemer løsninger eller evalueringer (ledefunksjoner) vil også inntreffe som ordkombinasjoner Noen av disse ledefunksjoner kan identifiseres av mer eller mindre utvetydige leksikalske signaler
(direkte stikkordfraser) Opplagte stikkordfraser er lagret i separate filtre og disse er input til søkemakroer som er sammenstillinger av regulære uttrykk basert på tekststrenger som er i filteret Talemåter som implisitt gir uttrykk for f eks et problem kan ikke bh dekket av automatiske prosedyrer
Tilordne domenekoder
Målordhstene blir brukt i en prosess med formål å tildele domenekoder til de SVO-tnpplettene, som etter en validenngsprosedyre følger SVO-trippletten som er transformert til en APO-tnpplett SVOS er en struktur som omfatter settet av SVO-tnppletter og APOS er en struktur som omfatter det reduserte set av APO-tnpplettene som henviser til tilsvarende subsett av SVO-trippletter APO-tnppletter som henviser til setninger i teksten er en del av en større representasjonsenhet angitt som emneramme ( Topic Frame") Emnerammen lagrer registreringer med koplinger til alle Documental Logical Object Types som innholdsrepresentasjoner henviser til TWS-sykluser med domenekodetilordning er presentert i fig 8 og i tabell 4 Figur 9 presenterer hovedtrekkene av forbindelser mellom subset av komponentene
Filtermodul
Det har blitt bekreftet at brukere trenger avanserte verktøy for tekstutforskmng inklusive sofistikerte muligheter for informasjonsfiltrenng Verktøy med disse kvaliteter må være basert på en ny type selektivitet
Selektiviteten av foreliggende oppfinnelse inkorporerer og støtter
• Leksikal-semantisk informasjon avledet fra CG-taggere
• Overføring av teknikker som er relatert til tesauruskonstruksjon
• Statistisk informasjon avledet fra keynessberegmnger og inkludert som nye elementer i dokumenterstatmnger • Frekvensinformasjon som kopler grammatikkbaserte koder til dokumentenes logiske objekttyper • Filteropsjoner realisert som predefinerte søkermakroer som inkluderer grammatikkbaserte og semantiske søkeroperander
Foreliggende oppfinnelse tar siket på å forbedre den filtrerte informasjon ved korrelasjon til bakgrunnsdatakilder (tesaun rammer) og å presentere den filtrerte og semantisk koplete informasjon på en koherent og begripelig måte til sluttbrukeren
Prosessen med å finne informasjon i store mengder av lagrete data involverer en rekke oppgaver som rekker fra problemdefinisjon til vurdering av relevans
Foreliggende oppfinnelse tar sikte på å støtte brukeren i disse oppgaver I bunn og grunn er denne tilnærmelsen basert på et predefinert sett med grammatiske mønstre som spesifiserer regler for å ekstrahere saklig informasjon fra tekster, som illustrert i figur 10
Basisideen er å organisere kodene (kontakter i APOS og semantiske koder avledet fra TWS-prosedyrer) og søkemakroer for å tilpasse forskjellige typer av tilsiktede handhnger(seleksjon av kontakter som således aktiviserer dem som søkeoperander) Tradisjonelt er det en forskjell mellom tre slags handlinger eller seleksjoner basert på hvordan brukeren evaluerer søkeresultater
• det er for mange tekstsegmenter i resultatet (brukbarhetspunkt oversteget)
• det er for få tekstsegmenter i resultatet
• eller tekstsegmentene er å betrakte som ikke relevant eller utenfor målet
De forventede brukerhandlinger er således at brukeren vil prøve å spesifisere søkeuttrykkene som
• Reduserer det mottatte settet (øke presisjonen)
• Øke det mottatte settet (øke utvalget)
• Eller spesifisere søkeuttrykk som gir en bedre match med de bestående lndeksmnfønnger
Imidlertid vil seleksjonen av en ny konstellasjon av kontakter eller aktiveringen av et filter eller predefinert søkemakro ikke nødvendigvis redusere det mottatte sett Istedenfor blir et fullstendig nytt sett mottatt Underliggende søkeselektivitet bestemmer på hvilken måte det er mulig å konstruere søkeuttrykk med formål å tilfredsstille brukerens søkeintensjoner
Den foreslåtte selektiviteten er basert på prinsippene innenfor fnfasetterte klassifikasjonsskjema og kombinert med både segmentinformasjon og grammatikalsk informasjon som er levert fra en constraint grammar-tagger Søkemakroen er strukturert i nivåer, fra generell til spesifikk, hvor de mest spesifikke makroer innlemmer bruk av grammatikkbaserte fasetter, angitt som APO-trippletter (sett av trippletter organisert i en Agent Process Object Structure) som på sm tur er del av et høyere nivå Topic Frame Når en bruker oppfatter sit mottatte sett som for stort eller begrenset gjør den underliggende selektiviteten det mulig å konstruere et system som viser nyttige søkeretmnger ved å forsørge et systematisk sett med predefinerte søkemakroer Dvs at koplingene mellom søkemakroer og den viste informasjon skal fortelle brukeren om en overordnet eller underordnet makro vil øke eller minske det mottatte settet Navnene som er tildelt makroene, sammen med korte forklaringer vil sørge for informasjon om søkeoperandtypene Den eksakte realisering av disse hjelpemidlene er avhengig av HCI-perspektivet som er benyttet
Klassifikasionsskiema
Klassifikasjonsskjemaet er et verktøy som blir brukt når det proposisjonelle innhold av et tekstsegment er analysert, redusert og representert i en emneramme I denne prosess benyttes et sett med makroregler og pnnsippene som ligger under den fnfasetterte klassifikasjonen gir retningslinjer for anvendelse av disse regler Sådan bestemmer disse prinsipper også assosiasjonstypene mellom kategorier og fasetter spesifisert i klassifikasjonskjemaet En emneramme er en kodekonstellasjon hvori assosiasjonene mellom koder er som spesifisert i klassifikasjonsskjemaet En emneramme refererer til det aktuelle innhold i et tekstsegment (node) Settet av emnerammer (konsolidert) er del av et indekseringssystem som gir de logiske tilgangspunkter til tekstsegmenter Systemet av logiske aksesspunkt utgjør en viktig del av systemets selektivitet
Hovedstrukturen i dette klassifikasjonssystem er enkel - den består av fem kategoner Hver kategori er ytterligere fordelt i fasetter som deretter kan oppdeles i mer detaljerte fasetter Denne utviklende struktur er basert på fnfassetterte klassifikasjonsprinsipper hvori det endelige sett av fasetter bør reflektere den utførte klassifikasjonen Kodene tildelt til hver fasett, og hvordan disse koder er ordnet innenfor en fasett, bestemmer gradvis om en fasett bør inndeles i underordnede fasetter Den enkle strukturen og retningslinjene for bruk reflekterer et viktig perspektiv på innholdsrepresentasjonen - det er mulig å konstruere svært generelle emnerammer, og også emnerammer med høy termspesifisitet Avgjørelsen om nivå av generahtet-spesifisitet vil være basert på hva et viss brukersamfunn oppfatter som relevant å inkludere i et indekssystem
Strukturen til klassifikasjonsskjemaet og hvordan det er lenket sammen med andre komponenter er summert i tabellen nedenfor
Metastrukturkomponentene er lenket sammen på forskjellige mvåer i designmodellen Konseptuahsenng av b<y>ggeklosser i søkemakroer
Denne presentasjonen er en samling av byggeklosser som er bundet sammen i et multisjiktsystem av predefinerte søkemakroer Søkemakroene er ordnet i nettverk som følger de samme prinsipp som i konstruksjon av tesaun, dvs prinsippene som ligger under den fnfasetterte klassifikasjonsteon De sammenlenkete søkemakroer former en viktig komponent i systemet av logiske aksesspunkter (systemets selektivitet) til tekstsegmenter
Ideen bak konstruksjonen av et predefinert sett av søkemakroer er å bygge et verktøysett for lnformasjorisfiltrering Fokus er på bruk av grammatikalsk informasjon ekstrahert fra output fra CG-tagger som er transformert mn i koder utformet i APO-tnppletter (part-of Type Tropic Frame) Nominale uttrykk separeres i to fasetter angitt som ' Agent' (nominale uttrykk med den grammatikalske funksjonen subjekt innenfor en setning) og 'Objekt (nominale uttrykk med den grammatikalske funksjonen objekt innenfor en setning) En emneramme er ulik andre typer av ordlister fordi ord med visse grammatikalske funksjoner blir vist (basisopsjonen) i deres tilstedeværelse i teksten Hovedgrammatikkmønster-modellen er sammensatt av to sett med regulære uttrykk
Et sett virker på to hovedsøkeroperandklasser, de grammatikalske ordklasser substantiv og adjektiv Disse regulære uttrykk gir tilgang til elementer som bygger tekstverden ( texts 'world-building elements") Det andre sett av regulære uttrykk virker på de grammatikalske ordklasser "verb" og "adverb", og gir indikatorer for funksjondnvendeelementer ('function advancmg elements"') i teksten Disse to sett, sammen med andre regulære uttrykk som virker på andre ordklasser, sørger for en grammatikk-basert selektivitet Kombinert i søkemakroer som er gjort tilgjengelig i spesialdesignete vindusfelt (med all funksjonalitet som følger) kan brukeren granske underliggende tekst og videre gjøre handlinger som minsker eller øker søkerekkevidden Hovedtrekk til totalstrukturen er presentert nedenfor
Type Grammar Pattern
<gives rules for> cat5 facO Subject matter
<gives niles for> Type Search Macro Type Grammatical Information <is abstracted into> Type Regular Expression <is part of>
Type Grammatical Information
<output from process> Process Text Disambiguation <is den ved from> Type CG Tagger Output <is abstracted into> Type Grammar Pattern <is assigned to> Type LOT Word Type Grammatical Function (GF) <is a> Type Grammatical Word Gass (GWC) <is a>
Type Grammatical Function (GF)
<is a> Type Grammatical Information Type GF Object <is a>
Type GF Subject <is a>
Type GF Transitivity <is a>
Type GF Verb Tense & Modality <is a>
Type Grammatical Word Class (GWC)
<is a> Type Grammatical Information Type GWC Adjective <is a>
Type GWC Adverb <is a>
Type GWCNoun<isa>
Type Verb <is a>
Type GWCNoun
<is input to> Type Filter Noun <is a> type Grammatical Word Class (GWC)
<is part of> Type GWC Nominal Expression Type GWC Noun Common <is a>
Type GWC Noun Proper <is a>
Type SVO Entry Noun <is subset of> Type SWC Noun <refers to>
Ett sett med søkemakroer virker på dokumentenes logiske objekttyper eller utgangen danner segmentenngsprossessen som er kodet i underliggende tekstbase Segmentenngsprossessen returnerer også frekvensinformasjonen og brukeren vil således ha en mulighet for å vise kontakter til teksten i forhold til fire forskjellige frekvensmål
Totalstrukturen er skissert nedenfor
Type Search Operand
<is input to> Type Search Macro
Type Association Type <is a>
Type Category <is a>
Type Code<isa>
Type Code Family <is a>
Type Documental Logical Object Type (LOT) <is a>
Type Dublin Core Element Set (DCE) <is a>
Type Facet <is a>
Type Free-Text Index Term <is a>
Type Frequency Information <is a>
Type Search Macro <is a>
Type Documental Logical Object Type (LOT)
<is an object in> Type Documental in Collection
<is part of> Type Node
<output form process> Type Search Macro
<isa>Type Search Operand
<is a> Type Segment Information
Type LOT Header <is a>
Type LOT Identifier <is assigned to>
Type LOT Paragraph <is a>
Type LOT Sentence <is a>
Type LOT Title <is a>
Type LOT Token <is a>
Type LOT Word <is a>
Type Topic Frame <refers to>
Type Frequency Infonnation
<is assigned to> Type Code
<refers to> Type LOT Word
<isa>Type Search Operand
Type Frequency GF Level <is a>
Type Frequency Paragraph Level <is a>
Type Frequency Sentence Level <is a>
Spesifikasjonen av søkeoperander viser at søkemakroer også er søkeoperander (tilbakevendende) Dette betyr at en aktiv søkemakro til enhver tid kan kombineres med søkeoperander som henviser til innholdet av forskjellige typer kategorier og fasetter som spesifiseres i forhold til reglene som er gitt i klassifikasjonsskjemaet Kategorien "Agent" er som default oppdelt i fasetter for personer, organisasjoner, sosial/arbeidsrelaterte posisjoner, og andre typer av tematisk matenale inndelt mn i fasetter basert på semantiske kntener Disse kategoner/fasetter kan aktiviseres som tilleggsfiltre som virker "på toppen' av de grammatikkbaserte søkemakroer Søkemakroene og filtrene er videre ordnet i sjikt, og sammenlenket i et semantisk nett
Kodene som er tildelt til kategoriene/fasettene i det andre sjikt er resultatet fra TWS-prosedyren, men inkluderer også ordlister ekstrahert fra offentlig tilgjengelig informasjon (registre over jobbtitler, registre over firmaer, etc) Disse filtre må selvfølgelig være avstemt i forhold til hva et bestemt brukersamfunn kan finne interessant å gjøre "mer" gjenfinningsbart
Søkeroperandene, inklusiv søkemakroer, ordnet i nettverk, representerer faktisk et slags ' konsept abstrahering' Abstraheringsgraden idet disse konseptene benyttes som søkeoperander vil selvfølgelig ha en effekt på gjenfinmngsresultater En passende realisering av denne struktur skulle derfor inkludere opsjoner for forespørsel-modifikasjoner En søkemakro representerer en forening og/eller avsondnng av flere søkeoperander, som hver refererer til et visst nivå i et konsepthierarki (indekstermer organisert i abstraksjonsnivåer) Brukeren bør gis muligheten til å selektere "bevegelser" for hver av disse seperat, f eks ved å tilveiebnnge muligheter for å flytte søket opp ett eller flere nivåer (forespørselutvidelse som sikter på høyere tilbakekalling) eller ned (forespørselreduksjon som sikter på høyere presisjon) Hver søkeroperand blir betraktet som et objekt med opsjoner for fremvisning av innførte koder (lndeksmnfønnger) eller koder av høyere orden (' embedding") Når en bruker selekterer en erstatning, er dette nye lndeksmnfønnger den aktuelle søkeroperanden innenfor den modifiserte aktuelle søkemakro (og den modifiserte søkemakro kan bh lagret for senere bruk)
Det øvre nivå av predefinerte sett med grammatikkbaserte søkemakroer er rettet mot komponenten APO-tripplett (del av Topic Frame) Når en bruker har gransket resultat fra aktivisering av disse søkemakroer, kan hun da aktivisere komponenter i et system med mer "spesifiserte grammatikkbaserte søkemakroer) Disse er regulære uttrykk med navn som gir et meningsfylt signal til brukeren Denne opsjon har noe overensstemmelse med tradisjonelle KWIC-indekser dog er de gjort tilgjengelig på toppen av mer kraftige grammatikkbaserte reduksjonsanordninger F eks hvis brukeren har aktivisert en APO-tnpplett, begrenset mot Oil Company i "Agent"-posisjonen kan hun deretter aktivisere et regulært uttrykk som viser alle tre ord på høyre og/eller venstre for de viste firmaer, og deretter velge mellom tradisjonelle sortenngsoppsjoner
Regulære uttrykk kan også aktiviseres isolert (ikke på toppen av grammatikkbaserte søkemakroer som arbeider på APO-tnppletten) F eks et veldig enkelt søkemønster av typen
• null eller flere adjektiver fulgt av minst et substantiv, fulgt av null eller flere egennavn fulgt av en verbfrase - vil identifisere fraser/uttrykk som "norsk statsminister Jens Stoltenberg bekrefter", Engelsk avis The Times rapporterer",' tidligere Amenkansk president Bill Clinton hevdet", osv
Kombinert riktig og i forhold til spesifikke behov i et brukersamfunn, og ikke minst gitt bestemte navn som betegner deres karatenstiske egenskaper, vil brukeren ha et kraftig og sofistikert utforskmngsverktøy
Et mer fortolkende nivå av søkemakroer er basert på pnnsippene som er relatert til superstrukturer i tekster I en tekst finnes det en slags overordnet kommunikativ funksjon og det er mulig å identifisere ledefunksjoner for deler av teksten F eks under lesmg av tekst, erfarer leseren at segmenter vedrører "en viss aktør som uttrykker memnger om"noe'<*>som er antatt å være ett problem", "en aktør argumenterer mot foreslåtte løsninger", "løsningsforslag er evaluert og sammenlignet" Disse ledefunksjoner oppdages i løpet av et vekselspill mellom leseren og teksten (hvor teksten er et delegat på vegne av en forfatter) Imidlertid inneholder høy strukturert tekst fra profesjonelle forfattere (og utpreget innenfor visse profesjonelle domener som f eks jus) leksikalske signaler som merker ut noen seksjoner i dokumentet For å identifisere og kode disse tekstsegmenter, er det nødvendig å registrere fraser (ordkonstellasjoner) som signaliserer ledefunksjoner Stikkordfraser er fraser med leksikalske signal (ord) som gir uttrykk for noen aspekter av det tematiske materiale som blir behandlet innenfor et tekstspenn (setning, paragraf, seksjon, etc) og kan bh registrert i en separat fasett (stikkordfilter) Imidlertid kan leksikalske signaler til f eks "problem" være eksplisitt eller implisitt, i sistnevnte tilfelle f eks uttrykk som negative evalueringer av den beskrevne situasjonen (inklusiv en negativ evalenng av en foreslåtte eller utvalgt løsning) Koder som disse er av semantisk-pragmatisk karakter og en inngående koding vil nødvendigvis kreve menneskelig intervensjon/validering Hvis dette er av interesse i et brukersamfunn (balanse mellom kostnad og gjenfinmngyerdi), vil stikkordfraser som har høy score fra validasjonsprosedyrer bh inkludert i "Type Filter Cue Phrase" Disse filtre vil vanere i forhold til dokumentgenre
(lover, rapport, etc)
Når kodet, vil en søkemakro som gir brukeren mulighet til å selektere ett sett av filtre, gjenfinne disse segmenter (adressen til alle typer segmenter kan avledes fra dokumentenes logiske objekt type LOT Identifier)
Siden hovedsøkemakroener virker på et nokså begrenset sett av grammatikalske merker, vil de ikke unngå ambiguasjoner i teksten Likevel er, sammenlignet med de tradisjonelle fritekstsøk (selv med nøyaktige konstruerte grensesnitt og brukerstøtte), filtrering basert på ganske enkle regulære uttrykk lovende Ved reahsenng i full skala, har dette sett med teknikker en utsikt av interesse til atskillelige profesjonelle brukersamfunn Forskjellige brukersamfunn må forsynes med skreddersydde søkermakroer basen på kombmasjonen av grammatikk-baserte søkeoperander (nokså statisk) og semantiske søkeoperander (dynamisk/utviklende)
Arrangementet av søkemakroer kan avstemmes for å tjene typiske informasjonsbehov innenfor et brukersamfunn Spørsmålet er hva som kan anses som et minimalt og nødvendig sett av søkemakroer og hva er den beste måten å ordne disse i nivåer Innenfor en ekspenmentell omgivelse, vil profesjonelle brukere innenfor domenet 'Petroleum Affairs", inklusive "Petroleum Law", skaffe feedback i prosessen hvor den foreliggende utførelse av oppfinnelsen skal konverteres til en robust teknologisk plattform Representanter fra det valgte brukersamfunn vil bh utsatt for forskjellige sett med grammatikkbaserte makroer, filteropsjoner, grensesnittdesign, etc Ved samtaler med representantene, er målet å identifisere hvordan komponentene bør lenkes sammen i en detaljert design for å maksimere systemets potensiale utforskmngskapasitet
Logiske obiekttvpcr
Søkemakroer kan aktiviseres for alle typer av logiske objekter hele dokumenter, tekstdeler av alle størrelser (ett eller flere avsnitt eller setmnger), og også spesielle setninger som titler, filtopper etc
«Node» er et konsept som dekker alle dokumentenes logiske objekttyper og nodestørrelsen beskriver systemets granulantet
Søkeoperandkomponenter
Systemet i overensstemmelse med foreliggende oppfinnelse vil støtte krysningen med fnteksttermer på alle nivåer
Byggeklosser
Det underliggende forespørselsspråk er basert på algebra (XML-verktøy for søking kan betraktes som lagt overbasert på de samme prinsipper som den tradisjonelle rela-sjonsmodell) og vil med tiden bh spesifisert i BNF
Byggeklossene kan kombineres i predefinerte søkemakroer og således dekke søkeoperander som er grammatikk-baserte koder, semantiske koder, henvisninger til logiske objekttyper forskjellige typer av frekvenssmformasjon og tradisjonelle fnteksttermer
Byggeklossene presenteres i forhold til søkemtensjon - utvid det mottatte settet og/eller reduser mottakersettet
Overensstemmelsen mellom byggeklossene er ikke entydig siden et forsøk med å øke presisjon vanligvis vil etterfølges av en reduksjon av størrelsen til det mottatte sett Byggeklossene er lenket sammen i et system som er definert av en formell grammatikk
Grensesnitt-designet vil fokusere på å tilveibnnge retningslinjer til brukeren som vil selektere visse søkeretninger (eller bevegelser) som tar sikte på å granske tekst-mnholdet
Brukerens intensjoner er hele tiden kontekstavhengig (termen "bruker" har ikke en eksakt betegnelse), og byggeklossene er derfor formulert som generelle krav Beskrivelsene vil inkludere de følgende elementer, gitt i Tabell 6
Reduksjonsfiltre
Hovedintensjonen med de følgende byggeklossene er å redusere det mottatte sett
Ekspansionsfiltre
Hovedintensjonen med de følgende byggeklossene er å øke det mottatte settet Ekspansjonsfiltrene er mer eller mindre motstykker til reduksjonsfiltrene
Definisjon av termer brukt i denne spesifikasion
Tekstuelle kontakter, etler kontakter. Indeksinngangene representert i APO-tnplettene som er en del av et høyere nivå representasjonen form - «Topic Frames» er termer som er ekstrahert fra den underliggende grammatikalsk merkede tekstbasen Hvert ord i det multinivå-merkede filsystem er tildelt en identifiserer (dokument ID + ordets relative posisjon innenfor filen) og derved er det mulig å direkte få tilgang til ordet eller ordkonstellasjonen fra hvilken indeksinngangen er avledet Siden indeksinngangen ved denne mekanisme er forbundet til den underliggende tekst, er indeksinngangene angitt som kontakter i at de er kontaktbunter til den underliggende tekst Gjennom disse forbindelser kan brukeren besøke og utforske tekstsegmentene og selektere eller fjerne de viste segmentene
Tnpletter av kontakter Den tilsiktede hoved visualiseringen av kontakter i vinduspanel er tenativt designet som en kombinasjon av tre lndeksmnfønnger som henviser til henholdsvis Agent Process og Object Hver tnplett inneholder ordforbindende kontaktpunkter til underliggende tekstsegmenter, ordforbmdende ved at de representerer kollokasjonsord i den underliggende tekst Tnplettstrukturen er en manifestasjon av tre basisfasetter i den klassifiserende metastrukturen som følger pnnsippene som er adaptert fra ideen bak «fn-fasettert klassifikasjon» opprinnelig frembragt av Ranganathan Likevel er et sett av grammatikkbaserte ekstrahenngs-mønstre det overordnede prinsipp som ligger under den faktiske ekstrahenngsprosess I henhold til prinsippene som ligger under fnfasetterte klassifikasjonsnormene, kan hver fasett blir videre organisert i runder og nivåer Hver runde har forskjellige nivåer - nivåer mer detaljert grammatikalsk informasjon og nivåer med semantisk informasjon (abstraksjonsnivåer) Det høyeste nivå i hver runde er et sett av predefinerte søke-makroer og komponentene i en søkemakro er regulære uttrykk brukt for å ekstrahere ordene/ordkonstellasjonene fra teksten, videre overført til den representasjonene formen som foreskrevet for den grunnleggende tnplettstrukturen
Epitomiske tnpletter. Termen blir brukt for å referere til det faktum at hoved-APO-tnplettene representerer en form for ekstrem oppsummenng av et skrevet arbeid
(epitom) Termen «sammendrag» er synonym med termen «synopsis», det første foreslåtte foreløpige navnet til foreliggende oppfinnelse
Dublin Core: Dublin Core er et sett av 15 basisinformasjonselementer som er designet for bruk på web-sider for å forbedre indeksering og gjenfinning Disse elementene er title creator subject, descnptions pubhsher, contnbutor, data, type, format, resource-ldentifier, source language, relation, coverage, rights Fullstendige, up-to-date-detaljer er tilgjengelig gjennom websiden for Dublin Core-metadata elementsettet http // purl org/ metadata/ dubhn core/ (sist besøkt i oktober 2001)
Emnerammer: Termene «subjekt» «tema» og «emne» er ofte definert som nære synonymer En foretrukket definisjon av «subjekt» (N tema) er Ranganathan s basert på forskjellen mellom omfang og intensjon «Subjekt er en systematisert mengde av ideer, med sitt omfang og intensjon som koherent sammenfaller innenfor feltet av interesse Det er også konfortabelt innenfor den intellektuelle kompetansen og området av uunngåelig spesialisering hos en vanlig person» (1987 28)
Et relatert konsept er «omtrentlighet», vanligvis definert atferdsmessig i termer av brukerens menmger om forskjellen mellom hva som er i teksten og hvordan brukeren oppfatter dette innholdet (lnnholdspersepsjonrelativt for en bestemt person) En «emneramme» er en representasjonen enhet i et informasjonsgjenfinningssystem hvon hver bestanddel er uttrykt i regler og retningslinjer som foreskrevet i et klassiflkasjons-skjema Det er et rammeverk for å representere forskjellige aspekter av emnet/tema innenfor en tekstuell enhet som setning, avsnitt, kapittel eller hele dokumentet En slik emneramme inkluderer representasjonen av «komplekse tema» med «sammensatte tema» som bestanddeler som på sin måte har «basistema» som bestanddeler
Målordseleksjonsprosedyre, forkortelse TWS (Target Word Selection) Rundene og nivåene som er konstruert for hver komponent i hovedtnplettstrukturen (Agent, Process og Object) vil inneholde lndeksmnfønnger ved f eks et høyere abstraksjonsnivå enn de kontaktene som er avledet fra den underliggende tekst En målordseleksjonsprosedyre er en teknikk for data-abstraksjon hvor konseptene kodet i en domenespesifikk tesaurus er kartlagt mot kontakter som er avledet fra den underliggende tekst Hvis en kontakt returnerer med verdien «konsept-match» i denne prosedyren (flere sykluser), vil det bli opprettet en koblmg mellom kontakten og konseptet som er kodet i tesaun Det kntiske ved dette er ikke om hvordan det opprettes relasjoner eller hvilken type av koblinger eller relasjoner som skal brukes, men heller hvilke relasjoner som vil tjene et brukeisamfunn
Ordsensing-disambiguasjon (WSD, Word Sense Disambigua-tion): Disambiguasjon betyr å opprette en enkel grammatikalsk eller semantisk tolkning av et ord (eller ord-konstel-lasjon) slik det forekommer i teksten En CG-tagger håndterer de grammatikalske ambiguiteter, CG-taggere har en feilrate (avhengig av språk- og tekstsjangre) og oppløsing av meningene av multireferensielle ord fullt ut vil kreve vahderingsprosedyrer
Ord er karakterstrenger og selv om deres grammatikalske ordklasse og grammatikalske funksjon er bestemt av en CG-merker, kan en karakterstreng ha mer enn én mening F eks kan en karakterstreng være et homonym hvor de forskjellige henvisningene er tydelige Målordseleksjonsprosedyrer og teknikker som er brukt for å oppløse noen av de semantiske ambiguitetene, f eks ved anvendelse av de kontrollerte ordlister som er kodet i tesaun som er begrenset til spesifikke domener WSD og TWS er en angår å traversere databaser i forhold til spesifiserte regler Det vil si å traversere de grammatikalsk kodete tekstfilene, leksikalske og domenespesifikke tesaun og til det punktet funnet nødvendig for å oppløse ambiguiteter som alvorlig forstyrrer systemprestasjonene Graden av grammatikalsk og semantisk disambiguasjonsgrad er en diskusjon om kostnader i forhold til memngsfulle (koherente) innholdsrepresentasjoner
Subjekt-verb-objekt-strukturer (SVOS, Subject Verb Object Structures)* Det grammatikalske subjekt av en setning kan besknves ved at det angir hva setningen handler om, mens dets predikatledd kommenterer dette Setningen «Hydro er et oljefirma» har «Hydro» som grammatikalsk subjekt og dets predikatledd «er et oljefirma» som kommenterer Hydro Setningen opplyser et faktum om Hydro og gir informasjon om Hydro Hvis ekstrasjonsmønstrene fokuserer på hovedsetningens grammatiske komponenter «subjekt-verb-objekt», vil en samling av setninger om Hydro resultere i en struktur av representasjoner om Hydro Grammatikkmønstrene som styrer termekstraheringen er en slags oppsummenngsprosess ved at visse ord med visse grammatikalske funksjoner innenfor visse typer av setninger blir kvalifisert som input til ekstrahenngsprosedyren I enhver type av mformasjonsrepresentasjon vil det være et informasjonstap, og det viktige er derfor å identifisere semantiske kategorier av spesiell interesse innenfor brukersamfunnet som betjenes av søke-makroene (regulære uttrykk) som forsyner lndeksmnfønnger
Agent-, prosess- og objekt-strukturer (APOS, Agent, Process and Object Structures)- Abstraheres inn i en lignende tnplettstruktur for agent og objekt (fortrinnsvis av overgangshandhnger) APO-tnplettene representerer en viktig reduksjon av alle SVO-tnplettene som er kodet i det nedre lag av multinivå-merknadsfil-systemet Reduksjonen resulterer fra settet med grammatikkbasert ekstrahenngsmønstre som virker på det nedre lag F eks ved å spesifisere at de eneste subjektene som skal inkluderes i APO-tnplettene er de som tilfredsstiller kntenene «substantiv og subjekt» og videre at substantivet også finnes som kodet i en fasett som angir organisasjoner som er relatert til norske petroleumsvirksomheter
Kildebeskrivelsesrammeverk RDF (Resource Descnption Framework): Er et teknologisk forslag for utviklingen av såkalt semantisk web og i relasjon med eXtensible Markup Language (XML) I bunn og grunn er dette en enkel struktur for å definere relasjoner mellom semantiske konsepter som også er kodet i sett av tnpletter, likevel ikke med henvisning til den grammatikalske strukturen av setningen i teksten Tnplettene av RDF utformer koblingsinformasjon om relaterte saker på samme måte som konsepter er koblet til hverandre i en tesaurus I «semantisk web»-terminologi, er disse informasjonsstrukturer kodet som «ontologier» En utvidelse av en RDF inneholder påstander om fakta, f eks «London er en by», en teknikk som var ganske populær i tidligere «ekspertsystemen) som er kodet i programmeringsspråk som PROLOG Det nye aspektet av «semantisk web» er at RDF'ene er forbundet til URL'er
(Universal Resource Identifier)
Foreliggende oppfinnelse er basert på en ganske forskjellig ideologi som er formulert med hensyn til de mål som skal oppnås ved det foreslåtte system for å strukturere informasjon og teoretiske prinsipper som styrer designet Dette er grunnen til hvorfor det er foretrukket å ikke bruke konsepter relatert til «semantisk web»-teknologi som tar sikte mot forskjellige mål og med forskjellige formahseringsprosesser

Claims (25)

1 En fremgangsmåte for tekstuell granskning og oppdagelse, hvor et sett av sammenkoplete termer med spesifikke grammatikalske roller bhr ekstrahert fra en grammatikalsk kodet elektronisk tekst, karakterisert ved at settet av sammenkoplete termer tilveiebringes på en fremvisningsenhet som kontakter til den underliggende tekst
2 Fremgangmåte i samsvar med krav 1, karakterisert ved at settet med sammenkoplete termer inneholder tre termer som oppretter og viser tre sammenkoplete kontakter som en triplett
3 Fremgangsmåte i samsvar med krav 2 karakterisert ved at de nevnte tnpletter er basert på et grammatikkbasert design med formål å støtte granskning og oppdagelse
4 Fremgangsmåte i samsvar med krav 3, karakterisert ved at det grammatikalske designet er basert på grammatikalsk annotenng
5 Fremgangsmåte i samsvar med krav 4, karakterisert ved at den grammatikalske annotenng er basert på part-of-speech tagging (POS-tagging)
6 Fremgangsmåte i samsvar med krav 4, karakterisert ved at den grammatikalske annotenng er basert på constraint grammars
7 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at nevnte tnpletter er dynamisk ekstrahert fra en grammatikalsk kodet tekst
8 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at brukeren etter evaluering av et sett av kontakter kan åpne og se direkte mn i tekstsegmentet hvorfra disse kontaktene er ekstrahert
9 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at kontaktene relaterer til fasetter som benevnes subjekt-verb-objekt-strukturer (SVOS)
10 Fremgangsmåte i samsvar med krav 9, karakterisert ved at SVOSene er organisert i tnpletter
11 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at kontaktene relaterer til fasetter som benevnes "Agent", "Process" og "Object", dvs APOS, og hvori disse tnpletter er avledet fra SVOSen
12 Fremgangsmåte i samsvar med krav 11 karakterisert ved at APOSene er organisert i tnpletter angitt som APO-tnpletter
13 Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at brukeren kan granske kontaktene gjennom forskjellige opsjoner for filtrering og sortering
14 Anordning for tekstuell granskning og oppdagelse karakterisert ved at et sett av sammenkoplete termer med bestemte grammatikalske roller er ekstrahert fra en grammatikalsk kodet elektronisk tekst, hvori systemet omfatter a) en akkvisisjonsmodul for innsamling av dokumenter som er i stand ul å formatere dokumentene til mmst ett felles format b) En segmenteringsmodul for generering av Annotated Text Files (ATF), for således å etablere Annotated Text Corpus, og c) En disambiguasjonsmodul for tekstdisambiguenng, og d) En fremvismngsenhet der settet av sammenkoplete termer tilveiebringes som kontakter til den underliggende tekst
15 Anordning i samsvar med krav 14, karakteri sert ved at akkvisisjonsmodulen er i stand til å administrere, indeksere og forespøne store tekstcorpora
16 Anordning i samsvar med krav 14 karakteri sert ved at dokumentene kan bli annotert med strukturell informasjon (dokumentale logiske objekttyper som tittel, topptekst, paragrafer setninger, etc) og grammatikalsk informasjon (Part-of-speech-tagger og CG-tagger)
17 Anordning i samsvar med krav 14, karakteri sert ved at modulen skaffer en dokumental lenkestruktur for eksempel en gruppe av penfere dokumenter blir lenket til et sentralt dokument (første ordens penfensk-til-sentral-lenker), de sentrale dokumenter kan lenkes til hverandre (hierakisk eller nettverk), eller penfere dokumenter assosiert med et sentralt dokument kan også bh lenket til et annet sentralt dokument som kanskje igjen er et annet sentralt dokument (andre ordens penfensk-nl-sentrallenker)
18 Anordning i samsvar med krav 14 karakteri sert ved at modulen muliggjør opptak av forskjellige typer informasjon om tekstene som dokumentkilde, innsamlingsdato, personansvarlig for samling, språk, copyright status (tillatelse tildelt, tillatelse nektet eller begrenset) formatinformasjon og versjonsinformasjon
19 Anordning i samsvar med krav 14, karakteri sert ved at segmentenngsprosessen inkluderer metadatatildehng
20 Anordning i samsvar med krav 14 karakteri sert ved at segmentenngsprosessen anvender Dublin Core Metadata Element-settet
21 Anordning i samsvar med krav 14, karakteri sert ved at et multileveled annotation-filsystem blir konstruert
22 Anordning i samsvar med krav 14 karakteri sert ved at disambiguasjonsmodulen behandler teknikker for konvertering av output fra Constraint Grammar-taggere (CG-tagger) til et annotenngsformat i samsvar med strukturen/arkitekturen spesifisert for Multileveled Annotation File System (MAFS)
23 Anordning i samsvar med krav 22, karakteri sert ved at de ekstraherte subset av grammatikalske tagger (koder) kombineres med et selektert sett av semantiske koder
24 Anordning i samsvar med krav 22, karakteri sert ved at spesielle koder som beskriver forskjellige lingvistiske/semantiske egenskaper blir tildelt til ordene/setningene i tekstene
25 Anordning i samsvar med krav 22, karakteri sert ved at modulen tilveiebringer et rammeverk basert på tnpletter i basisformen Subject Verb Object Structures (SVOS)
NO20015581A 2001-11-15 2001-11-15 Fremgangsmåte og system for tekstuell granskning og oppdagelse NO316480B1 (no)

Priority Applications (5)

Application Number Priority Date Filing Date Title
NO20015581A NO316480B1 (no) 2001-11-15 2001-11-15 Fremgangsmåte og system for tekstuell granskning og oppdagelse
US10/495,727 US8265925B2 (en) 2001-11-15 2002-11-15 Method and apparatus for textual exploration discovery
EP02778124A EP1454262A2 (en) 2001-11-15 2002-11-15 Method and apparatus for textual exploration discovery
CA2467369A CA2467369C (en) 2001-11-15 2002-11-15 Method and apparatus for textual exploration discovery
PCT/NO2002/000423 WO2003042859A2 (en) 2001-11-15 2002-11-15 Method and apparatus for textual exploration and discovery

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20015581A NO316480B1 (no) 2001-11-15 2001-11-15 Fremgangsmåte og system for tekstuell granskning og oppdagelse

Publications (3)

Publication Number Publication Date
NO20015581D0 NO20015581D0 (no) 2001-11-15
NO20015581L NO20015581L (no) 2003-05-16
NO316480B1 true NO316480B1 (no) 2004-01-26

Family

ID=19913029

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20015581A NO316480B1 (no) 2001-11-15 2001-11-15 Fremgangsmåte og system for tekstuell granskning og oppdagelse

Country Status (5)

Country Link
US (1) US8265925B2 (no)
EP (1) EP1454262A2 (no)
CA (1) CA2467369C (no)
NO (1) NO316480B1 (no)
WO (1) WO2003042859A2 (no)

Families Citing this family (725)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6154757A (en) * 1997-01-29 2000-11-28 Krause; Philip R. Electronic text reading environment enhancement method and apparatus
US8396824B2 (en) * 1998-05-28 2013-03-12 Qps Tech. Limited Liability Company Automatic data categorization with optimally spaced semantic seed terms
US7711672B2 (en) * 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US20070294229A1 (en) * 1998-05-28 2007-12-20 Q-Phrase Llc Chat conversation methods traversing a provisional scaffold of meanings
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6999963B1 (en) * 2000-05-03 2006-02-14 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
US7197506B2 (en) * 2001-04-06 2007-03-27 Renar Company, Llc Collection management system
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7146359B2 (en) * 2002-05-03 2006-12-05 Hewlett-Packard Development Company, L.P. Method and system for filtering content in a discovered topic
CA2504680C (en) * 2002-10-30 2014-04-01 Vidius Inc. A method and system for managing confidential information
EP1567941A2 (en) * 2002-11-28 2005-08-31 Koninklijke Philips Electronics N.V. Method to assign word class information
JP3981729B2 (ja) * 2003-03-12 2007-09-26 独立行政法人情報通信研究機構 キーワード強調装置及びプログラム
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
US7676358B2 (en) * 2003-09-24 2010-03-09 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
US20050120011A1 (en) * 2003-11-26 2005-06-02 Word Data Corp. Code, method, and system for manipulating texts
US7725487B2 (en) * 2003-12-01 2010-05-25 National Institute Of Information And Communications Technology Content synchronization system and method of similar web pages
US7464330B2 (en) * 2003-12-09 2008-12-09 Microsoft Corporation Context-free document portions with alternate formats
US20050149510A1 (en) * 2004-01-07 2005-07-07 Uri Shafrir Concept mining and concept discovery-semantic search tool for large digital databases
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7343552B2 (en) * 2004-02-12 2008-03-11 Fuji Xerox Co., Ltd. Systems and methods for freeform annotations
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US8521772B2 (en) 2004-02-15 2013-08-27 Google Inc. Document enhancement system and method
US8260764B1 (en) 2004-03-05 2012-09-04 Open Text S.A. System and method to search and generate reports from semi-structured data
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US7613666B1 (en) 2004-04-23 2009-11-03 Microsoft Corporation Generating a class model from a business vocabulary to represent facts expressible in the business vocabulary
US7620935B2 (en) * 2004-04-30 2009-11-17 Microsoft Corporation Generating programmatic interfaces from natural language expressions of authorizations for request of information
US7802231B2 (en) * 2004-04-30 2010-09-21 Microsoft Corporation Generating programmatic interfaces from natural language expressions of authorizations for provision of information
US7499850B1 (en) 2004-06-03 2009-03-03 Microsoft Corporation Generating a logical model of objects from a representation of linguistic concepts for use in software model generation
BE1016079A6 (nl) * 2004-06-17 2006-02-07 Vartec Nv Werkwijze voor het indexeren en terugvinden van documenten, computerprogramma daarbij toegepast en informatiedrager die is voorzien van het voornoemde computerprogramma.
US20050283357A1 (en) * 2004-06-22 2005-12-22 Microsoft Corporation Text mining method
US8538997B2 (en) * 2004-06-25 2013-09-17 Apple Inc. Methods and systems for managing data
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7613676B2 (en) 2004-07-27 2009-11-03 Microsoft Corporation Generating a database model from natural language expressions of business rules
US8050907B2 (en) * 2004-07-30 2011-11-01 Microsoft Corporation Generating software components from business rules expressed in a natural language
US7387457B2 (en) * 2004-08-13 2008-06-17 5 Examples, Inc. One-row keyboard and approximate typing
US20060047690A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Integration of Flex and Yacc into a linguistic services platform for named entity recognition
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
US20060047691A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Creating a document index from a flex- and Yacc-generated named entity recognizer
US7617450B2 (en) 2004-09-30 2009-11-10 Microsoft Corporation Method, system, and computer-readable medium for creating, inserting, and reusing document parts in an electronic document
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
JP2008538016A (ja) 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術
CA2500573A1 (en) * 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
US7827029B2 (en) * 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking
US7801723B2 (en) * 2004-11-30 2010-09-21 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive condensation
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US20060136816A1 (en) * 2004-12-20 2006-06-22 Microsoft Corporation File formats, methods, and computer program products for representing documents
US7617229B2 (en) * 2004-12-20 2009-11-10 Microsoft Corporation Management and use of data in a computer-generated document
US7617451B2 (en) * 2004-12-20 2009-11-10 Microsoft Corporation Structuring data for word processing documents
US7770180B2 (en) * 2004-12-21 2010-08-03 Microsoft Corporation Exposing embedded data in a computer-generated document
US7752632B2 (en) * 2004-12-21 2010-07-06 Microsoft Corporation Method and system for exposing nested data in a computer-generated document in a transparent manner
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
EP1875336A2 (en) 2005-04-11 2008-01-09 Textdigger, Inc. System and method for searching for a query
US20060248456A1 (en) * 2005-05-02 2006-11-02 Ibm Corporation Assigning a publication date for at least one electronic document
US7912701B1 (en) 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
US7548917B2 (en) 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
WO2006124027A1 (en) * 2005-05-16 2006-11-23 Ebay Inc. Method and system to process a data search request
US20070022128A1 (en) * 2005-06-03 2007-01-25 Microsoft Corporation Structuring data for spreadsheet documents
US20060277452A1 (en) * 2005-06-03 2006-12-07 Microsoft Corporation Structuring data for presentation documents
US8055608B1 (en) * 2005-06-10 2011-11-08 NetBase Solutions, Inc. Method and apparatus for concept-based classification of natural language discourse
US20060287996A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Computer-implemented method, system, and program product for tracking content
WO2006138706A2 (en) * 2005-06-17 2006-12-28 Computer Associates Think, Inc. System and method for identifying application resources
JP2007004233A (ja) * 2005-06-21 2007-01-11 Yamatake Corp 文章分類装置、文章分類方法、およびプログラム
US20070005592A1 (en) * 2005-06-21 2007-01-04 International Business Machines Corporation Computer-implemented method, system, and program product for evaluating annotations to content
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US20060294049A1 (en) * 2005-06-27 2006-12-28 Microsoft Corporation Back-off mechanism for search
JP4992715B2 (ja) * 2005-08-04 2012-08-08 日本電気株式会社 データ処理装置、データ処理方法、データ処理プログラム
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7747495B2 (en) * 2005-10-24 2010-06-29 Capsilon Corporation Business method using the automated processing of paper and unstructured electronic documents
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
NZ569107A (en) * 2005-11-16 2011-09-30 Evri Inc Extending keyword searching to syntactically and semantically annotated data
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US9495349B2 (en) * 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
US7590608B2 (en) * 2005-12-02 2009-09-15 Microsoft Corporation Electronic mail data cleaning
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US8903810B2 (en) * 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7769712B2 (en) 2005-12-21 2010-08-03 Decernis, Llc Document validation system and method
DE112006003518T5 (de) 2005-12-21 2009-01-29 Decernis, Llc System für die Validierung von mindestens einem Teil eines Dokuments
US7584411B1 (en) * 2005-12-22 2009-09-01 Adobe Systems, Inc. Methods and apparatus to identify graphical elements
JP2007172490A (ja) * 2005-12-26 2007-07-05 Sony Computer Entertainment Inc 情報処理方法、情報処理システム、およびサーバ
WO2007081681A2 (en) 2006-01-03 2007-07-19 Textdigger, Inc. Search system with query refinement and search method
US7941433B2 (en) * 2006-01-20 2011-05-10 Glenbrook Associates, Inc. System and method for managing context-rich database
US20070185860A1 (en) * 2006-01-24 2007-08-09 Michael Lissack System for searching
WO2007095224A2 (en) 2006-02-10 2007-08-23 Metacarta, Inc. Systems and methods for spatial thumbnails and companion maps for media objects
US7797152B1 (en) * 2006-02-17 2010-09-14 The United States Of America As Represented By The Director, National Security Agency Method of database searching
US20070198250A1 (en) * 2006-02-21 2007-08-23 Michael Mardini Information retrieval and reporting method system
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
US20070214189A1 (en) * 2006-03-10 2007-09-13 Motorola, Inc. System and method for consistency checking in documents
US20070219986A1 (en) * 2006-03-20 2007-09-20 Babylon Ltd. Method and apparatus for extracting terms based on a displayed text
WO2007114932A2 (en) 2006-04-04 2007-10-11 Textdigger, Inc. Search system and method with text function tagging
US20070255570A1 (en) * 2006-04-26 2007-11-01 Annaz Fawaz Y Multi-platform visual pronunciation dictionary
KR100767594B1 (ko) * 2006-04-27 2007-10-17 팅크웨어(주) 경로와 연관된 테마존 제공 방법 및 시스템
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US20080005024A1 (en) * 2006-05-17 2008-01-03 Carter Kirkwood Document authentication system
US7711736B2 (en) * 2006-06-21 2010-05-04 Microsoft International Holdings B.V. Detection of attributes in unstructured data
US7917514B2 (en) * 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
US9721157B2 (en) 2006-08-04 2017-08-01 Nokia Technologies Oy Systems and methods for obtaining and using information from map images
US7739221B2 (en) 2006-06-28 2010-06-15 Microsoft Corporation Visual and multi-dimensional search
US10796390B2 (en) * 2006-07-03 2020-10-06 3M Innovative Properties Company System and method for medical coding of vascular interventional radiology procedures
US9043197B1 (en) * 2006-07-14 2015-05-26 Google Inc. Extracting information from unstructured text using generalized extraction patterns
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US7698328B2 (en) * 2006-08-11 2010-04-13 Apple Inc. User-directed search refinement
WO2008021459A2 (en) * 2006-08-17 2008-02-21 Anchorfree, Inc. Software web crawlwer and method thereof
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
US8495203B1 (en) * 2006-09-03 2013-07-23 Hewlett-Packard Development Company, L.P. Discovering and modeling service protocols
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080065370A1 (en) * 2006-09-11 2008-03-13 Takashi Kimoto Support apparatus for object-oriented analysis and design
JP2008083856A (ja) * 2006-09-26 2008-04-10 Toshiba Corp 情報処理装置、情報処理方法及び情報処理プログラム
WO2008042974A2 (en) * 2006-10-03 2008-04-10 Qps Tech. Limited Liability Company Mechanism for automatic matching of host to guest content via categorization
US8442972B2 (en) 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
WO2008046104A2 (en) * 2006-10-13 2008-04-17 Collexis Holding, Inc. Methods and systems for knowledge discovery
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8037179B2 (en) * 2006-11-02 2011-10-11 Storz Endoskop Produktions Gmbh Device control system employing extensible markup language for defining information resources
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US7765195B2 (en) * 2006-11-07 2010-07-27 Microsoft Corporation Trimmed and merged search result sets in a versioned data environment
WO2009075689A2 (en) 2006-12-21 2009-06-18 Metacarta, Inc. Methods of systems of using geographic meta-metadata in information retrieval and document displays
US8335756B2 (en) * 2006-12-21 2012-12-18 Cogniva Information Solutions Inc. Software for facet classification and information management
US8631005B2 (en) 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
JP5044236B2 (ja) * 2007-01-12 2012-10-10 富士フイルム株式会社 コンテンツ検索装置、およびコンテンツ検索方法
US8285697B1 (en) * 2007-01-23 2012-10-09 Google Inc. Feedback enhanced attribute extraction
US20080215416A1 (en) * 2007-01-31 2008-09-04 Collarity, Inc. Searchable interactive internet advertisements
US7792816B2 (en) * 2007-02-01 2010-09-07 Icosystem Corporation Method and system for fast, generic, online and offline, multi-source text analysis and visualization
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US8112402B2 (en) 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US7958104B2 (en) 2007-03-08 2011-06-07 O'donnell Shawn C Context based data searching
WO2008113045A1 (en) * 2007-03-14 2008-09-18 Evri Inc. Query templates and labeled search tip system, methods, and techniques
WO2008115519A1 (en) * 2007-03-20 2008-09-25 President And Fellows Of Harvard College A system for estimating a distribution of message content categories in source data
JP4398988B2 (ja) * 2007-03-26 2010-01-13 株式会社東芝 構造化文書を管理する装置、方法およびプログラム
WO2008121382A1 (en) * 2007-03-30 2008-10-09 Knewco, Inc. Data structure, system and method for knowledge navigation and discovery
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7908552B2 (en) * 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
US8332209B2 (en) * 2007-04-24 2012-12-11 Zinovy D. Grinblat Method and system for text compression and decompression
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
US20090150169A1 (en) * 2007-05-17 2009-06-11 Unlimited Cad Services, Llc Document acquisition and authentication system
US20080301135A1 (en) * 2007-05-29 2008-12-04 Bea Systems, Inc. Event processing query language using pattern matching
US20080313167A1 (en) * 2007-06-15 2008-12-18 Jim Anderson System And Method For Intelligently Indexing Internet Resources
CN101796543B (zh) * 2007-06-28 2013-12-18 艾利森电话股份有限公司 数据系统和方法
US8037086B1 (en) 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
EP2162833A1 (en) * 2007-07-10 2010-03-17 International Business Machines Corporation A method, system and computer program for intelligent text annotation
EP2019361A1 (en) * 2007-07-26 2009-01-28 Siemens Aktiengesellschaft A method and apparatus for extraction of textual content from hypertext web documents
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8504357B2 (en) * 2007-08-03 2013-08-06 Panasonic Corporation Related word presentation device
EP2023572B1 (en) 2007-08-08 2017-12-06 Oracle International Corporation Method, computer program and apparatus for controlling access to a computer resource and obtaining a baseline therefor
US20090049035A1 (en) * 2007-08-14 2009-02-19 International Business Machines Corporation System and method for indexing type-annotated web documents
US20090048823A1 (en) * 2007-08-16 2009-02-19 The Board Of Trustees Of The University Of Illinois System and methods for opinion mining
WO2009026140A2 (en) * 2007-08-16 2009-02-26 Hollingsworth William A Automatic text skimming using lexical chains
US8135578B2 (en) * 2007-08-24 2012-03-13 Nuance Communications, Inc. Creation and use of application-generic class-based statistical language models for automatic speech recognition
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8712758B2 (en) 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US20090070786A1 (en) * 2007-09-11 2009-03-12 Bea Systems, Inc. Xml-based event processing networks for event server
US20090083096A1 (en) * 2007-09-20 2009-03-26 Microsoft Corporation Handling product reviews
JP2009080624A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 情報表示装置、方法及びプログラム
US8510312B1 (en) * 2007-09-28 2013-08-13 Google Inc. Automatic metadata identification
US9063981B2 (en) * 2007-10-01 2015-06-23 International Business Machines Corporation Method and system for searching contact lists quickly—by group name, tags and/or metadata
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8484115B2 (en) 2007-10-03 2013-07-09 Palantir Technologies, Inc. Object-oriented time series generator
US8543380B2 (en) * 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
JP2011501258A (ja) * 2007-10-10 2011-01-06 アイティーアイ・スコットランド・リミテッド 情報抽出装置および方法
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
AU2008312423B2 (en) * 2007-10-17 2013-12-19 Vcvc Iii Llc NLP-based content recommender
US8500014B2 (en) 2007-11-14 2013-08-06 Varcode Ltd. System and method for quality management utilizing barcode indicators
US20090132406A1 (en) * 2007-11-21 2009-05-21 Paperless Office Solutions, Inc. D/B/A Docvelocity System and method for paperless loan applications
US8412516B2 (en) * 2007-11-27 2013-04-02 Accenture Global Services Limited Document analysis, commenting, and reporting system
US8271870B2 (en) * 2007-11-27 2012-09-18 Accenture Global Services Limited Document analysis, commenting, and reporting system
US8266519B2 (en) 2007-11-27 2012-09-11 Accenture Global Services Limited Document analysis, commenting, and reporting system
US8396851B2 (en) * 2007-11-30 2013-03-12 Kinkadee Systems Gmbh Scalable associative text mining network and method
WO2009073032A1 (en) * 2007-12-06 2009-06-11 Capsilon Corporation Systems and methods for intelligent paperless document management
US8825693B2 (en) * 2007-12-12 2014-09-02 Trend Micro Incorporated Conditional string search
US20090158146A1 (en) * 2007-12-13 2009-06-18 Concert Technology Corporation Resizing tag representations or tag group representations to control relative importance
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20090228296A1 (en) * 2008-03-04 2009-09-10 Collarity, Inc. Optimization of social distribution networks
US8433560B2 (en) * 2008-04-01 2013-04-30 International Business Machines Corporation Rule based apparatus for modifying word annotations
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US7958107B2 (en) * 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
US8061142B2 (en) * 2008-04-11 2011-11-22 General Electric Company Mixer for a combustor
US9646078B2 (en) * 2008-05-12 2017-05-09 Groupon, Inc. Sentiment extraction from consumer reviews for providing product recommendations
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest
US8359237B2 (en) * 2008-05-23 2013-01-22 Ebay Inc. System and method for context and community based customization for a user experience
JP5161658B2 (ja) * 2008-05-30 2013-03-13 株式会社東芝 キーワード入力支援装置、キーワード入力支援方法及びプログラム
US9892009B2 (en) 2008-06-04 2018-02-13 Oracle International Corporation System and method for supporting a sliding window for testing an event processing system
US10102091B2 (en) 2008-06-04 2018-10-16 Oracle International Corporation System and method for supporting a testing framework for an event processing system using multiple input event streams
US8738360B2 (en) * 2008-06-06 2014-05-27 Apple Inc. Data detection of a character sequence having multiple possible data types
US8311806B2 (en) 2008-06-06 2012-11-13 Apple Inc. Data detection in a sequence of tokens using decision tree reductions
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US8438178B2 (en) * 2008-06-26 2013-05-07 Collarity Inc. Interactions among online digital identities
US20090326924A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting Semantic Information from a Language Independent Syntactic Model
US20090326925A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting syntactic information using a bottom-up pattern matching algorithm
JP5584212B2 (ja) * 2008-07-31 2014-09-03 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた自動的な文脈に感応する言語の生成、訂正、および、改善
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8170969B2 (en) * 2008-08-13 2012-05-01 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
US8965881B2 (en) * 2008-08-15 2015-02-24 Athena A. Smyros Systems and methods for searching an index
US20100042589A1 (en) * 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for topical searching
US7996383B2 (en) * 2008-08-15 2011-08-09 Athena A. Smyros Systems and methods for a search engine having runtime components
US9424339B2 (en) 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US20100049761A1 (en) * 2008-08-21 2010-02-25 Bijal Mehta Search engine method and system utilizing multiple contexts
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US20100070426A1 (en) 2008-09-15 2010-03-18 Palantir Technologies, Inc. Object modeling for exploring large data sets
US8984390B2 (en) 2008-09-15 2015-03-17 Palantir Technologies, Inc. One-click sharing for screenshots and related documents
US8041714B2 (en) 2008-09-15 2011-10-18 Palantir Technologies, Inc. Filter chains with associated views for exploring large data sets
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8904345B2 (en) * 2008-09-30 2014-12-02 Ebay Inc. System and method for orchestration of customization for a user experience
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
TWI377478B (en) * 2008-10-07 2012-11-21 Mitac Int Corp Self-learning method for keyword based human machine interaction and portable navigation device using the method
KR101023209B1 (ko) * 2008-10-13 2011-03-18 한국전자통신연구원 문서 번역 장치 및 그 방법
US8555240B2 (en) * 2008-10-15 2013-10-08 International Business Machines Corporation Describing formal end-user requirements in information processing systems using a faceted, tag-based model
US8490049B2 (en) 2008-10-15 2013-07-16 International Business Machines Corporation Faceted, tag-based approach for the design and composition of components and applications in component-based systems
US20100114887A1 (en) * 2008-10-17 2010-05-06 Google Inc. Textual Disambiguation Using Social Connections
US9129601B2 (en) 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US8260605B2 (en) * 2008-12-09 2012-09-04 University Of Houston System Word sense disambiguation
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
WO2010080641A1 (en) * 2008-12-18 2010-07-15 Ihc Intellectual Asset Management, Llc Probabilistic natural language processing using a likelihood vector
US8443278B2 (en) 2009-01-02 2013-05-14 Apple Inc. Identification of tables in an unstructured document
US8825473B2 (en) 2009-01-20 2014-09-02 Oracle International Corporation Method, computer program and apparatus for analyzing symbols in a computer system
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8504374B2 (en) * 2009-02-02 2013-08-06 Jerry Lee Potter Method for recognizing and interpreting patterns in noisy data sequences
TWI406199B (zh) * 2009-02-17 2013-08-21 Univ Nat Yunlin Sci & Tech 線上閱讀輔助系統及方法
WO2010096192A1 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8386511B2 (en) * 2009-02-27 2013-02-26 Red Hat, Inc. Measuring contextual similarity
US8516013B2 (en) 2009-03-03 2013-08-20 Ilya Geller Systems and methods for subtext searching data using synonym-enriched predicative phrases and substituted pronouns
US20120185501A1 (en) * 2011-01-18 2012-07-19 Ilya Geller Systems and methods for searching data
US8447789B2 (en) * 2009-09-15 2013-05-21 Ilya Geller Systems and methods for creating structured data
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
EP2406767A4 (en) 2009-03-12 2016-03-16 Google Inc AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME
US8447066B2 (en) * 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8346800B2 (en) * 2009-04-02 2013-01-01 Microsoft Corporation Content-based information retrieval
CA2796408A1 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
CN102576355A (zh) * 2009-05-14 2012-07-11 埃尔斯威尔股份有限公司 知识发现的方法和系统
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US10891659B2 (en) * 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8510308B1 (en) * 2009-06-16 2013-08-13 Google Inc. Extracting semantic classes and instances from text
US20100325557A1 (en) * 2009-06-17 2010-12-23 Agostino Sibillo Annotation of aggregated content, systems and methods
TWI553844B (zh) * 2009-07-02 2016-10-11 邰祐南 影像感測器及形成影像感測器的方法
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
US8782066B2 (en) * 2009-09-04 2014-07-15 Tanya Ward English Media transcription, synchronization and search
JP2011065546A (ja) * 2009-09-18 2011-03-31 Hitachi Solutions Ltd ファイル検索システム及びプログラム
US8666731B2 (en) * 2009-09-22 2014-03-04 Oracle International Corporation Method, a computer program and apparatus for processing a computer message
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
US8489390B2 (en) * 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US8166161B1 (en) 2009-09-30 2012-04-24 Cisco Technology, Inc. System and method for ensuring privacy while tagging information in a network environment
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US8468195B1 (en) 2009-09-30 2013-06-18 Cisco Technology, Inc. System and method for controlling an exchange of information in a network environment
US9251157B2 (en) * 2009-10-12 2016-02-02 Oracle International Corporation Enterprise node rank engine
US8694514B2 (en) * 2009-10-12 2014-04-08 Oracle International Corporation Collaborative filtering engine
US9659265B2 (en) * 2009-10-12 2017-05-23 Oracle International Corporation Methods and systems for collecting and analyzing enterprise activities
KR101072100B1 (ko) * 2009-10-23 2011-10-10 포항공과대학교 산학협력단 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
US8645372B2 (en) * 2009-10-30 2014-02-04 Evri, Inc. Keyword-based search engine results using enhanced query strategies
US11023675B1 (en) 2009-11-03 2021-06-01 Alphasense OY User interface for use with a search engine for searching financial related documents
US20110112824A1 (en) * 2009-11-06 2011-05-12 Craig Peter Sayers Determining at least one category path for identifying input text
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US9053454B2 (en) * 2009-11-30 2015-06-09 Bank Of America Corporation Automated straight-through processing in an electronic discovery system
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8359193B2 (en) * 2009-12-31 2013-01-22 International Business Machines Corporation Pre-highlighting text in a semantic highlighting system
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8875038B2 (en) 2010-01-19 2014-10-28 Collarity, Inc. Anchoring for content synchronization
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
CN102884518A (zh) 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US8751218B2 (en) * 2010-02-09 2014-06-10 Siemens Aktiengesellschaft Indexing content at semantic level
US20110202398A1 (en) * 2010-02-15 2011-08-18 Sarah Photowat Personal planner with targeted advertising
EP2362333A1 (en) 2010-02-19 2011-08-31 Accenture Global Services Limited System for requirement identification and analysis based on capability model structure
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
NO20100464A1 (no) * 2010-03-29 2011-09-30 Companybook Metode og arrangement for matching av virksomheter og deteksjon av endringer for en virksomhet ved bruk av matematiske modeller
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US10956475B2 (en) 2010-04-06 2021-03-23 Imagescan, Inc. Visual presentation of search results
US9152702B2 (en) * 2010-04-09 2015-10-06 Yahoo! Inc. System and method for selecting search results facets
US9384678B2 (en) 2010-04-14 2016-07-05 Thinkmap, Inc. System and method for generating questions and multiple choice answers to adaptively aid in word comprehension
US9129300B2 (en) * 2010-04-21 2015-09-08 Yahoo! Inc. Using external sources for sponsored search AD selection
WO2011137386A1 (en) * 2010-04-30 2011-11-03 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US8935274B1 (en) * 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
CN102262632B (zh) * 2010-05-28 2014-03-19 国际商业机器公司 进行文本处理的方法和系统
US9672204B2 (en) * 2010-05-28 2017-06-06 Palo Alto Research Center Incorporated System and method to acquire paraphrases
US8434001B2 (en) 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US8620890B2 (en) 2010-06-18 2013-12-31 Accelerated Vision Group Llc System and method of semantic based searching
US8566731B2 (en) 2010-07-06 2013-10-22 Accenture Global Services Limited Requirement statement manipulation system
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9081767B2 (en) * 2010-07-26 2015-07-14 Radiant Logic, Inc. Browsing of contextual information
US9020922B2 (en) * 2010-08-10 2015-04-28 Brightedge Technologies, Inc. Search engine optimization at scale
US9326116B2 (en) 2010-08-24 2016-04-26 Rhonda Enterprises, Llc Systems and methods for suggesting a pause position within electronic text
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
JP5012981B2 (ja) 2010-09-09 2012-08-29 カシオ計算機株式会社 電子辞書装置およびプログラム
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US9002701B2 (en) 2010-09-29 2015-04-07 Rhonda Enterprises, Llc Method, system, and computer readable medium for graphically displaying related text in an electronic document
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US11423029B1 (en) 2010-11-09 2022-08-23 Google Llc Index-side stem-based variant generation
US8375042B1 (en) 2010-11-09 2013-02-12 Google Inc. Index-side synonym generation
KR101643179B1 (ko) * 2010-11-11 2016-07-27 네이버 주식회사 추천 키워드를 제공하는 시스템 및 방법
US10387564B2 (en) * 2010-11-12 2019-08-20 International Business Machines Corporation Automatically assessing document quality for domain-specific documentation
CA2721498C (en) * 2010-11-25 2011-08-02 Microsoft Corporation Efficient use of exceptions in text segmentation
US20120143594A1 (en) * 2010-12-02 2012-06-07 Mcclement Gregory John Enhanced operator-precedence parser for natural language processing
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US8892421B2 (en) * 2010-12-08 2014-11-18 Educational Testing Service Computer-implemented systems and methods for determining a difficulty level of a text
US20130326336A1 (en) * 2010-12-09 2013-12-05 Alcatel Lucent Generating semantic structured documents from text documents
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US8667169B2 (en) 2010-12-17 2014-03-04 Cisco Technology, Inc. System and method for providing argument maps based on activity in a network environment
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
CN103262070B (zh) * 2010-12-23 2018-12-04 皇家飞利浦电子股份有限公司 解剖结构中病变的图片报告示意图的生成
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
US8911165B2 (en) 2011-01-24 2014-12-16 5 Examples, Inc. Overloaded typing apparatuses, and related devices, systems, and methods
US9400778B2 (en) 2011-02-01 2016-07-26 Accenture Global Services Limited System for identifying textual relationships
US9805160B2 (en) 2011-02-01 2017-10-31 Microsoft Technology Licensing, Llc Automatic generation of an executive summary for a medical event in an electronic medical record
US8898163B2 (en) * 2011-02-11 2014-11-25 International Business Machines Corporation Real-time information mining
US9558267B2 (en) 2011-02-11 2017-01-31 International Business Machines Corporation Real-time data mining
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9632994B2 (en) * 2011-03-11 2017-04-25 Microsoft Technology Licensing, Llc Graphical user interface that supports document annotation
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9116995B2 (en) 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
US9235566B2 (en) 2011-03-30 2016-01-12 Thinkmap, Inc. System and method for enhanced lookup in an online dictionary
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
EP2511831A1 (en) * 2011-04-14 2012-10-17 James Lawley Text processor and method of text processing
US20120265784A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US8553065B2 (en) 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US8972260B2 (en) * 2011-04-20 2015-03-03 Robert Bosch Gmbh Speech recognition using multiple language models
US8935654B2 (en) 2011-04-21 2015-01-13 Accenture Global Services Limited Analysis system for test artifact generation
US8528018B2 (en) 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8620136B1 (en) 2011-04-30 2013-12-31 Cisco Technology, Inc. System and method for media intelligent recording in a network environment
JP5234232B2 (ja) * 2011-05-10 2013-07-10 日本電気株式会社 同義表現判定装置、方法及びプログラム
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US8996359B2 (en) * 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
EP2551811A1 (en) * 2011-07-26 2013-01-30 Tata Consultancy Services Limited Method and system for integrating event processes in investment banking and custody lines of business
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8732574B2 (en) 2011-08-25 2014-05-20 Palantir Technologies, Inc. System and method for parameterizing documents for automatic workflow generation
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8700589B2 (en) * 2011-09-12 2014-04-15 Siemens Corporation System for linking medical terms for a medical knowledge base
US8812301B2 (en) * 2011-09-26 2014-08-19 Xerox Corporation Linguistically-adapted structural query annotation
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8782058B2 (en) * 2011-10-12 2014-07-15 Desire2Learn Incorporated Search index dictionary
US8738363B2 (en) * 2011-10-13 2014-05-27 Xerox Corporation System and method for suggestion mining
US11010432B2 (en) 2011-10-24 2021-05-18 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US9772999B2 (en) 2011-10-24 2017-09-26 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US10467273B2 (en) 2011-10-24 2019-11-05 Image Scan, Inc. Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within
US9009183B2 (en) * 2011-11-03 2015-04-14 Microsoft Technology Licensing, Llc Transformation of a system change set from machine-consumable form to a form that is readily consumable by a human
US20130124545A1 (en) * 2011-11-15 2013-05-16 Business Objects Software Limited System and method implementing a text analysis repository
US9934218B2 (en) * 2011-12-05 2018-04-03 Infosys Limited Systems and methods for extracting attributes from text content
US9201868B1 (en) * 2011-12-09 2015-12-01 Guangsheng Zhang System, methods and user interface for identifying and presenting sentiment information
US20130149681A1 (en) * 2011-12-12 2013-06-13 Marc Tinkler System and method for automatically generating document specific vocabulary questions
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
CN103186519B (zh) * 2011-12-31 2017-04-05 北大方正集团有限公司 双向排版方法和设备
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
US9514461B2 (en) * 2012-02-29 2016-12-06 Adobe Systems Incorporated Systems and methods for analysis of content items
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130246435A1 (en) * 2012-03-14 2013-09-19 Microsoft Corporation Framework for document knowledge extraction
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US8762324B2 (en) 2012-03-23 2014-06-24 Sap Ag Multi-dimensional query expansion employing semantics and usage statistics
WO2013142852A1 (en) * 2012-03-23 2013-09-26 Sententia, LLC Method and systems for text enhancement
US9064009B2 (en) * 2012-03-28 2015-06-23 Hewlett-Packard Development Company, L.P. Attribute cloud
US8886522B2 (en) * 2012-03-30 2014-11-11 The Florida State University Research Foundation, Inc. Automated extraction of bio-entity relationships from literature
US9159313B2 (en) * 2012-04-03 2015-10-13 Sony Corporation Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis and segments not generated using speech synthesis
RU2485581C1 (ru) * 2012-04-26 2013-06-20 Открытое акционерное общество "Лётно-исследовательский институт имени М.М.Громова" Поисковая экспертная система
US9037591B1 (en) 2012-04-30 2015-05-19 Google Inc. Storing term substitution information in an index
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP5895716B2 (ja) * 2012-06-01 2016-03-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US20140195884A1 (en) * 2012-06-11 2014-07-10 International Business Machines Corporation System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
GB2503223A (en) 2012-06-19 2013-12-25 Ibm Redrafting text strings using a vocabulary
US20140006373A1 (en) * 2012-06-29 2014-01-02 International Business Machines Corporation Automated subject annotator creation using subject expansion, ontological mining, and natural language processing techniques
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9269273B1 (en) 2012-07-30 2016-02-23 Weongozi Inc. Systems, methods and computer program products for building a database associating n-grams with cognitive motivation orientations
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
KR101629415B1 (ko) * 2012-08-10 2016-06-10 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
US20140059035A1 (en) * 2012-08-24 2014-02-27 iCONECT Development, LLC Process for generating a composite search document used in computer-based information searching
US9135244B2 (en) * 2012-08-30 2015-09-15 Arria Data2Text Limited Method and apparatus for configurable microplanning
WO2014039911A2 (en) * 2012-09-07 2014-03-13 Jeffrey Fisher Automated composition evaluator
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
WO2014040263A1 (en) * 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US10656808B2 (en) 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US20150227592A1 (en) * 2012-09-18 2015-08-13 Hewlett-Packard Development Company, L.P. Mining Questions Related To An Electronic Text Document
US9412366B2 (en) 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US20140115436A1 (en) * 2012-10-22 2014-04-24 Apple Inc. Annotation migration
US9348677B2 (en) 2012-10-22 2016-05-24 Palantir Technologies Inc. System and method for batch evaluation programs
US10650089B1 (en) 2012-10-25 2020-05-12 Walker Reading Technologies Sentence parsing correction system
CN105074693B (zh) 2012-10-25 2018-06-12 沃克阅读技术公司 语句解析校正系统
US9817810B2 (en) 2012-11-07 2017-11-14 International Business Machines Corporation SVO-based taxonomy-driven text analytics
US10650063B1 (en) * 2012-11-27 2020-05-12 Robert D. Fish Systems and methods for making correlations
US9098487B2 (en) * 2012-11-29 2015-08-04 Hewlett-Packard Development Company, L.P. Categorization based on word distance
US8874569B2 (en) * 2012-11-29 2014-10-28 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for identifying and visualizing elements of query results
US9424254B2 (en) * 2012-11-29 2016-08-23 Thomson Reuters Global Resoures Systems and methods for natural language generation
US9529795B2 (en) * 2012-11-29 2016-12-27 Thomson Reuters Global Resources Systems and methods for natural language generation
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
US9471559B2 (en) * 2012-12-10 2016-10-18 International Business Machines Corporation Deep analysis of natural language questions for question answering system
US10430506B2 (en) * 2012-12-10 2019-10-01 International Business Machines Corporation Utilizing classification and text analytics for annotating documents to allow quick scanning
US9286280B2 (en) 2012-12-10 2016-03-15 International Business Machines Corporation Utilizing classification and text analytics for optimizing processes in documents
US9372916B2 (en) 2012-12-14 2016-06-21 Athenahealth, Inc. Document template auto discovery
US9916301B2 (en) * 2012-12-21 2018-03-13 Microsoft Technology Licensing, Llc Named entity variations for multimodal understanding systems
JP6222923B2 (ja) * 2012-12-28 2017-11-01 富士通株式会社 ファイル管理プログラム、ファイル管理装置およびファイル管理方法
GB2524934A (en) 2013-01-15 2015-10-07 Arria Data2Text Ltd Method and apparatus for document planning
US20140215301A1 (en) * 2013-01-25 2014-07-31 Athenahealth, Inc. Document template auto discovery
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10134297B2 (en) * 2013-02-15 2018-11-20 Educational Testing Service Systems and methods for determining text complexity
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
US9201860B1 (en) * 2013-03-12 2015-12-01 Guangsheng Zhang System and methods for determining sentiment based on context
US9075718B2 (en) * 2013-03-14 2015-07-07 Vmware, Inc. Dynamic field extraction of log data
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
EP2973002B1 (en) 2013-03-15 2019-06-26 Apple Inc. User training by intelligent digital assistant
US8903717B2 (en) 2013-03-15 2014-12-02 Palantir Technologies Inc. Method and system for generating a parser and parsing complex data
US8930897B2 (en) 2013-03-15 2015-01-06 Palantir Technologies Inc. Data integration tool
US8855999B1 (en) 2013-03-15 2014-10-07 Palantir Technologies Inc. Method and system for generating a parser and parsing complex data
US8909656B2 (en) 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
US8868486B2 (en) 2013-03-15 2014-10-21 Palantir Technologies Inc. Time-sensitive cube
US9256644B1 (en) * 2013-03-15 2016-02-09 Ca, Inc. System for identifying and investigating shared and derived content
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014168730A2 (en) 2013-03-15 2014-10-16 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9378065B2 (en) 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
US9721086B2 (en) 2013-03-15 2017-08-01 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
US10075384B2 (en) 2013-03-15 2018-09-11 Advanced Elemental Technologies, Inc. Purposeful computing
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
US9367807B2 (en) * 2013-04-29 2016-06-14 Vulcan, Inc. Method and system that provides efficient index-based retrieval of rules
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US9575958B1 (en) * 2013-05-02 2017-02-21 Athena Ann Smyros Differentiation testing
GB2520226A (en) * 2013-05-28 2015-05-20 Ibm Differentiation of messages for receivers thereof
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US20150006514A1 (en) * 2013-06-28 2015-01-01 Jiun Hung Method and Computer System for Searching Intended Path
US9348815B1 (en) 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US10229106B2 (en) * 2013-07-26 2019-03-12 Nuance Communications, Inc. Initializing a workspace for building a natural language understanding system
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150046152A1 (en) * 2013-08-08 2015-02-12 Quryon, Inc. Determining concept blocks based on context
US9336332B2 (en) 2013-08-28 2016-05-10 Clipcard Inc. Programmatic data discovery platforms for computing applications
US9946711B2 (en) 2013-08-29 2018-04-17 Arria Data2Text Limited Text generation from correlated alerts
JP5669904B1 (ja) * 2013-09-06 2015-02-18 株式会社Ubic 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
US9396181B1 (en) 2013-09-16 2016-07-19 Arria Data2Text Limited Method, apparatus, and computer program product for user-directed reporting
US9244894B1 (en) 2013-09-16 2016-01-26 Arria Data2Text Limited Method and apparatus for interactive reports
US9411905B1 (en) * 2013-09-26 2016-08-09 Groupon, Inc. Multi-term query subsumption for document classification
US8938686B1 (en) 2013-10-03 2015-01-20 Palantir Technologies Inc. Systems and methods for analyzing performance of an entity
US10430806B2 (en) * 2013-10-15 2019-10-01 Adobe Inc. Input/output interface for contextual analysis engine
US9583099B2 (en) * 2013-10-29 2017-02-28 Oracle International Corporation Method and system for performing term analysis in social data
EP3063669A4 (en) 2013-10-31 2017-04-26 Hewlett-Packard Enterprise Development LP Classifying document using patterns
US9996529B2 (en) 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US10002187B2 (en) 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US9424524B2 (en) * 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9916284B2 (en) * 2013-12-10 2018-03-13 International Business Machines Corporation Analyzing document content and generating an appendix
US9105000B1 (en) 2013-12-10 2015-08-11 Palantir Technologies Inc. Aggregating data from a plurality of data sources
US9332025B1 (en) * 2013-12-23 2016-05-03 Symantec Corporation Systems and methods for detecting suspicious files
US10778618B2 (en) * 2014-01-09 2020-09-15 Oath Inc. Method and system for classifying man vs. machine generated e-mail
US9697290B2 (en) * 2014-01-16 2017-07-04 International Business Machines Corporation Providing relevant information to a user based upon monitored user activities in one or more contexts
US9665566B2 (en) * 2014-02-28 2017-05-30 Educational Testing Service Computer-implemented systems and methods for measuring discourse coherence
US9378273B2 (en) * 2014-03-13 2016-06-28 International Business Machines Corporation System and method for question answering by reformulating word problems
US8935201B1 (en) 2014-03-18 2015-01-13 Palantir Technologies Inc. Determining and extracting changed data from a data source
WO2015159133A1 (en) 2014-04-18 2015-10-22 Arria Data2Text Limited Method and apparatus for document planning
US10515138B2 (en) * 2014-04-25 2019-12-24 Mayo Foundation For Medical Education And Research Enhancing reading accuracy, efficiency and retention
US9934306B2 (en) * 2014-05-12 2018-04-03 Microsoft Technology Licensing, Llc Identifying query intent
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9824160B2 (en) * 2014-06-02 2017-11-21 SynerScope B.V. Computer implemented method and device for accessing a data set
US9317566B1 (en) 2014-06-27 2016-04-19 Groupon, Inc. Method and system for programmatic analysis of consumer reviews
US9311301B1 (en) * 2014-06-27 2016-04-12 Digital Reasoning Systems, Inc. Systems and methods for large scale global entity resolution
US11250450B1 (en) 2014-06-27 2022-02-15 Groupon, Inc. Method and system for programmatic generation of survey queries
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10318753B2 (en) * 2014-06-30 2019-06-11 Vescel, Llc Semantic data structure and method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9594743B2 (en) * 2014-07-25 2017-03-14 Collaborative Drug Discovery, Inc. Hybrid machine-user learning system and process for identifying, accurately selecting and storing scientific data
US10878017B1 (en) 2014-07-29 2020-12-29 Groupon, Inc. System and method for programmatic generation of attribute descriptors
US10409912B2 (en) 2014-07-31 2019-09-10 Oracle International Corporation Method and system for implementing semantic technology
US10152532B2 (en) 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
KR102244135B1 (ko) * 2014-09-05 2021-04-23 삼성전자주식회사 모듈로 스케줄링 방법 및 장치
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US20160078128A1 (en) * 2014-09-12 2016-03-17 General Electric Company Systems and methods for semantically-informed querying of time series data stores
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10146878B2 (en) 2014-09-26 2018-12-04 Oracle International Corporation Method and system for creating filters for social data topic creation
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10977667B1 (en) 2014-10-22 2021-04-13 Groupon, Inc. Method and system for programmatic analysis of consumer sentiment with regard to attribute descriptors
US9646512B2 (en) * 2014-10-24 2017-05-09 Lingualeo, Inc. System and method for automated teaching of languages based on frequency of syntactic models
US10007407B2 (en) 2014-11-03 2018-06-26 Cerner Innovation, Inc. Duplication detection in clinical documentation to update a clinician
US10558926B2 (en) * 2014-11-20 2020-02-11 Academia Sinica Statistical pattern generation for information extraction
US9760260B2 (en) * 2014-11-21 2017-09-12 International Business Machines Corporation System for retrieving, visualizing and editing semantic annotations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10289679B2 (en) 2014-12-10 2019-05-14 International Business Machines Corporation Data relationships in a question-answering environment
EP3230899A4 (en) * 2014-12-10 2018-08-01 Kyndi, Inc. Weighted subsymbolic data encoding
US10409910B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US9588704B2 (en) * 2014-12-23 2017-03-07 Commvault Systems, Inc. Secondary storage operation instruction tags in information management systems
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2607995C2 (ru) * 2015-02-11 2017-01-11 Общество С Ограниченной Ответственностью "Мивар" Автоматизированное построение маршрута логического вывода в миварной базе знаний
US9594746B2 (en) * 2015-02-13 2017-03-14 International Business Machines Corporation Identifying word-senses based on linguistic variations
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US11231826B2 (en) * 2015-03-08 2022-01-25 Google Llc Annotations in software applications for invoking dialog system functions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10009297B2 (en) * 2015-03-12 2018-06-26 International Business Machines Corporation Entity metadata attached to multi-media surface forms
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
KR101668725B1 (ko) * 2015-03-18 2016-10-24 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10467598B2 (en) * 2015-04-30 2019-11-05 Samsung Electronics Co., Ltd. Apparatus and method for automatically converting note to action reminders
CN107615027B (zh) 2015-05-18 2020-03-27 发可有限公司 用于可激活质量标签的热致变色墨水标记
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US9471851B1 (en) * 2015-06-29 2016-10-18 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
JP6898298B2 (ja) 2015-07-07 2021-07-07 バーコード リミティド 電子品質表示指標
US10255270B2 (en) * 2015-08-28 2019-04-09 Freedom Solutions Group, Llc Automated document analysis comprising company name recognition
US10311042B1 (en) 2015-08-31 2019-06-04 Commvault Systems, Inc. Organically managing primary and secondary storage of a data object based on expiry timeframe supplied by a user of the data object
US9734138B2 (en) 2015-09-07 2017-08-15 Voicebox Technologies Corporation System and method of annotating utterances based on tags assigned by unmanaged crowds
US9401142B1 (en) 2015-09-07 2016-07-26 Voicebox Technologies Corporation System and method for validating natural language content using crowdsourced validation jobs
US9519766B1 (en) 2015-09-07 2016-12-13 Voicebox Technologies Corporation System and method of providing and validating enhanced CAPTCHAs
US9786277B2 (en) 2015-09-07 2017-10-10 Voicebox Technologies Corporation System and method for eliciting open-ended natural language responses to questions to train natural language processors
US9448993B1 (en) 2015-09-07 2016-09-20 Voicebox Technologies Corporation System and method of recording utterances using unmanaged crowds for natural language processing
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11157532B2 (en) * 2015-10-05 2021-10-26 International Business Machines Corporation Hierarchical target centric pattern generation
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11227002B2 (en) * 2015-11-30 2022-01-18 International Business Machines Corporation Method and apparatus for identifying semantically related records
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10394829B2 (en) 2015-12-08 2019-08-27 International Business Machines Corporation Content authoring
US20170161619A1 (en) * 2015-12-08 2017-06-08 International Business Machines Corporation Concept-Based Navigation
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9922352B2 (en) * 2016-01-25 2018-03-20 Quest Software Inc. Multidimensional synopsis generation
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6722483B2 (ja) * 2016-03-23 2020-07-15 クラリオン株式会社 サーバ装置、情報システム、車載装置
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
US10169328B2 (en) * 2016-05-12 2019-01-01 International Business Machines Corporation Post-processing for identifying nonsense passages in a question answering system
US10585898B2 (en) 2016-05-12 2020-03-10 International Business Machines Corporation Identifying nonsense passages in a question answering system based on domain specific policy
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10311092B2 (en) * 2016-06-28 2019-06-04 Microsoft Technology Licensing, Llc Leveraging corporal data for data parsing and predicting
US11295451B2 (en) * 2016-08-02 2022-04-05 Koninklijke Philips N.V. Robust pulmonary lobe segmentation
US10235336B1 (en) * 2016-09-14 2019-03-19 Compellon Incorporated Prescriptive analytics platform and polarity analysis engine
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10769213B2 (en) * 2016-10-24 2020-09-08 International Business Machines Corporation Detection of document similarity
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
CN108021545B (zh) * 2016-11-03 2021-08-10 北京国双科技有限公司 一种司法文书的案由提取方法及装置
US11475030B2 (en) * 2016-11-10 2022-10-18 Ronald Scott Visscher System with a unique and versatile evaluation method
KR102630668B1 (ko) * 2016-12-06 2024-01-30 한국전자통신연구원 입력 텍스트를 자동으로 확장하는 시스템 및 방법
US10102194B2 (en) * 2016-12-14 2018-10-16 Microsoft Technology Licensing, Llc Shared knowledge about contents
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US11586827B2 (en) 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11562143B2 (en) 2017-06-30 2023-01-24 Accenture Global Solutions Limited Artificial intelligence (AI) based document processor
US10489502B2 (en) * 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing
US11003796B2 (en) 2017-06-30 2021-05-11 Accenture Global Solutions Limited Artificial intelligence based document processor
US11150871B2 (en) * 2017-08-18 2021-10-19 Colossio, Inc. Information density of documents
CN107391760B (zh) * 2017-08-25 2018-05-25 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN110651267B (zh) * 2017-09-13 2023-09-19 谷歌有限责任公司 有效地增强具有相关内容的图像
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US10713270B2 (en) * 2017-12-20 2020-07-14 Sap Se Emerging issue detection and analysis
CN111542815A (zh) * 2017-12-26 2020-08-14 雷克斯股份有限公司 用于挖掘文本文档以识别开创性问题和开创性案件的系统、方法和计算机程序产品
US11537645B2 (en) * 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
CN108694160B (zh) * 2018-05-15 2021-01-22 北京三快在线科技有限公司 文章生成方法、设备及存储介质
US11010180B2 (en) * 2018-05-29 2021-05-18 Wipro Limited Method and system for providing real-time guidance to users during troubleshooting of devices
US11455494B2 (en) * 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
US11645459B2 (en) 2018-07-02 2023-05-09 Oracle International Corporation Social autonomous agent implementation using lattice queries and relevancy detection
US10733389B2 (en) * 2018-09-05 2020-08-04 International Business Machines Corporation Computer aided input segmentation for machine translation
US10331713B1 (en) 2018-10-03 2019-06-25 Gurbaksh Singh Chahal User activity analysis using word clouds
US20220027397A1 (en) * 2018-10-16 2022-01-27 Shimadzu Corporation Case search method
US11301640B2 (en) * 2018-10-24 2022-04-12 International Business Machines Corporation Cognitive assistant for co-generating creative content
US10902219B2 (en) * 2018-11-21 2021-01-26 Accenture Global Solutions Limited Natural language processing based sign language generation
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
US20200210646A1 (en) * 2018-12-31 2020-07-02 3M Innovative Properties Company Natural language processing shallow discourse parser
US10726374B1 (en) * 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
US11151327B2 (en) 2019-02-28 2021-10-19 Atlassian Pty Ltd. Autonomous detection of compound issue requests in an issue tracking system
US11645295B2 (en) 2019-03-26 2023-05-09 Imagescan, Inc. Pattern search box
US11270078B2 (en) * 2019-05-18 2022-03-08 Exxonmobil Upstream Research Company Method and system for generating a surprisingness score for sentences within geoscience text
US11182155B2 (en) * 2019-07-11 2021-11-23 International Business Machines Corporation Defect description generation for a software product
US10902191B1 (en) * 2019-08-05 2021-01-26 International Business Machines Corporation Natural language processing techniques for generating a document summary
US11068758B1 (en) 2019-08-14 2021-07-20 Compellon Incorporated Polarity semantics engine analytics platform
CN110569738B (zh) * 2019-08-15 2023-06-06 杨春立 基于密集连接网络的自然场景文本检测方法、设备和介质
RU2721189C1 (ru) 2019-08-29 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа
RU2723293C1 (ru) 2019-08-29 2020-06-09 Общество с ограниченной ответственностью "Аби Продакшн" Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа
GB201912716D0 (en) * 2019-09-04 2019-10-16 Palantir Technologies Inc Management of tasks
US20210165786A1 (en) * 2019-10-02 2021-06-03 Infosum Limited Accessing datasets
US11373120B2 (en) * 2019-11-25 2022-06-28 Sap Se Attention mechanism for natural language processing
US11151321B2 (en) * 2019-12-10 2021-10-19 International Business Machines Corporation Anaphora resolution
CN111177383B (zh) * 2019-12-24 2024-01-16 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111159412B (zh) * 2019-12-31 2023-05-12 腾讯科技(深圳)有限公司 分类方法、装置、电子设备及可读存储介质
CN113111661A (zh) * 2020-01-09 2021-07-13 图灵人工智能研究院(南京)有限公司 文本信息分类方法、系统、设备及可读存储介质
US11183175B2 (en) * 2020-02-20 2021-11-23 Clinc, Inc. Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
US10819532B1 (en) 2020-03-27 2020-10-27 Ringcentral, Inc. System and method for determining a source and topic of content for posting in a chat group
US20210304142A1 (en) * 2020-03-31 2021-09-30 Atlassian Pty Ltd. End-user feedback reporting framework for collaborative software development environments
CN113886569B (zh) * 2020-06-16 2023-07-25 腾讯科技(深圳)有限公司 一种文本分类方法和装置
US11687733B2 (en) * 2020-06-25 2023-06-27 Sap Se Contrastive self-supervised machine learning for commonsense reasoning
CN111813989B (zh) * 2020-07-02 2023-07-18 中国联合网络通信集团有限公司 信息处理方法、设备及存储介质
RU2751993C1 (ru) * 2020-09-09 2021-07-21 Глеб Валерьевич Данилов Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
WO2022087497A1 (en) 2020-10-22 2022-04-28 Assent Compliance, Inc. Multi-dimensional product information analysis, management, and application systems and methods
RU2760471C1 (ru) 2020-12-17 2021-11-25 АБИ Девелопмент Инк. Способы и системы идентификации полей в документе
CN112613315B (zh) * 2020-12-29 2024-06-07 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112395876B (zh) * 2021-01-21 2021-04-13 华东交通大学 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
CN113065338B (zh) * 2021-04-08 2024-06-04 银清科技有限公司 Xml报文重组方法及装置
US11782957B2 (en) * 2021-04-08 2023-10-10 Grail, Llc Systems and methods for automated classification of a document
CN113792131B (zh) * 2021-09-23 2024-02-09 深圳平安智慧医健科技有限公司 一种关键词的提取方法、装置、电子设备及存储介质
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys
CN116701625B (zh) * 2023-05-29 2024-05-10 中国南方电网有限责任公司 电力调度语句处理方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
US6182029B1 (en) 1996-10-28 2001-01-30 The Trustees Of Columbia University In The City Of New York System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6360216B1 (en) * 1999-03-11 2002-03-19 Thomas Publishing Company Method and apparatus for interactive sourcing and specifying of products having desired attributes and/or functionalities
US20020016707A1 (en) * 2000-04-04 2002-02-07 Igor Devoino Modeling of graphic images from text
US20020010574A1 (en) * 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
AU2002228750A1 (en) * 2000-11-06 2002-05-15 Invention Machine Corporation Computer based integrated text and graphic document analysis
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US7251781B2 (en) * 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data

Also Published As

Publication number Publication date
CA2467369C (en) 2012-03-27
US20050108001A1 (en) 2005-05-19
US8265925B2 (en) 2012-09-11
WO2003042859A2 (en) 2003-05-22
WO2003042859A3 (en) 2003-09-18
NO20015581L (no) 2003-05-16
NO20015581D0 (no) 2001-11-15
CA2467369A1 (en) 2003-05-22
EP1454262A2 (en) 2004-09-08

Similar Documents

Publication Publication Date Title
NO316480B1 (no) Fremgangsmåte og system for tekstuell granskning og oppdagelse
Lopez et al. AquaLog: An ontology-driven question answering system for organizational semantic intranets
Gómez-Pérez et al. An overview of methods and tools for ontology learning from texts
Alwaneen et al. Arabic question answering system: a survey
US8060357B2 (en) Linguistic user interface
Velardi et al. A taxonomy learning method and its application to characterize a scientific web community
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
Alexa et al. A review of software for text analysis
US20030004706A1 (en) Natural language processing system and method for knowledge management
AlAgha et al. AR2SPARQL: an arabic natural language interface for the semantic web
Lacasta et al. Terminological ontologies: design, management and practical applications
Chu et al. A semantic-based approach to content abstraction and annotation for content management
Wilks et al. Can we make information extraction more adaptive?
Montyne The importance of formal ontologies: a case study in occupational health
Szymanik et al. The semantically annotated corpus of Polish quantificational expressions
Rodrigues et al. Improving question-answering for portuguese using triples extracted from corpora
Smine et al. Relevant learning objects extraction based on semantic annotation
Pietrosanti et al. Advanced techniques for legal document processing and retrieval
Yates Information extraction from the web: Techniques and applications
Paik CHronological information Extraction SyStem (CHESS)
Federmann et al. Multilingual terminology acquisition for ontology-based information extraction
Maree et al. Coupling semantic and statistical techniques for dynamically enriching web ontologies
Arguello et al. A bootstrapping approach for identifying stakeholders in public-comment corpora
Angelova Language technologies meet ontology acquisition
Debela Afaan Oromo search engine

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees