NO330101B1 - Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon - Google Patents

Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon Download PDF

Info

Publication number
NO330101B1
NO330101B1 NO20085369A NO20085369A NO330101B1 NO 330101 B1 NO330101 B1 NO 330101B1 NO 20085369 A NO20085369 A NO 20085369A NO 20085369 A NO20085369 A NO 20085369A NO 330101 B1 NO330101 B1 NO 330101B1
Authority
NO
Norway
Prior art keywords
information
presentation
navigators
search
user
Prior art date
Application number
NO20085369A
Other languages
English (en)
Other versions
NO20085369L (no
Inventor
Øystein Haug Olsen
Original Assignee
Microsoft Int Holdings B V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Int Holdings B V filed Critical Microsoft Int Holdings B V
Priority to NO20085369A priority Critical patent/NO330101B1/no
Priority to US12/645,810 priority patent/US8930822B2/en
Publication of NO20085369L publication Critical patent/NO20085369L/no
Publication of NO330101B1 publication Critical patent/NO330101B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

I en fremgangsmåte for å komponere og presentere informasjon i en brukerkontekst, skal informasjonen presenteres for brukeren på et mann-maskingrensesnitt i form av et visuelt eller grafisk display. Fremgangsmåten omfatter trinn for å bestemme en brukerkontekst i hvilken informasjonen kreves, å velge et sett av innholdskilder, og innholdskomponenter blir hentet ut fra innholdskildene. Informasjonen i de valgte innholdskomponenter beregnes med bruk av et informasjonsmål som gjenspeiler informasjon som oppfattet av menneskelig kognisjon, og en optimal presentasjon av valgte innholdskomponenter bestemmes og presenteres for brukeren.

Description

INNLEDNING
Oppfinnelsen angår en fremgangsmåte for å sette sammen og fremlegge informasjon i en brukerkontekst, hvor informasjonen omfatter innhold av dokumenter aksessert og gjenfunnet i et informasjonssøk, og hvor informasjonen skal presenteres for brukeren på et menneske-maskingrensesnitt i form av en visuell eller grafisk visning med en gitt form og areal.
Spesielt angår den foreliggende oppfinnelse en fremgangsmåte for å optimere skjermarealet for en informasjonsforbruker. Presentasjonsrommet reduseres ved å fjerne irrelevante aspekter av informasjon i kontekst og omordne elementene slik at de mest sannsynlige elementer posisjoneres i områder med størst visuelt inntrykk. Samlet er fremleggelsen av informasjon i kontekst mer kompakt og mindre forvirrende enn alternative systemer og gir informasjonsforbrukeren en passende høynivås oversikt.
KJENT TEKNIKK
Tradisjonelt har store informasjonsmengder krevet omhyggelig katalogisering med en manuell prosess for å gjøre den gjenfinnbar. Informasjonen aksesseres ved hjelp av manuelt tilføyde metadata.
Informasjonsgjenfinning har tradisjonelt involvert sluttbrukeren for å formulere søkespørsmål med bruk ab boolske operatorer - enten med bruk av et spørsmålsspråk eller via et grafisk brukergrensesnitt. Eksekvering av spørsmålet frembringer et søkeresultat som er en mengde av tilsvarende dokumenter. Denne resultatmengde har generelt vært en klassisk stringent mengde i hvilken et bestemt dokument enten er et element eller ikke er et element.
Da Internett fremkom, foregikk den initiale aksessmode via kataloger som manuelt klassifiserte sider og steder på Internett. Disse katalogene så som Yahoo (www.yahoo.com) og Open Directory Project (www.dmoz.org) eksisterer fortsatt, men etter hvert som innholdsvolumet vokste raskere enn kapasiteten for manuell klassifikasjon av innhold, er disse katalogene blitt erstattet eller supplert av søke-baserte informasjonsaksessmønstre basert på informasjonsgjenfinningsmetoder. Vevkataloger er blitt generalisert til portaler. En portal presenterer informasjon fra en rekke forskjellige kilder, herunder typisk ikke-internettinnhold, f.eks. relasjonelle databaser og applikasjoner og alle innenfor en konsistent ramme for utvikleren, konsistent utseende og inntrykk overfor forbrukeren og en enhetlig sikkerhets-modell for alle undersystemer eksponert som enkeltpålogging overfor informasjonsforbrukeren og med tilsvarende innholdsadgang. Bedriftsportaler blir vanligvis benyttet til å integrere en rekke interne og eksterne bedriftssystemer og datamagasiner.
En side i en portal består av en rekke småporter, hvor en småport ("portlet") representerer informasjonen fra en enkelt kilde. Utvikleren angir regler for hvilke småporter som skal fremkomme på hvilken side, og hvor på siden de skal fremkomme. Presentasjonen kan også bli rettet mot visningsinnretninger, f.eks. det begrensede skjermareal på håndholdte innretninger. En rekke store program-varebedrifter leverer portalprodukter for systemintegrasjon. (For mer informasjon se http:// www- 128Jbm. com/ developerworks/ ibm/ libmry/ i- portletintro/)
Når en informasjonsforbruker aksesserer informasjon, er søkespørsmålet mer eller mindre eksplisitt. Forbrukeren kan skrive et søkespørsmål hvis en egnet innretning er tilgjengelig. På en mobilinnretning med begrenset tekstinngang, er det ønskelig å redusere belastningen med å skrive ut lange spørsmål. Konteksten til brukeren mens informasjonen søkes, bidrar implisitt til søkespørsmålet. For eksempel kan søkespørsmålet implisitt utvides og rettes mot passende innhold avhengig av hvorvidt brukeren befinner seg hjemme eller på arbeid. Posisjonen til forbrukeren gir vink om hvilket geospatialt innhold som er relevant.
Integrasjonen av søk i et portalopplegg kan ganske enkelt velge å bruke en enkelt småport for søket. En mer avansert integrasjon fremstiller separate småporter for søkeboksen, resultatlisten og hver av navigatorene.
Presentasjonen av spørsmålstilbakemelding (stavingsforslag, definisjoner etc), resultatlisten og navigatorer i et portalopplegg er underlagt regler, spesifisert av utvikleren. Størrelsen, posisjonen og orden defineres manuelt på forhånd basert på antagelser og generaliseringer og optimerer forbrukererfaringen for den minste innsats som kreves av utvikleren.
DRØFTELSE AV PROBLEMET
En portal tar sikte på å være det sentrale punkt for ethvert informasjonsbehov. Etter sin art må den ta hensyn til en lang rekke informasjonsbehov, f.eks. høynivås innholdsaggregering og oversikter, kunnskapsundersøkelser på lavere nivå, spesifikk framskaffing av fakta og gjenfinning av et spesifikt dokument som brukeren har i tankene.
Generelt forutser portalkonstruktøren et mønster av brukstilfeller og definerer et felles opplegg over alle brukstilfeller. På det beste er noen få brukstilfeller blitt identifisert som sentrale for bedriften og en rekke brukergrensesnitt har vært rettet mot disse scenarioene. Hver av disse skreddersydde grensesnitt krever en signifikant mengde investering i å identifisere, utvikle og teste applikasjonslogikk og presentasjonsanvendbarhet.
Således er brukergrensesnitt basert på klare regler for hvilke informasjonskomponenter (småporter) som innbefattes, hvor de er posisjonert og presentasjonsstørrelsen. Reglene er typisk basert bare på brukerattributter, f.eks. aksessrettigheter, interessegrupper, kontorlokalisering og muligvis også på innretningstypen. For eksempel kan en stor eller klientspesifikk småport bare betraktes på innretninger med tilstrekkelig skjermareal. Generelt er det vanskelig og kostbart å definere et presentasjonsopplegg som dekker alle informasjonsbehov, og generelle opplegg gir utilfredsstillende anvendelighet.
Når skjermplassen er begrenset, er det vanskelig å foreta korrekte a priori valg av småporter. Brukeren vil lett finne det meget vanskelig å aksessere den ønskede informasjon, da de korrekte elementer for den gitte kontekst ikke er innbefattet, f.eks. på en liten, håndholdt innretning.
På store skjermer har portaler en tilbøyelighet til å rammes av informasjonsoverbelastning. Portalkonstruktøren inkluderer en mengde innhold for å øke sannsynligheten for forekomst av et eller annet passende innhold, og innholds-forbrukeren utsettes for informasjonsoverbelastning. Forbrukeren kan bli nødt til å avsøke søkesider som er visuelt komplekse, og med mange komponenter med forskjellige strukturer, og sidene kan strekke seg over en rekke skjermbilder på innretninger. Den kognitive destillering av alternative informasjonskomponenter er en stressfaktor for mennesker.
Fig. 1 er et eksempel på en informasjonspresentasjon som lider av informasjonsoverflyt. En bruker som utfører en oppgave vil behøve betydelig tid til å fordøye informasjon for å kunne danne en mental modell av strukturen av presentasjonen og informasjonen innenfor denne. I mange oppgaver som involverer søk, er brukerne ikke forberedt på å arbeide i en slik modus. De forventer den ønskede informasjon høyst noen få klikk borte og i løpet av få sekunder. Presentasjonen på fig. 1 lider spesifikt av for mange innholdskomponenter (skjermelementer) og av at en rekke av innholdskomponentene strekker seg hinsides det foreliggende syn.
Spesifikt i søkesystemer benyttes navigatorer til å forfine eller på annen måte manipulere søkeresultatene på en brukervennlig måte. Imidlertid er på en hvilken som helst resultatskjerm bare rom for noen få navigatorer. Når mengden av metadata som står til rådighet er meget stort, blir valget av de beste navigatorer ofte begrenset, statisk og suboptimalt. Navigatorvalg er enten statisk eller basert på hardkodede regler som benyttes ved spørsmålstidspunktet, med risiko for å innbefatte irrelevante og ekskludere relevante navigatorer.
Individuelle navigatorer er ofte forurenset av støyelementer. Lave sannsynlighets-verdier presenteres overalt i navigatorer hvor elementene rangeres etter verdi, f.eks. med hierarkiskeltrelignende navigatorer, og slutten hvor elementene rangeres av sannsynlighet/frekvens. Slike elementer tilbyr ikke sannsynlig spørs-målsforfining for sluttbrukeren og bør fjernes (eller grupperes i et "annet" valg) for å gi den mest effektive bruk av presentasjonsrom. For eksempel er det liten vits i å vise en nedboringsmulighet som innbefatter 97 % av resultatmengden, selv om den er den mest prominente verdi innenfor den foreliggende resultatmengde. Tilsvarende vil en nedboringsmulighet som innbefatter 1 % av resultatmengden høyst sannsynlig ikke være interessant når det er tre muligheter som hver omfatter mer enn 20 % av resultatmengden.
Både den fysiske eksklusjon og informasjonsoverbelastning reduserer brukbarheten og effektiviteten av portaler, og resulterer i redusert utbytte i et e-handels-miljø; kundene forlater stedet, og det fås redusert klebrighet, redusert arbeids-takerproduktivitet etc.
Kostnaden med å forbedre brukbarheten for spesifikke brukstilfeller ved å utvide layoutreglene er prohibitive innenfor nåværende systemer. Dessuten er ikke portalopplegg tilpasset den kooperative informasjonskoordinasjon mellom småportene. Ideen om uavhengige, gjenbrukbare informasjonskomponenter er bra for portalkonstruktøren, men er tilbøyelig til å stå i motsetning til smidigheten ved informasjonsforbruk med mindre det foreligger en felles kognitiv modell bak portalen (og småportene). Ved helt enkelt å innbefatte en mengde informasjons-syn (småportaler), er det ingen garanti for at disse er ortogonale syn av det angjeldende innhold og portalkonstruktøren har ingen støtte fra portalopplegget for å bedømme (og definere regler) av hvordan innhold mest effektivt skal fremlegges på det gitte skjermareal.
Etter hvert er systemer for informasjonsaksess, søk og gjenfinning blitt mer sofi-stikerte med søkemotorer som ikke bare søker innholdet og presenterer et like-frem søkeresultat til en bruker, men som også analyserer, evaluerer og rangerer data og dessuten er i stand til å skaffe navigasjonsverktøy og tilby disse til brukeren, og følgelig tillater forbedret oppdagelse av f.eks. dype og skjulte strukturer i informasjonsinnholdet. Imidlertid klamrer måten seg hvormed resultatene av søk og søkeavledede applikasjoner fremlegges, fortsatt til tradisjonelle presenta-sjonsmoder som ikke støtter brukerkognisjon og presentasjonen av informasjon i en grad som tilsvarer den stadig mer utviklede sofistikasjon av systemer for søking, aksess og gjenfinning eller avanserte søkemotorer som har vært og er under utvikling for å drive slike systemer. Følgelig er det et behov for å optimere informasjonsfremleggelse i en brukersentrisk kontekst og spesielt å forbedre presentasjonen overfor en bruker.
OPPFINNELSENS HENSIKTER
En første hensikt med den foreliggende oppfinnelse er således å optimere fremleggelsen av informasjon.
En annen hensikt med den foreliggende oppfinnelse er å bestemme informasjons-målet for den gjenfunne informasjon eller innholdet på en slik måte at det gjenspeiler informasjonen som oppfattes av et menneske som presenteres for innholdet.
Endelig er det også en hensikt med den foreliggende oppfinnelse å ta hensyn til forskjellige bruker- og innholdsrelaterte beskrankninger når en optimal innholds-fremleggelse bestemmes.
SAMMENDRAG AV OPPFINNELSEN
De ovennevnte hensikter så vel som ytterligere trekk og fordeler realiseres med en fremgangsmåte i henhold til oppfinnelsen som er kjennetegnet ved trinn for å bestemme en brukerkontekst i hvilken informasjonen kreves, å velge en mengde av innholdskilder, å befolke en mengde av innholdskomponenter ved å gjenfinne og forfine innholdskomponentene fra mengden av innholdskilder, idet mengden av innholdskomponenter innbefatter søkespørsmålstilbakemelding, dokumentlister, aggregering av definisjonsområder, og samforekomst av definisjonsområder og navigatorer, å beregne komponentinformasjon i de valgte innholdskomponenter ved hjelp av et informasjonsmål som gjenspeiler informasjon som oppfattet av menneskelig kognisjon, idet de valgte innholdskomponenter alltid omfatter navigatorer, å bestemme og sette sammen en optimal presentasjon av de valgte innholdskomponenter underlagt in eller flere menneskelig kognisjonsbeskrankninger, brukerkontekstbeskrankninger, presentasjonsbeskrankninger og innholdsbeskrankninger, og å fremlegge nevnte optimale presentasjon for brukeren.
Ytterligere trekk og fordeler ved den foreliggende oppfinnelse vil fremgå av de vedføyde, uselvstendige krav.
Oppfinnelsen skal forstås bedre av den etterfølgende drøftelse av den generelle bakgrunn for oppfinnelsen og de nødvendige betingelser for dens realisering så vel som fremlegging av fremgangsmåten i detalj og lest i samband med den vedføyde tegning, på hvilken
fig. 1 viser et eksempel på informasjonsoverflyt, som ovenfor nevnt,
fig. 2 en typisk graf av forholdet mellom presisjon og gjenkall,
fig. 3 resultatmengde-navigatorer på dokumentnivå,
fig. 4 kontekstuell navigasjon for spørsmålet "soccer",
fig. 5 menneskelig valginformasjon som en rekke symboler, med avbildning av tradisjonell informasjon til human-sentrisk informasjon,
fig. 6 gruppering av støybeheftede innførsler i en ny (annen) innførsel,
fig. 7 ("Less is more") en mengde av alternative valg med lik sannsynlighet,
fig. 8 skjematisk prosessflyt for en optimert informasjonsaksess,
fig. 9 fem eksempler på inngitte navigatorer med rangering, og fig. 10 fem eksempler på navigatorer omformet for menneskelig kognisjon.
GENERELL BAKGRUNN FOR OPPFINNELSEN
Store mengder verdifull forretningsinformasjon er lagret i bedriftssystemer og
-magasiner. Verktøy for forretningsetterretning (business intelligence, Bl) skaffer
mekanismer og grafiske brukergrensesnitt for denne informasjonen i portal-lignende programvareprodukter.
Overalt i denne fremstillingen vil begrepet "dokument" benyttes for ethvert søkbart objekt, og det kunne derfor bety f.eks. et tekstdokument, et dokument representert i XML, HTML, SGML, eller et kontorformat, et databaseobjekt så som en post, tabell, visning eller et spørsmål eller multimediaobjekt.
Søkekvaliteten til søkesystemet kvantiseres ved presisjon og gjenkall. Begge mål antar at en gitt mengde av dokumenter P er passende resultat for et gitt søke-spørsmål. Gjenkallingen er den andel av P som returneres i resultatmengden av R, dvs. \ R fl P\ I \ P\. Presisjonen er den andel R som er relevant, dvs \ R n P\ I \ R\. Typiske søkesystemer har presisjongjenkallingskurver som viser en avveining mellom presisjon og gjenkalling som gjengitt grafisk på fig. 2, som viser hvordan økende presisjon reduserer gjenkalling og omvendt. Presisjon oppnås bare med lav gjenkalling og omvendt. Søkesystemet er avstemt for å tilby akseptabel presisjon og gjenkalling.
Med store innholdsvolumer hvor mange dokumenter deler de samme stikkord, blir resultatmengdene imidlertid for store til effektivt å fremlegges for en menneskelig bruker. Forholdsvis nylig kan gjenfinningssystemer for informasjon beregne en relevansskåre som en funksjon av kvaliteten på samsvaret mellom søkespørs-målet og dokumentet, og dertil innbefatter denne skåren a priori sannsynligheten for at dokumentet er gyldig for et søkespørsmål (f eks "page rank" fra Google). Søkeresultatet fremlegges rangert i henhold til denne relevansskåre og viser detaljer for dokumenter med den høyeste relevansskåre først, vanligvis i hyperkjedede sider på 10-20 dokumenter. Begrepene "gjenkalling" og "presisjon" er ikke så entydige som for de stringente resultatmengder ovenfor, men de gjelder fortsatt. Gjenkalling refererer til å få relevante dokumenter innbefattet i søkeresul-tatet og fortrinnsvis på toppen av den første resultatside. Presisjon innbærer å ikke ha irrelevante dokumenter på den første resultatside.
Brukeren vekselvirker med et gjenfinningssystem for informasjon (en søkemotor) ved å analysere søkeresultatet, betrakte resultatdokumenter og reformulere søkespørsmålet. Søkeresultatet er ofte for generelt, da brukeren vanligvis ikke kjenner omfanget av samlingen av dokumenter i systemet og således ikke gjør spørsmålet spesifikt nok (dvs. at det har dårlig presisjon). En vanlig spørsmålsomformulering er å foreta en spørsmålsforfining, dvs. velge en undermengde av det opprinnelige søkeresultat med tanke på å forbedre presisjonen.
Helt nylig har informasjonsgjenfinningssystemer innført begrepet resultatmengde-navigasjon. Som eksempler på publisert kjent teknikk se f.eks. US patent nr.
7 035 864 og 7 062 483, overdratt til Endeca Technologies, Inc., og NO patent-søknad nr. 2005 2215, overdratt til Fast Search & Transfer ASA. Et dokument assosieres med multiple attributter (f.eks. pris, vekt, stikkord) hvor hvert attributt har ingen, én eller generelt flere verdier. Attributtverdifordelingene fremlegges om et frekvenshistogram enten sortert på frekvens eller verdi. En navigator er et grafisk brukergrensesnittobjekt som fremlegger frekvenshistogrammet for et gitt attributt og tillater brukeren å analysere resultatmengden så vel som å velge et attributtverdipar som en søkespørsmålforfining med et enkelt tastetrykk. Forfiningen blir eksekvert omgående, og den nye resultatmengde presenteres sammen med nye navigatorer på den nye resultatmengde. For eksempel kan et søk på "skiing" innbefatte en navigator "Country" på dokumentattributtene for "Country"
(metadata). Denne navigatoren inneholder en verdi "Norway" som antyder at det er et stort antall dokumenter i resultatmengden for "skiing" som er forbundet med Norge. Når brukeren velger muligheten "Norway" i navigatoren, fremlegger systemet undermengden av resultatmengden for "skiing" og ytterligere begrenset til dokumenter forbundet med Norge.
På fig. 3 gir spørsmålet 301 resultatmengden 302 sammen med navigatorer for dokumentnivå-metadata 303-305.1 eksempelet tillater et søk 301 på etternavnet "Thorsen" og fornavnet "Torstein" brukeren å forfine fornavnet blant de i resultatmengden 304 og begrense søket til en del 303 av landet. For hver av forfiningene er størrelsen på resultatmengden vist dersom forfiningen ble benyttet. Navigasjon innbefatter en rekke begreper for datagraving. Tradisjonelt foregår datagraving på en statisk datamengde. Med navigasjon blir datagraving benyttet på en dynamisk resultatmengde for hvert spørsmål. Hvert dokumentattributt representerer en dimensjon/fasett uttrykt i datagravingsterminologi.
Gitt et spørsmål Q, en navigator N på attributtet a som har verdier { v} over en mengde dokumenter D, har N( Q, a, v) forekomster av verdien v. Mengden av verdier for attributt a i dokumentet d er d( a) :
Både attributtverdiene v og dokumenttrefftellingen N( Q, a, v) fremlegges, typisk sortert enten på verdiene eller dokumenttrefftellingen.
Navigasjon er applikasjonen av resultatmengdeaggregering innenfor konteksten av et søkespørsmål, hvor et resultatmengdesammendrag så vel som en spørs-målsmodifikator som er innbefattet i søkespørsmålet, fremlegges for brukeren når denne velger et objekt i sammendraget. Fremleggingen er en visning av resultatmengden langs en attributtdimensjon og kan innbefatte en kvalitetsindikator i tillegg til attributtverdier, hvor kvaliteten vanligvis er antallet dokumenter for en gitt attributtverdi eller et attributtverdiområde.
Ideene drøftet nedenfor innbefatter både aggregering i det generelle tilfelle og spesifikt anvendelsen på navigasjon. Aggregeringen kan fremlegges uten nødvendigvis å lenke den til søkespørsmålsforfininger, eller den kan danne grunnlaget for statistisk analyse selv uten å fremlegges. Gjenfinningssystemet for informasjon kan også velge å automatisk utføre slike søkespørsmålsforfininger basert på en analyse av søkespørsmålet, resultatmengden og navigatorene/- aggregeringen forbundet med resultatmengden.
De dokumentglobale attributter (inetadata) er enten eksplisitte i dokumentet eller strukturerte databaseinnførsler eller automatisk oppdagede attributter i det ustrukturerte innhold av et dokument funnet ved bruk av teknikker fra området informasjonsekstraksjon. I hierarkisk strukturert innhold (f.eks. fra XML), kan underdokumentelementer eksplisitt forbindes med attributter. Automatisk ekstrahert informasjon kan forbindes på det globale dokumentnivå og på det kontekstuelle (underdokument-)nivå, f.eks. på setningselementer. Underdokumentelementer kan være eksplisitte i innholdet, (f.eks. avsnitt i HTML) eller detektert automatisk (f.eks. setningsdeteksjon). Distinksjonen mellom attributter og elementer gjøres med hensyn til den synlige innholdsstrømmen: Innholdet av elementer er synlig, mens attributtene er usynlige metadata på elementene. For eksempel er innholdet av setningselementer synlige, innbefattet underelementer av størrelser (f.eks. personnavn), men sentimentattributtet på et setningselement bør ikke interferere med innholdsstrømmen, f.eks. frasesøk over setninger. På samme måte kan et størrelseselement inneholde det opprinnelige innhold, mens et attributt inneholder den normaliserte versjonen av innholdet som benyttes for søking og analyse. For eksempel er teksten "yesterday" innhyllet i en data-størrelse med et attributt som inneholder den konkrete datoverdien normalisert etter standarden ISO 8601, som utledet av konteksten.
Nærværende søker har nylig innført en fremgangsmåte for kontekstuell navigasjon (Contextual Insight™) på underdokumentelementer, f.eks. perioder og setninger som beskrevet i f.eks. internasjonal publisert patentsøknad W02006/121338, overdratt til Fast Search & Transfer AS. Størrelser ekstraheres fra setningen og markeres som underelementer av setningselementene eller som attributter på setningselementene. Søkesystemet tillater valg av f.eks. spesifikke setninger ved spørsmål og navigasjon på setningens underelementer eller attributter. For eksempel kan et spørsmål velge setninger som inneholder "Bill Clinton" i et underelement "person name" og fremlegge en navigator på underelementet "dato" i disse setninger. Slike navigatorer er funnet å være mer relevante enn ekvivalente dokumentnivånavigatorer på størrelser utledet fra ustrukturert innhold i naturlig språk.
Fig. 4 viser aggregeringer av personer forbundet med søkespørsmålet "soccer" på dokument 401, avsnitt 402 og setningsnivå 403, og viser tydelig semantisk mer konkrete aggregeringer på avsnitts- og setningskontekster enn på dokument-nivået.
Undertiden vil en bruker spesifisere et detaljert søkespørsmål, og resultatmengden vil ha for spesifikke (eller ingen) dokumenter (dvs. dårlig gjenkalling). Noen søkesystemer tillater brukeren å ganske enkelt øke gjenkallingen, f.eks. ved å tillate lemmatisering eller avledning som muliggjør samsvar mellom alternative overflateformer, f.eks. samsvar mellom forskjellige tider av verb, entall/flertall av substantiver osv. Andre gjenkallingsforsterkende tiltak er å muliggjøre synonymi, å gå fra en frasesøk til en "allord"-søk og gå fra "allord"-søk til en "n av m" (eller "any")-søk. Stavekontroll kan virke begge veier og forbedre gjenkalling eller presisjon.
For å skalere for høyvolumapplikasjoner har søkeløsninger utviklet fra program-varebibliotek håndtert alle aspekter av søket lenket sammen til en enkel applikasjon som kjøres på en datamaskin og til distribuerte søkemotorløsninger hvor multiple, undertiden flere tusen datamaskiner eksekverer søkespørsmålene mottatt fra eksterne klienter. Denne utvikling tillater en søkemotor å kjøre i et separat miljø og å fordele problemet på en optimal måte uten å ha eksterne beskrankninger pålagt av applikasjonen.
Grunnlaget for ytelse, skalerbarhet og feiltoleranse er partisjonering av søkbare dokumenter i partisjoner håndtert på separate datamaskiner og kopiering av disse partisjonene til andre datamaskiner. I søkemotoren blir søkespørsmålet analysert og deretter formidlet til noen eller alle partisjoner, resultatene fra hver partisjon slås sammen, og den endelige resultatmengde blir underkastet etterprosessering før den føres videre til søkeklienten. Ytelse og feiltoleranse økes ved å kopiere dataene på nye datamaskiner. Søkemotorene skalerer for mer innhold ved å tilføye nye partisjoner.
DETALJERT DRØFTELSE AV OPPFINNELSEN
Nå skal den konstruktive realisering og de sentrale trekk for fremgangsmåten i henhold til den foreliggende oppfinnelse drøftes mer detaljert med hovedvekt på utførelser av aksess- og fremleggelsesmetoden basert på å benytte resultat-mengdeaggregeringer i form av navigatorer og rangering med tanke på å skaffe en optimal presentasjon.
Formelt inneholder en navigator n en mengde av \ n\ entydige innførsler. En innførsel har en verdi / og en sannsynlighet n_ i. Sannsynligheten for en innførsel n_ i er definert som brøkdelen av dokumenter i den foreliggende kontekst (søke-resultatmengden) som har verdien / for fasetten benyttet for navigatoren n.
I henhold til tradisjonell informasjonsteori er informasjonen i navigatoren n entropien
hvor n_ i angir sannsynligheten for verdien /' i navigatorene. Å rangere navigatorer basert på entropien alene er ineffektivt på en søkeresultatside, da en navigator hvor hvert dokument i resultatmengden har en entydig verdi, vil ha den høyeste entropi. En slik navigator opptar et omfattende presentasjonsrom og er praktisk talt ubrukelig for en menneskelig sluttbruker. På den annen side vil en enkelt nedboringsmulighet tilby meget lite informasjon, og spesielt hvis alle dokumenter inneholder innførselen (den har sannsynligheten 1), har den ingen verdi for nedboring.
Forskning viser at et menneske mentalt maksimalt kan forstå omtrent 7 gjenstander i en gitt kognitiv oppgave. I kognitiv psykologi har George A. Miller innført begrepet "The magical number seven, plus or minus two" i 1956 og antydet at kanalkapasiteten for menneskelig kognitive oppgaver er begrenset til 5-9 valg eller omtrent 2,8 informasjonsbit.
Dokumentmodellen kan inneholde mange fasetter hvormed det kunne være ønskelig å innsnevre søket via navigatorer. Med begrensede beregningsressurser (CPU, platelagerbåndbredde, og nettverkbåndbredde) og skjermarealer (både på borddatamaskiner og mobile innretninger) er utfordringen å velge den passende mengde av fasetter for evaluering og presentasjon til sluttbruker. Forskjellig spørsmål vil generelt ha forskjellig optimale presentasjonsopplegg hvor de mest anvendelige navigatorer er plassert på de best synlige steder på skjermarealet.
I sin enkleste form benyttes ideene i henhold til den foreliggende oppfinnelse på en mengde av navigatorer på en søkeresultatside. Den tradisjonelle informasjon beregnes i alle navigatorer i henhold til den ovenfor gitte definisjon. Dette infor-masjonsvalg avbildes via en klokkeformet funksjon, slik at navigatorer med for lite eller for mye informasjon degraderes i den totale rangering av navigatorer i en bestemt søkeresultatside.
Presentasjonsopplegget kan innbefatte så mange navigatorer som det er plass til på siden i den transformerte rangering, eller opplegget kan benytte en terskel slik at bare navigatorer med høy kvalitet blir innbefattet.
Fig. 5 viser et eksempel på en slik klokkeformet funksjon som avbilder tradisjonelle informasjonsmål til det humansentriske informasjonsmål. Den klokkeformede funksjon er sentrert omkring 7 gjenstander (2,8 bit) med en bredde på omtrent 2 gjenstander. Funksjonen benyttes til å omforme det tradisjonelle informasjonsmål for en navigator til en ny rangverdi som bedre gjenspeiler menneskers kanalkapasitet.
Den foreliggende oppfinnelse viser også målretting av en navigator for presentasjon til en menneskelig bruker av søk. En navigator som inneholder mer enn ni gjenstander kan ha noen dominante innførsler som har informasjon på rundt 2-3 bit etterfulgt av flere innførsler med lav sannsynlighet. Disse lite sannsynlige nedboringskandidater så vel som halen på navigatoren (antatt at innførsler er rangert i orden fra høy til lav sannsynlighet) kan bli plassert i ny innførsel i navigatoren, benevnt f.eks. "Annet". Startes det ved halen (lavest sannsynlighet), vil sannsynligheten for den siste innførsel adderes til "Annef-bingen og fjernes fra navigatoren. Denne prosedyren gjentas inntil den tradisjonelle informasjonsmål er redusert til å nå kriteriene for menneskelig informasjonsforbruk, f.eks. mindre enn 3 biter. I visse tilfeller behøver det ikke å være ønskelig å presentere "Annet"- innførselen, i hvilket tilfelle bare de resterende, opprinnelige innførsler presenteres.
Fig. 6 viser sannsynlighetsprofilen for innførsler i en typisk navigator. Innførslene med de laveste sannsynligheter grupperes i en ny "Annef-innførsel. Når brukeren velger "Annef-innførselen, innsnevres søkespørsmålet til å innbefatte verdier inneholdt i "Annef-innførselen som for tradisjonell navigasjon. Alternativt innsnevres søkespørsmålet til å ekskludere verdiene som er listet sammen med "Annet-innførselen. Alt i alt angir dette opplegg hvordan støyen som oppfattet av mennesker kan reduseres i navigatorer på en søkeresultatside.
Den foreliggende oppfinnelse innbefatter et skjema for å velge navigasjons-innførsler ved hjelp av en terskel for sannsynligheten til en innførsel. For eksempel skal bare innførsler med mer enn 10 % sannsynlighet innbefattes. De resterende innførsler grupperes i en "Annef-binge, og den samlede informasjon forden nye navigator benyttes for rangering av innholdskomponenter og posisjonering.
Rangering av navigatorer etter å ha innrettet dem mot menneskelig kognisjon vil bli målrettet slik at de rangeres høyere, mens noen navigatorer ikke lar seg rette mot det ønskede informasjonsområde og de vil således befinne seg ved halen av navigatorrangeringen. Den foreliggende oppfinnelse viser hvordan navigatorrangering og ytterligere navigatoregenskaper som beskrevet nedenfor: benyttes i presentasjonssystemet slik at den visuelle effektivitet optimeres avhengig av beskrankninger så som innretningens utgangsmuligheter, innbefattet grafisk visning og lydutgang, inngangsmuligheter og båndbredde etc.
Tradisjonelt blir hierarkiske navigatorer vist helt ekspandert, dvs. alle bladnoder er synlige. Generelt vil en slik navigator frembringe informasjonsoverbelastning for en menneskelig bruker av søk. Den foreliggende oppfinnelse skaffer også målretting av hierarkiske navigatorer for menneskelig informasjon. Hvor en gren f.eks. inneholder 20 direkte barnevalg (med omtrent samme sannsynlighet), presenteres bare grenen uten noe avkom - sannsynligheten for alt avkom akkumuleres i sannsynligheten til grenen. Skjermarealet er bedre nyttet for grener som bedre diskriminerer dokumentrommet pr. skjermareal. Det ovennevnte prinsipp med å sette inn en "Annef-innførsel kan benyttes på hver grennode i en hierarkisk navigator. Et alternativ er å sette alle støybeheftede innførsler i en toppnivås "Annef-innførsel eller å fjerne dem helt med bruk av den foreliggende algoritme for å identifisere støybeheftede innførsler. Etter å ha gruppert støybeheftede innførsler, kan grener slås sammen slik at informasjonen reduseres. Sammenslåing (kollapsering) av en gren kan plutselig redusere informasjonen for mye, f.eks. til under 2 bit. En fremgangsmåte basert på rå kraft er å forsøke alle kombinasjoner av grenkollaps og velge den konfigurasjon som oppnår det optimale informasjonsmål, omkring 3 bit. I praksis kan mer effektiv optimering oppnås med f.eks. prinsippene fra dynamisk programmering.
Fig. 7 viser en helt ekspandert, hierarkisk navigator 701 (til høyre). Den har for mye informasjon til at et menneske kan forbruke den på tidsskala svarende til den under hvilken en bruker vekselvirker med en søkeresultatside. Sammenslåing av de minst sannsynlige og støybeheftede grener til navigatoren 701 gir den omformede navigator 702 (i midten) som har tilstrekkelig informasjon til å gjøre den interessant, samtidig som den ikke blir for vanskelig å forstå. Navigatoren 702 kan dessuten slås sammen til navigatoren 703 (til venstre), noe som gjør den triviell og ubrukbar, da den inneholder en eneste innførsel, x-aksen på figuren representerer tradisjonelt informasjonsinnhold. Figuren viser også at den menneskelige informasjonsreseptivitet når en topp i naboomgivelsene til navigatoren 702 og har forholdsvis lave verdier for navigatorene 701 og 703.
I spesialtilfelle hvor en foreldernode inneholder bare ett barn, kan forelder og barn smelte sammen til en node for å spare skjermareal. Spesielt tillater denne fremgangsmåte å spare ett nivå av innrykkingsrom i presentasjonen.
Den foreliggende oppfinnelse innbefatter videre et opplegg for å velge naviga-sjonsinnførsler (valg) ved hjelp av en optimering av informasjonstettheten i navigatoren (så vel som i en sammensatt presentasjon av innholdskomponenter, en "metanavigator"). Hver innførsel (valg) i en bestemt navigator forbruker vanligvis det samme skjermareal, typisk presentert som en linje innenfor denne innholdskomponent. Etter hvert som mer støybeheftede innførsler (med lav sannsynlighet) innbefattes, vil informasjonstettheten, dvs. informasjon pr. innførsel, falle. For alle mulige grupperinger av innførsler med lav sannsynlighet vil informasjonstettheten nå en maksimumsverdi som vil velge grupperingsnivå, og den tilsvarende informasjonstetthet vil bli benyttet som en navigatorrangverdi.
Den foreliggende oppfinnelsen innbefatter også et opplegg for å benytte informasjonstetthet som ovenfor relativt til informasjonstettheten fra det samme antall innførsler med samme sannsynlighet og som gir den maksimale informasjon i mange innførsler. Eksemplene viser at valg av toppen i dette mål som basis for å velge grupperingsnivå er robust heuristisk. Informasjonstettheten fra dette grupperingsnivå benyttes til innholdskomponentrangering og presentasjon.
Den formale definisjon av informasjonstetthet for en navigator n med \ n\ innførsler slik at alle innførsler med sannsynlighet mindre enn \ n\ -1 innførsel (innførsler sorteres på fallende n_ i) grupperes i \ n\ innførsel ("Annef-bingen) er
Informasjonstetthetsfaktoren er forholdet mellom den virkelige informasjonstetthet og den maksimalt mulige informasjonstetthet for den gitte Maksimal informasjonstetthet oppnås med \ n\ med like sannsynlige innførsler som har informasjons-loggen Således er informasjonstetthetsfaktoren
Kort sagt søker den foreliggende fremgangsmåte en N som, når navigatoren n er
transformert til en annen navigator n( N) med N innførsler (N < |n|) ved å aggregere støybeheftede elementer i en ny innførsel ("Annet"), maksimerer informasjonstetthetsfaktoren til den omformede navigator f( n( N)) og benytter informasjonstettheten for den transformerte navigator h( n( N)) som rangverdien for den omformede navigator.
Generelt vil bare en av de opprinnelige navigatorer n eller de omformede navigatorene n( N) bli innbefattet i den totale rangering av navigatorer. Begge kan imidlertid være innbefattet i den totale navigatorrangering, men med risiko for å kaste bort skjermareal og forårsake informasjonsoverbelastning. Varianter av navigatorrangering i den foreliggende oppfinnelse kan normaliseres slik at det beste transformasjonsalternativ, fra f.eks. enkel sannsynlighetsterskel, informasjonstetthetsfaktor osv. alle konkurrerer om 15 presentasjonen overfor brukeren. Generelt vil den høyst rangerte transformasjon ekskludere de andre transformasjonene for den samme navigator.
Presentasjonen av en navigator kan £eks. ta form av en etikettsverm ("tag cloud")
(http://en.wikipedia.org/wiki/Tag_cloud). En etikettsverm, til forskjell fra tradisjonelle navigatorer, presenteres ikke som en eksplisitt sekvens. I stedet blir innfør-selsannsynligheten representert som fontstørrelse og fedme, så vel som farge etc. for verdien av innførselen. Fremgangsmåten i henhold til den foreliggende oppfinnelse gjelder fortsatt - de støybeheftede innførsler aggregeres i en ny "Anne<f->innførsel som presenteres i svermen og gjør således informasjonen i etikett-svermen mer tilgjengelig for en menneskelig bruker.
Metoden med bruk av informasjonstetthet kan benyttes på hierarkiske navigatorer. For hver N vil metoden ta grafkonfigurasjonen med høyest informasjonstetthet. N med høyest informasjonstetthetsfaktor finnes, og den tilsvarende informasjonstetthet benyttes til å rangere den hierarkiske navigator blant alle andre navigatorer.
Fig. 8 viser prosesseringen av søkeresultatet via aggregering og dannelse av navigatorer frem til presentasjonen for sluttbruker. Prosesseringen kan være "feed-forward", dvs. en presentasjon fremstilles for en bruker i en gitt kontekst, brukeren skaffer inndata som modifiserer konteksten, søket eksekveres i en gitt kontekst og skaffer en resultatmengde av dokumenter, aggregering av navigasjon utføres i henhold til parametre i eller utledet fra konteksten, og gjengivelsesprosessen presenterer resultatet av brukervekselvirkningen overfor brukeren. I dette scenario tar aggregering og dannelse av navigatorer innspill fra konteksten med hensyn til hvilke kriterier som skal benyttes for navigatortransformasjon og - rangering. Gjengivelsesprosessen benytter essensielt navigatorrangeringen for å velge den beste presentasjon.
Fig. 8 viser også den integrerte prosessering av søking, aggregering og gjengivelse. Fremfor å optimere lokalt i aggregeringen på navigatorer returnert fra søket, kan det foreligge global optimering over aggregering og gjengivelse. Gjengivelsen kan f.eks. benytte forskjellige fontstørrelse på navigatorer som vil innføre informasjonstetthetsmålet. Ovenfor ble gjennomsnittsinformasjon pr. innførsel benyttet som et kriterium under antagelse av fast fontstørrelse for presentasjonen, men for navigatorer av variabel størrelse, f.eks. etikettsvermer, kan et mer passende mål være informasjonen pr. skjermareal. Den samlede størrelse av en etikettsverm bestemmes både av aggregeringen og gjengivelsen og krever således tett koblet optimering. For audioutgang, f.eks. i mobilsøk, vil et tilsvarende mål være informasjon pr. tidsenhet. Vekselvirkningen mellom aggregering av navigatorer og gjengivelse vil finne optimal multimodal gjengivelse avsøkeresultatet på f.eks. skjerm og audio. Fig. 9 viser eksempel på noen landnavigatorer som returnert fra forskjellige spørsmål til søkemotoren, dvs. sortert med fallende sannsynlighetsorden (trefftelling). Navigatoren 901 viser en håndfull relevante innførsler fulgt av et antall støybeheftede elementer. Navigatoren 902 viser at omtrent halvparten av dokumentene treffer "USA" og omtrent halvparten en rekke andre land. Navigatoren 903 har mange innførsler med omtrent samme sannsynlighet (trefftelling) fulgt av noen få støybeheftede innførsler. Navigatorene 904 og 905 har 7 og 15 henholdsvis like sannsynlige innførsler. Alle disse navigatorene, bortsett fra navigator 904, ville bli klassifisert som støybeheftede og langt fra optimale slik de presenteres ovenfor den menneskelige bruker. Den tradisjonelle informasjon i disse navigatorene er vist som en navigatorrangorden 906. Den samme fasett ville ikke konkurrere mot seg selv i en slik rangorden, men denne rangorden tjener til å sammenligne rangeringen som om navigatorene fremkom fra forskjellige fasetter i det samme søkeresultat. Fig. 10 viser eksempelet landnavigatorer etter å ha blitt transformert til maksimal informasjonstetthet. I navigatoren 1001 blir innførslene til navigatoren 901 fra og
med "Germany" gruppert i "Annet" og gir en navigator med seks innførsler ned fra 15 i navigatoren 901.1 navigatoren 1002 blir alle innførsler i navigatoren 902 bortsett fra USA plassert i "Annet" og gir en navigator med to omtrent like sannsynlige innførsler som har et informasjonsmål på omtrent 1,0 og en informasjonstetthet på 0,5, da navigator 1002 opptar to linjer. Omforming av navigatoren 903 gir navigatoren 1002 - den foreliggende fremgangsmåte gir ti innførsler, og påbegynner grupperingen i "Annet" der hvor fallet i sannsynlighet starter i navigatoren 903. De like sannsynlige navigatorer 904 og 905 omformes til henholdsvis navigatorene 1004 og 1005. Navigator 1004 er identisk med navigatoren 904, mens navigator 1005 skjæres ned til fem innførsler.
Ti innførsler i navigator 1003 er noe i høyeste laget, gitt grensene foreslått av Miller, som ovenfor nevnt. Informasjonstetthetene i de transformerte navigatorer er vist i navigatorrangeringen 1006. Navigator 1003 oppnår en lav skåre da den har en lav informasjonstetthet på grunn av forholdsvis mange innførsler. Det er sannsynlig at det vil finnes bedre og mer verdifulle navigatorer for denne bestemte søkeresultatmengde enn navigatoren 1003. Navigatorene 90411004 og 905 har maksimal informasjon med hensyn til deres respektive antall innførsler, men ingen av dem oppnår topprangering. Navigatorene 90411004 taper for navigatorer med mindre innførsler som således oppnår høyere informasjonstetthet. Navigator 1005 rangeres ned på grunn av ubalanserte sannsynligheter.
Tradisjonelt har dokumenttrefflisten lagt beslag på det dominerende presentasjonsrom for et søkeresultat. Navigatorer har en tilbøyelighet til å bli presentert på sidene av et hovedareal som reserveres for trefflisten. Basert på bruksdata, innbefattet gjennomklikkede data i søkemotoren og vevtjenerstatistikk (titting), a priori sannsynligheter og argumentasjon innenfor søkemotoren, publiseringslogikk f.eks. promoteringer), kan sannsynligheter tilføres hvert dokument presentert i trefflisten og informasjonen kan beregnes. Trefflisten kan rangeres blant navigatorene og tillater spesielt verdifulle navigatorer i dette søket å oppta noe eller hele presentasjonsrommet som tradisjonelt er reservert for trefflisten.
Søketrefflisten og navigatorene er alle innholdskomponenter i et portalopplegg. Fremgangsmåten i henhold til den foreliggende oppfinnelse kan benyttes på alle slike innholdskomponenter hvor spørsmålspesifikke, betingede eller a priori sannsynligheter kan tilordnes til innholdet. Disse innholdskomponenter kan således rangeres og tildeles passende presentasjonsrom, gitt underlagte gjengivelsesbeskrankninger, så som påtvunget av innretningen, brukeren (f.eks. ved å ha dårlig syn), tilgjengelige gjengivelsesmodaliteter, konteksten osv.
EKSEMPLER PÅ APPLIKASJONER
• Mobilsøk. Presentasjonsmetoden i henhold til den foreliggende oppfinnelse vil gi optimal utnyttelse av de temmelig små skjermer på mobilinnretninger og også ta hensyn til inngangsmulighetene, som enten de realiseres via tastatur eller skjerm, vanligvis er begrensede og ofte må utføres på en måte som er "særegen" for mobilinnretninger. Dessuten kunne søk og presentasjon på
mobilinnretninger også utnytte muligheter for audioutgang og -inngang.
• Handling (shopping) innbefattet e-handel. Et generelt problem her er å avstemme salg med lagerhold. For eksempel er det i en e-handel ønskelig å skreddersy søkererfaringen på en slik måte at antallet klikk brukeren må benytte mellom inngivelse av et spørsmål og funn av en gjenstand som skal kjøpes, minimeres. Dette er antatt at kan være gunstig for å optimere omdannelsesraten for et sted, dvs. andelen av kunder på stedet og som faktisk ender opp med å foreta et innkjøp fra stedet. Minimeringen kan oppnås ved å skaffe logikk i presentasjonen slik at en aggregering, f.eks. en navigator i presentasjonen, får mening relativt til søkespørsmålet og gjør at kundene hurtig kan peile seg inn på en gjenstand som tilbys for salg. Den generelle ide er at fremgangsmåten i henhold til den foreliggende oppfinnelse kan optimeres på en slik måte at en kunde holder seg på stedet hvis presentasjonen
frembringer et samlet inntrykk av effektiviteten til en innkjøpsprosess.
• Klassifisert annonsering. Generelt er navigatorer det viktigste brukergrensesnitt, men fremgangsmåten for presentasjon i henhold til den foreliggende oppfinnelse er naturligvis ikke begrenset til aggregeringer så som navigatorer, men når de sistnevnte benyttes for klassifisert annonsering, bør presentasjonen optimeres slik at den gir en respons med høy kvalitet. • Nyhetssøk. Nyheter presentert som tekst er svært dynamiske og søkespørsmål må være nokså omfattende, slik at en optimal presentasjonsmetode vil være
sterkt ønskelig.
• Mediasøk og søking i rikt innhold. Her er informasjonen naturligvis ikke begrenset til tekst, men kan omfatte bilder, video og audio, og en optimal presentasjon vil være i stand til å integrere søkeresultater slik at brukeren presenteres for valg fra forskjellige kildetyper og allikevel tilbys et tydelig
forklart og lett oppfattelig syn av søkeresultatene.
• Forretningsetterretning. En presentasjon optimeres for å ta hensyn til at rapporter innen forretningsintelligens ("Business Intelligence", Bl) vanligvis er statiske, forhåndsdefinerte og rettet mot en temmelig smal gruppe av brukere.
KONKLUSJONER
Fremgangsmåten i henhold til den foreliggende oppfinnelse tilbyr en rekke fordeler som ikke skaffes i kjent teknikk. Disse innbefatter blant annet de følgende: • Rangering av navigatorer basert på brukerdata og informasjonsinnhold i navigatorene.
• Automatiserte algoritmer som vil forbedre oppdagelse via navigatorer.
• Optimale navigatorer for hvert søkespørsmål, selv om de siste er predikerbare. • En forbedret og mer omhyggelig bruk av skjermen eller visningsarealet. Skjermglitter som aldri eller sjeldent benyttes kan fjernes eller brukes på ny ved
å anvende verktøy for forbedret oppdagelse
• Brukeroppførsel kan mates tilbake i en sløyfe for å forbedre utnyttelsen og bruken av skjerm eller visningsinnretning.
I tillegg kunne fremgangsmåten i henhold til den foreliggende oppfinnelse benytte parametre for automatisk valg og plassering av innholdskomponenter, innbefattet navigatorer på skjermen, og generelt benyttes til å følge regelen at navigatoren med høyest verdi skal gis den mest fremtredende plass i presentasjonen.
Som fagfolk lett vil forstå, tilbyr fremgangsmåten i henhold til foreliggende oppfinnelse en rekke muligheter med hensyn til ytterligere utvikling rettet mot aksessering og presentasjon av informasjon i en human-sentrisk kontekst. For eksempel burde det være mulig å profilere data med metadatasammendrag på globalt og kontekstuelt nivå. Dynamisk programmering kunne benyttes til å optimere skjermbruk og det ville være mulig å skaffe navigatorer for menneskelig informasjon.
Et annet høyst interessant utsikt er muligheten av å aggregere hierarkiske alternativer i form av hierarkiske navigatorer. Bare det alternativ som tilsvarer den samlede aggregering benyttes.
Som fagfolk imidlertid også vil innse, vil noen av perspektivene og utsiktene som her er nevnt, kunne falle utenfor rammen av den foreliggende oppfinnelse. Endelig skal det bemerkes at de eksemplifiserende utførelser av denne som her ovenfor vist, har sin hovedvekt på innholdskomponenter som omfatter aggregering i form av navigatorer, men presentasjonen kunne likeså gjerne innbefatte andre innholdskomponenter, så som f.eks. tilbakemelding på søkespørsmål og aggregering av definisjonsområder.

Claims (12)

1. Fremgangsmåte for å sette sammen og fremlegge informasjon i en brukerkontekst, hvor informasjonen omfatter innhold av dokumenter aksessert og gjenfunnet i et informasjonssøk, hvor informasjonen skal presenteres for brukeren på et menneske-maskingrensesnitt i form av en visuell eller grafisk visning med en gitt form og areal, og hvor fremgangsmåten omfatter trinn for a) å bestemme en brukerkontekst i hvilken informasjonen kreves, b) å velge en mengde av innholdskilder, c) å befolke en mengde av innholdskomponenter ved å gjenfinne og forfine innholdskomponentene fra mengden av innholdskilder, idet mengden av innholdskomponenter innbefatter søkespørsmålstilbakemelding, dokumentlister, aggregering av definisjonsområder og samforekomst av definisjonsområder og navigatorer, d) å beregne komponentinformasjon i de valgte innholdskomponenter ved hjelp av et informasjonsmål som gjenspeiler informasjon som oppfattet av menneskelig kognisjon, idet de valgte innholdskomponenter alltid omfatter navigatorer, e) å bestemme og sette sammen en optimal presentasjon av de valgte innholdskomponenter underlagt en eller flere menneskelige kognisjonsbeskrankninger, brukerkontekstbeskrankninger, presentasjonsbeskrankninger og innholdsbeskrankninger, og f) å fremlegge nevnte optimale presentasjon for brukeren.
2. Fremgangsmåte i henhold til krav 1, karakterisertvedat spørsmålstilbakemelding omfatter forslag til alternative søkespørsmål.
3. Fremgangsmåte i henhold til krav 1, karakterisertvedat dokumentlistene sorteres og/eller grupperes i henhold til forskjellige kriterier.
4. Fremgangsmåte i henhold til krav 1, karakterisert vedå velge en undermengde av mengden av innholdskomponenter for å bestemme og beregne den optimale presentasjon i trinn f), å bestemme en sammensatt presentasjon, å beregne et samlet informasjonsmål for den sammensatte presentasjon, å optimere den totale informasjonsmål, og å fremlegge den optimale, sammensatte presentasjon for brukeren.
5. Fremgangsmåte i henhold til krav 1 eller krav 4,karakterisert vedå benytte portalrammekonsept for den optimale presentasjon.
6. Fremgangsmåte i henhold til krav 1 eller krav 4,karakterisert vedå innbefatte i den optimale presentasjon én eller flere rangerte navigatorer.
7. Fremgangsmåte i henhold til krav 6, karakterisert vedå rangere navigatorer på basis av et informasjonsmål.
8. Fremgangsmåte i henhold til krav 6, karakterisert vedå velge navigatorinnførsler på basis av en sannsynlighetsterskel for hver innførsel.
9. Fremgangsmåte i henhold til krav 1 eller krav 4,karakterisert vedå begrense antall valg i den optimale presentasjon til valg som har en sannsynlighet over et forhåndsbestemt nivå.
10. Fremgangsmåte i henhold til krav 9 karakterisertvedat antallet valg dessuten er ytterligere begrenset til et maksimum i heltallsområdet 5-9.
11. Fremgangsmåte i henhold til krav 9, karakterisertvedat valgene presenteres som hierarkiske.
12. Fremgangsmåte i henhold til krav 9, karakterisertvedat valgene innbefatter numeriske områder.
NO20085369A 2008-12-23 2008-12-23 Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon NO330101B1 (no)

Priority Applications (2)

Application Number Priority Date Filing Date Title
NO20085369A NO330101B1 (no) 2008-12-23 2008-12-23 Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon
US12/645,810 US8930822B2 (en) 2008-12-23 2009-12-23 Method for human-centric information access and presentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20085369A NO330101B1 (no) 2008-12-23 2008-12-23 Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon

Publications (2)

Publication Number Publication Date
NO20085369L NO20085369L (no) 2010-06-24
NO330101B1 true NO330101B1 (no) 2011-02-21

Family

ID=42542700

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20085369A NO330101B1 (no) 2008-12-23 2008-12-23 Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon

Country Status (2)

Country Link
US (1) US8930822B2 (no)
NO (1) NO330101B1 (no)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346780B2 (en) * 2010-04-16 2013-01-01 Hitachi, Ltd. Integrated search server and integrated search method
WO2012109175A2 (en) * 2011-02-09 2012-08-16 Brightedge Technologies, Inc. Opportunity identification for search engine optimization
US20120304042A1 (en) * 2011-05-28 2012-11-29 Jose Bento Ayres Pereira Parallel automated document composition
US9244956B2 (en) 2011-06-14 2016-01-26 Microsoft Technology Licensing, Llc Recommending data enrichments
US9147195B2 (en) 2011-06-14 2015-09-29 Microsoft Technology Licensing, Llc Data custodian and curation system
US9122720B2 (en) * 2011-06-14 2015-09-01 Microsoft Technology Licensing, Llc Enriching database query responses using data from external data sources
US9262469B1 (en) * 2012-04-23 2016-02-16 Monsanto Technology Llc Intelligent data integration system
US9372903B1 (en) 2012-06-05 2016-06-21 Monsanto Technology Llc Data lineage in an intelligent data integration system
US10671629B1 (en) 2013-03-14 2020-06-02 Monsanto Technology Llc Intelligent data integration system with data lineage and visual rendering
WO2015034823A1 (en) * 2013-09-06 2015-03-12 Smugmug, Inc. Display scaling application
WO2017117645A1 (en) * 2016-01-08 2017-07-13 Flybits Inc. Technologies for providing user centric interfaces
CN107273404A (zh) * 2017-04-26 2017-10-20 努比亚技术有限公司 搜索引擎的评估方法、装置及计算机可读存储介质
CN110459211B (zh) * 2018-05-07 2023-06-23 阿里巴巴集团控股有限公司 人机对话方法、客户端、电子设备及存储介质
CN110717514A (zh) * 2019-09-06 2020-01-21 平安国际智慧城市科技股份有限公司 会话意图识别方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260588A1 (en) * 2006-05-08 2007-11-08 International Business Machines Corporation Selective, contextual review for documents

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035864B1 (en) 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US6950990B2 (en) * 2000-12-11 2005-09-27 Microsoft Corporation Navigation tool for accessing workspaces and modules in a graphical user interface
US6778193B2 (en) * 2001-02-07 2004-08-17 International Business Machines Corporation Customer self service iconic interface for portal entry and search specification
US6693651B2 (en) * 2001-02-07 2004-02-17 International Business Machines Corporation Customer self service iconic interface for resource search results display and selection
US7620631B2 (en) * 2005-03-21 2009-11-17 Microsoft Corporation Pyramid view
NO20052215L (no) 2005-05-06 2006-11-07 Fast Search & Transfer Asa Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260588A1 (en) * 2006-05-08 2007-11-08 International Business Machines Corporation Selective, contextual review for documents

Also Published As

Publication number Publication date
NO20085369L (no) 2010-06-24
US20110004829A1 (en) 2011-01-06
US8930822B2 (en) 2015-01-06

Similar Documents

Publication Publication Date Title
NO330101B1 (no) Fremgangsmåte for human-sentrisk informasjonsaksess og presentasjon
CA2681249C (en) Method and system for information retrieval with clustering
US9262527B2 (en) Optimized ontology based internet search systems and methods
US8108405B2 (en) Refining a search space in response to user input
JP4587512B2 (ja) ドキュメントデータ照会装置
Pound et al. Facet discovery for structured web search: a query-log mining approach
US20080270380A1 (en) Method for Determining Contextual Summary Information Across Documents
US20070192293A1 (en) Method for presenting search results
Fujiwara et al. Efficient ad-hoc search for personalized pagerank
US20060155751A1 (en) System and method for document analysis, processing and information extraction
Si et al. Unified utility maximization framework for resource selection
NO325864B1 (no) Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
Li et al. Context-based diversification for keyword queries over XML data
Liu et al. Return specification inference and result clustering for keyword search on xml
Kang et al. Learning to rank related entities in web search
Hoeber Web information retrieval support systems: The future of web search
Gemmell et al. The impact of ambiguity and redundancy on tag recommendation in folksonomies
Pérez et al. A relevance-extended multi-dimensional model for a data warehouse contextualized with documents
Zhao et al. Broad: Diversified keyword search in databases
Krishnan et al. Select, link and rank: Diversified query expansion and entity ranking using wikipedia
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
Bessai-Mechmache et al. Possibilistic model for aggregated search in XML documents
Wetzker et al. Understanding the user: Personomy translation for tag recommendation
JP2011018152A (ja) 情報提示装置、情報提示方法およびプログラム
Ramya et al. Automatic extraction of facets for user queries [AEFUQ]

Legal Events

Date Code Title Description
CHAD Change of the owner's name or address (par. 44 patent law, par. patentforskriften)

Owner name: MICROSOFT CORPORATION, US

CHAD Change of the owner's name or address (par. 44 patent law, par. patentforskriften)

Owner name: MICROSOFT TECHNOLOGY LICENSING, US