SE1450148A1 - Sökmotor med översättningsfunktion - Google Patents

Sökmotor med översättningsfunktion Download PDF

Info

Publication number
SE1450148A1
SE1450148A1 SE1450148A SE1450148A SE1450148A1 SE 1450148 A1 SE1450148 A1 SE 1450148A1 SE 1450148 A SE1450148 A SE 1450148A SE 1450148 A SE1450148 A SE 1450148A SE 1450148 A1 SE1450148 A1 SE 1450148A1
Authority
SE
Sweden
Prior art keywords
documents
document
language
search
phonetic
Prior art date
Application number
SE1450148A
Other languages
English (en)
Inventor
Claes Persson
Original Assignee
Mobilearn Dev Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobilearn Dev Ltd filed Critical Mobilearn Dev Ltd
Priority to SE1450148A priority Critical patent/SE1450148A1/sv
Priority to PCT/EP2015/052885 priority patent/WO2015121309A1/en
Priority to US15/117,850 priority patent/US20170052966A1/en
Priority to CA2938254A priority patent/CA2938254A1/en
Publication of SE1450148A1 publication Critical patent/SE1450148A1/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

Uppfinningen hänför sig til! en datorirnplernenterat förfarande för dokumentinhämtning som innefattar stegen: a) iäta en användare att mata in en sökord på ett första språk, b) tillämpa en fonetisk algoritm på sökordet, sä att en fonetisk version av sökordet erhålls, c) använda utdata från steg b) för att utföra en sökning i ett flertal elektroniska dokument på det första språket, där nämnda sökning identifierar den mest. relevanta dokument baserat på fonetiska versioner av sökord, d) val av ett översatt dokument som representerar dokumentet identifieras i steg c), översatt till andra språk, och f) tillhandahålla, till användaren, det översatta dokumentet

Description

15 20 25 30 svaret tiil användaren.
Steg c.) kan även innefatta steget att ra ngordna dokument baserat på förekomsten, i dokumentet, av ett ord, vars fonetiska version svarar mot ctieri forietiska versionen av stiktvrdet i tiokurrientet (k/ietod 1) Steg c) kan innefatta steget att rangordna dokument baserat på förekomsten, i dokumen» tet, av en signonym tili den fonetiska versionen av sökordet (ivietod 2).
Steg c) kan även innefatta steget att rangordna dokument baserat på dokumentens tema, där terriari bestäms utifrån en statistisk rnodeii (Metod 3). Den statistiska ntodeiieri kan bestämma dokumentens tema genom att i) identifiera ett antai riyckeiord som finns i aiia dokument, ii) kiustra dokument som i stor utsträckning har samma nyckelord. Antalet nyckelord kan vara från íüß tiii Títiüfi.
Steg c) kan innefatta aiia rnetoderna 1--3 ovan där var och en av de tre metoderna i), ii) och iii) bidrar till rangordningen av dokumenten. De tre metoderna kan tilideias en egen viktning.
Det är föredraget att fiertaiet eiektroniska dokument ar en förolefiriierad samling av elektroniska dokument, föredraget innefattar den 'fördefinierade sanningen av eiektro- niska dokument färre än fi. tiíii) ÛÛÛ dokument. Ãtrninsttine två av de eieittroriiska doku- menten finns närvarande på ett första språk och ett andra språk.
Metoden kan innefatta det ytterligare steget att först utföra indexering av sarniingen av elektroniska dokument. lndexeringssteget kan innefatta användning av en fonetisk algo- ritm.
C:\Users\yvjo\Desktop\140922 Översättning av ansökan .doc><, 2014-11-13 130054SE 10 15 20 25 30 i en andra aspekt av uppfinningen tilihandahäiis ett systern för initänttniitg av eiektroniska dokument, där nämnda system innefattar åtminstone en dator, en fördefinierad samling av eiektroniska dokument, en indexeringsntotor och en sökmotor, varvid nämnda system är i stånd att utföra rnetotien enligt uppfinningen. i en tredje aspekt av uppfinningen 'tšiihandanålis en artikei innefattande ett maskinläsbart ntedittni som iagrar exekverbara instruktioner för att söka efter ett eiektroniskt dokument i en samiing av eiektroniska dokument, där den exekvernara instruktionen orsakar en maskin att utföra förfarandet enligt uppfinningen.
Förfarandet eniigt uppfinningen kan lämpligen irnpiementeras av en tjänst som kan näs av en programvara som körs på, eller en webtjänst som nås från, en handhållen dator som till exempel en s.k. smartphone. Genorn att arivärttia tjänsten, kan en tierson söka santhälis» information på antingen sitt irrodersntål eller på det lokala språket och få ett dokument på det andra språket. Tili exernpei, orn en invandrare med arabiska som sitt rnodersmåi och som bara kan ordet NHS (för "National Health Service" i Storbritannien) på engeiska, men viii ha mer information på arabiska om vården, kan han söka efter “NHS" nted tjänsten och hämta dokument på arabiska om NHS. ivietoden och systemet tinderiättai' också iniärning av det iokaia språket, eftersom en invandrare kan få omedelbar och samtidig tillgång tiii ett dokument på sitt modersmål, och i ett Litföraride av Lippfinriingeri, på det iokaia språket.
KORTFATFAD BESKRIVNING AV RITNINGARNA Fig. 1 är en schematisk översikt av ett exempel på en samling av elektroniska dokument, endast som ett exempel.
Fig. 2 är ett flödesschema som illustrerar metoden enligt uppfinningen.
Fig. 3 är en schematisk översikt av ett system enligt uppfinningen.
C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 DETALHERAD BESKREVNlNG Uppfinningen innefattar ett system 10 (i Fig. 3) som är i stånd att utföra metoden enligt uppfinningen. Systemet 10 kan ligga till grund för att tillhandahålla en datoriserad sök- tjänst där användaren kan söka i en samling av elektroniska dokument 1.
Samlingen av elektroniska dokument 1 kan omfatta dokument eller länkar till dokument som tillhandahålls av tredje parter, till exempel myndigheter såsom vårdgivare, polisen, arbetsförmedlingar mm. Varje dokument är associerat med de andra språkversionerna så att när ett dokument på ett första språk har identifierats av systemet 10, så har systemet 10 direkt tillgång till dokumentet på det andra språket genom länken. Med hänvisning till fig. 1, så är språkversionerna A, B och C av dokument 1 associerade med varandra. Fig. 1 visar schematiskt en samling av elektroniska dokument 1, där varje dokument finns i tre språkversioner; en arabisk version (A), en svensk version (B), och en engelsk version (C).
Det finns tre dokument, ett om uppehållstillstånd (Dokument 1), ett om hälso-och sjuk- vård (Dokument 2) och ett om sysselsättningsfrågor (Dokument 3). På samma sätt är de tre språkversionerna A, B och C i dokument 2 och 3 associerade med varandra.
I verkligheten är det troligt att antalet dokument är närmare flera hundra, och varje dokument finns kanske i 5, 10 eller 20 olika språkversioner. Samlingen av elektroniska dokument 1 hålls företrädesvis som en databas 1 som kan nås av övriga delar av systemet 10.
Samlingen av elektroniska dokument 1 är företrädesvis en fördefinierad samling av elektroniska dokument. Till exempel kan det vara en definierad samling dokument som beskriver samhällsservice, såsom hälsovård, bemanningsföretag etc. Värden för tjänsten övervakar manuellt samlingen av elektroniska dokument 1 och beslutar vilken samhällsre- laterad information som skall inkluderas, och vilka nya dokument som eventuellt bör C:\Users\yvjo\Desktop\140922 Översättning av ansökan .doc><, 2014-11-13 130054SE 10 15 20 25 30 läggas till samlingen 1.
Samlingen av dokument 1 innefattar företrädesvis textdokument såsom exempelvis webbsidor (HTl\/IL-dokument), .pdf dokument och Word-dokument. De elektroniska dokumenten är företrädesvis digitalt lagrade, till exempel på en server.
Detta sparar datorkraft, eftersom en sådan fördefinierad dokumentsamling är mycket snabbare att indexera än till exempel internet-webben. Detta har den fördelen att indexe- ring inte måste genomföras i realtid, såsom vid indexering av internet. Istället kan indexe- ring utföras när användningen är låg, till exempel nattetid.
Antalet elektroniska dokument kan vara mindre än 10000000, företrädesvis mindre än 100 000, helst mindre än 10 000 och helst mindre än 1 000. Ãtminstone två dokument i samlingen av elektroniska dokument 1 finns på minst två språk. Föredraget finns alla dokument, eller nästan alla dokument, på mer än ett språk, så att alla eller nästan alla dokument i samlingen av elektroniska dokument 1 är närvarande i 2, 3, 4, 5 eller flera språk.
Språken kan väljas beroende på den avsedda användningen av samlingen av elektroniska dokument 1. Lämpligen väljs språken så att de stödjer invandring. Minst ett språk är då lämpligen ett lokalt språk och minst ett språk är modersmål hos en grupp av invandrare som stöds av den tjänst som implementerar systemet och/eller förfarandet enligt uppfin- ningen. Således, om det lokala språket är svenska, kan de andra språken vara till exempel arabiska och somaliska.
Metoden tillhandahåller ett bekvämt sätt för en användare att söka i samlingen av elektroniska dokument 1 på det språk som denne väljer och inhämta dokumentet på det språk som han väljer, vilket kan vara ett annat språk. Det första steget i metoden enligt uppfinningen är att användaren i steg 101 matar in sökordet. Användaren kan till exempel ha tillgång till tjänsten som implementerar metoden enligt uppfinningen genom en app eller webbläsare i sin smartphone på sätt som beskrivs nedan. Användaren matar in C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 sökordet på det första språket i steg 101. Lämpligen görs detta på en klient 6 som kom- municerar med systemet 10 (se nedan). Det första språket och det andra språket är olika språk och kan vara något av de språk som de elektroniska dokumenten är på, vilket kan vara vilket som helst av världens skriftspråk, även om det företrädesvis är ett skriftspråk som nu existerande dokumentindexeringsverktyg och fonetiska algoritmer kan hantera.
Användaren kan bli ombedd, första gången han använder tjänsten, att välja språk som sedan blir de förinställda första och andra språken. l\/len lämpligen kan användaren ändra språkinställningar när som helst. Användaren kan till exempel vilja söka efter information i det lokala språket genom att mata in ett sökord på sitt modersmål. Alternativt kan han vilja söka efter information på sitt modersmål genom att mata in ett sökord på det lokala språket.
Systemet tillämpar sedan, i steg 102, en fonetisk algoritm på sökordet. En fonetisk algo- ritm är en algoritm för indexering av ord genom deras uttal. Som exempel kan nämnas att en enkel del av en fonetisk algoritm för det engelska språket är att alltid ersätta Z med S, och ersätta PH med F.
Användningen av en fonetisk algoritm har fördelen att felstavningar av användaren (som kanske alltså inte använder sitt modersmål) inte påverkar kvaliteten på sökningen. Fone- tiska algoritmer är välkända och kan väjas beroende på språken hos dokumenten i sam- lingen av elektroniska dokument 1. När exempelvis språket är svenska eller engelska, kan den fonetiska algoritmen vara I\/letaphone, Double I\/letaphone eller Soundex och när språket är tyska kan algoritmen vara Kölner Phonetik. Användningen av en fonetisk algoritm är särskilt användbar eftersom användaren sannolikt kommer att göra sökningar på ett språk som inte är hans modersmål. Således kan felstavningar undvikas. Om till exempel användaren vill söka efter sjuktransport och matar in "AI\/lBJULANCE" tillhanda- håller sökmotorn dokument som innehåller "AMBULANS".
I steg 103 använder systemet den fonetiska versionen av sökord för att identifiera det mest relevanta dokumentet i det första språket. Detta utförs av sökmotor 3 och index 2 i C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 Fig. 3.
Söksteget 103 kan utföras med användning av flera olika sökmetoder, eller kombinationer av sökmetoder. Företrädesvis kan flera olika metoder användas och kombineras för att tillhandahålla ett optimalt sökresultat.
En sådan metod är att identifiera dokument baserat på närvaron av (den fonetiska vers- ionen av) sökordet. Sökordet kan vara enstaka ord eller fraser som består av två ord eller mer. Lämpligen används stemming för att ta hänsyn till olika former av ordet.
Emellertid kan mer avancerade metoder också användas. Eftersom användaren kanske inte behärskar hela vokabulären så är utökning av sökningen till synonymer en användbar metod i sökmetoden. Således kan dokument som innehåller synonymer eller nyckelord som matchar sökordet också identifieras i sökningen. Indexet 2 kan innehålla en fördefini- erad lista med synonymer för sökord. Så ger till exempel sökning efter SICK TRANSPORT (eng) inte bara sökresultat som innehåller SICK TRANSPORT utan även dokument som innehåller ordet Al\/IBULANCE (eng).
En än mer förfinad metod som kan implementeras i metoden enligt uppfinningen är att bestämma temat för varje dokument. Temat är en sammanfattning av innehållet i doku- mentet. Dokumenten kan exempelvis indexeras så att varje dokument är försett med nyckelord som metadata.
Vidare, genom att använda statistiska metoder, kan ett antal nyckelord (t.ex. 100 till 1000 förutbestämda olika nyckelord, helst 200-500 nyckelord) som förekommer i samlingen av elektroniska dokument 1 identifieras i varje elektroniskt dokument. Dokument som innefattar liknande fördelningar av sådana nyckelord grupperas tillsammans, till exempel med hjälp av konventionella klustringstekniker såsom K-means klustring, såsom handlande om samma tema. Som exempel på teman kan nämnas sjukvård, skolor, arbetstillstånd, och sysselsättning. Dock kan mer smala teman också användas, till exempel ett tema kan relatera till dokument som beskriver hur man ansöker om arbetstillstånd.
C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 Företrädesvis bestäms teman hos de elektroniska dokumenten automatiskt. Innehållet i det elektroniska dokumentet kan analyseras för att erhålla en "dokumentsignatur".
Dokumentsignaturen kan erhållas genom metoder som är kända i fältet. US 2011/00993331 beskriver till exempel en metod för att analysera innehållet i en webbsida som innefattar användning av viktade ”page term vectors". Dokumentsignaturen kan baseras på, bland andra parametrar, frekvensen av ordet på webbsidan. Inte alla ord i det elektroniska dokumentet väljs för att skapa dokumentsignaturen. Nyckelord kan väljas baserat på exempelvis ”term frequencey-inverse document frequencey" (td.idf)-värde.
Sålunda kan förfarandet innefatta det ytterligare steget 100 att inledningsvis indexera samlingen av elektroniska dokument 1 för att skapa ett index 2 som skall användas av sökmotorn 3 med någon av de ovan beskrivna metoderna. lndexeringen resulterar i ett index som kan sökas med exempelvis de metoder som beskrivits ovan. Exempel på meto- der som kan användas vid indexering innefattar parsing, stemming, tillämpning av fone- tiska algoritmer och beräkning av sökordsvektorer och td.idf-värde.
När teman används, kan teman bestämmas bara för en språkversion av dokumentet, för att spara datorkraft och för att minimera hanteringen av indexet. Således kan indexering med hjälp av teman användas för endast en språkversion (tema-indexeringsspråk) av varje dokument. Metadata som beskriver temat för varje dokument kan dock nås av sökindex, även om en sökning görs på ett första språk som inte är temaindexeringsspråk.
Systemet 10 som implementerar metoden identifierar sedan, i steg 103, minst ett doku- ment för tillhandahållande för användaren.
Företrädesvis rangordnas dokumenten i samlingen av elektroniska dokument 1 utifrån relevans och dokumentet med den högst rankade relevansen identifieras i steg 103.
Alternativt kan en delmängd av de högst rankade dokumenten väljas och tillhandahållas för användaren i steg 103 - 105, som kan besluta att låsa det dokument som han eller hon föredrar.
C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 I den mest grundläggande versionen av uppfinningen tillhandahålls inte det så identifie- rade dokumentet (eller flertalet dokument när en rangordning tillhandahålls för använda- ren) för användaren (även om detta kan göras, se nedan). I stället väljs, i steg 104, en version av dokumentet på ett andra språk och tillhandahålls för användaren i steg 105.
Detta kan vara ett förvalt språk som användaren väljer när tjänsten används första gången. Alternativt kan användaren välja det andra språket från en lista över språk, där listan innefattar åtminstone två språk som dokumentet finns på. I\/led hänvisning till figur. 1, och som ett exempel; om det första språket är A, kan det andra språket vara B eller C.
Steg 104 kan lämpligen utföras av systemet genom att använda associationen från doku- mentet på det första språket till dokumentet på det andra språket. Åtminstone en del av det elektroniska dokumentet kan tillhandahållas till användaren, så att åtminstone några ord från det dokument som är den bästa träffen tillhandahålls och visas för användaren. Svaret kan innefatta en länk till dokumentet. Lämpligen tillhanda- hålls en lista över träffar, där den bästa träffen är högst upp på listan. När dokument i både första och andra språk tillhandahålls till användaren, kan båda dokumenten visas för användaren.
I ett utförande visas även dokumentet på det första språket för användaren. Detta under- lättar kommunikationen när användaren behöver diskutera något med till exempel en immigrationsrådgivare, eftersom båda parter då kan få tillgång till dokumentet på hans (eller hennes) språk.
Uppfinningen hänför sig också till ett system 10 för att utföra metoden. Systemet omfattar en samling av elektroniska dokument 1, indexeringsmotor 2 och sökmotor 3. Systemet kan också innefatta ett gränssnitt 4. En schematisk bild av systemet ses i figur. 3.
Dokumenten i samlingen av elektroniska dokument 1 indexeras av indexeringsmotorn 2 som även omfattar index som frågas av sökmotorn 3. lndexeringsmotorns 2 utför parsing och indexering av de elektroniska dokumenten och tillämpar den fonetiska algoritmen på C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 10 dokumenten i samlingen av elektroniska dokument 1 och producerar ett index som kan sökas av sökmotorn 3. Detta sker en gång när insamling av elektroniska dokument 1 upprättas, men även om och när nya elektroniska dokument läggs till samlingen 1.
Metoden är tänkt att utföras av programvara. Samlingen av elektroniska dokument 1 kan exempelvis vara en databas som körs på en server, till exempel en RavenDB databas.
Sökmotorerna Solr eller DataparkSearch, som har öppen källkod, kan användas för indexe- rings- och sökningsstegen (steg 103) som implementeras av indexeringsmotorn 2 och sökmotorn 3. De här beskrivna metoderna kan emellertid implementeras i vilken lämplig process- eller programmeringsmiljö som helst, och utföras av mjukvara, hårdvara eller båda. Metoden kan implementeras av mjukvara lagrad i ett minne, såsom ett halvledar- minne eller en hårddisk och exekveras av en processor.
Det är föredraget att systemet 10 drivs på en eller flera servrar som kan nås av en klient 6 via ett kommunikationsnätverk 5 såsom internet. Klienten 6 är en datorenhet med en skärm och inmatningsorgan såsom exempelvis ett tangentbord eller en tryckkänslig skärm.
Exempel på datorenheter inkluderar datorer, pekdatorer och smartphones.
Elektroniska dokument kan nås av klienten 6 genom sökmotorn 3 eller direkt via gränssnit- tet 4.
Företrädesvis kan tjänsten nås via en smartphone, till exempel genom en app eller via en webbläsare. Användaren kan mata in sökord med hjälp av inmatningsmedel och skärm på klienten 6. Sökordet skickas sedan till systemet 10 genom nätverket 5 och systemet 10 utför stegen 101, 102, 103, 104 och 105 i metoden och skickar sedan svaret till klienten 6, så att användaren kan läsa svaret på skärmen på enheten.
Systemet kan innefatta ett gränssnitt 4. Gränssnittet skickar och tar emot information till och från klienten och till och från sökmotorn 3. Gränssnitt kan till exempel vara en front end webbserver, exempelvis en HTM L5 server, vilket ger ett mycket effektivt sätt att tillhandahålla en tjänst som kan nås via en webbläsare som Safari eller Chrome på en C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 11 smartphone. Gränssnittet 4 kan till exempel också vara gränssnitt för en app som körs på klienten 6, så att appen kommunicerar med gränssnittet 4. Även om gränssnittet 4 kan vara viktigt för att klienten 6 ska få tillgång till tjänsten 6 är den inte nödvändigtvis en del av systemet 10.
I det följande visas ett exempel på hur uppfinningen kan användas. Tabell 1 visar ett exempel på ett schematiskt index för en samling av fyra dokument (dokument 1-4).
Dokumenten finns i tre språkversioner i samlingen av elektroniska dokument 1, som framgår av figur. 4; en engelsk version, en svensk version och en tysk version.
Document Document 1 Document 2 Document 3 4 police police residence permit police emergency police work permit police ambulance police citizenship police fire emergency admission call 112 call 112 training Tabell 1.
Dokument 1 är en hemsida om räddningstjänsten och innehåller ordet "ambulance" och "fire" och "police" (tre gånger) och det europeiska larmnumret 112.
Dokument 2 är en hemsida från det lokala poliskontoret och innehåller ordet "police" tre gånger och ordet "emergency" och larmnumret 112.
Dokument 3 är en hemsida från den lokala migrationsmyndigheten och innehåller inte ordet "police".
Dokument 4 är en hemsida hos den lokala polishögskolan om antagning till den lokala polishögskolan och innehåller ordet "police" tre gånger.
C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 30 12 Under indexering har den fonetiska algoritmen tillämpats och orden ”police” kodas som "polis", eftersom "ce" ersätts med S med denna fonetiska algoritm. För tydlighetens skull visas indexet före tillämpning av fonetisk algoritm.
I detta exempel kommer indexering att ske på basis av förekomsten av närvaron av orden och även av dokumentens tema. Dokument 1 och 2 kommer att grupperas tillsammans och dela samma tema i indexet eftersom de delar tre sökord ("polis", "akuta" och "ring 112"). Såsom diskuterats ovan kan detta utföras med statistiska metoder. Dokument 1, 2 och 4 kommer att indexeras som innehållande ordet "polis" (en gång för dokument 1 och tre gånger för dokument 2 och 4).
I detta exempel befinner sig en person som inte har engelska som sitt modersmål i ett engelsktalande land. Denne behöver kontaktinformation till den lokala polisen. Han tar fram sin klient 6, exempelvis en smartphone, och når tjänsten via en webbläsare på sin smartphone. Tjänsten implementerar förfarandet enligt uppfinningen. Således, i det här fallet, år gränssnittet 4 en webbserver som möjliggör visning av en webbsida på skärmen på klienten 6. Webbsidan har en inmatningsruta 7 där användaren kan mata in sökordet.
Han skriver in ordet "poliz" (felstavning av "police") i en sökruta 7 på webbsidan och väljer engelska som sökspråk. Således, i detta exempel, är engelska det första språket. I detta fall vill han utföra sökningen på engelska, men dessutom vill han ha information på sitt modersmål (som råkar vara svenska). Han väljer därför svenska som sitt andra språk.
Klienten 6 äri kontakt med gränssnittet 4 som i detta fall är en webbserver 4 som i sin tur sänder förfrågan till sökmotorn 3 (steg 101 i Fig. 2). Sökmotorn 3 tillämpar den fonetiska algoritmen på sökfrågan genom att byta ut Z i poliz mot ett S. Således kommer sökmotorn 3 att söka efter dokument som har ordet "polis" (steg 102 i figur 2).
Steg 103 genomförs enligt följande i detta exempel. I indexet för samlingen av elektro- niska dokument 1 finns det tre dokument på engelska som innehåller den fonetiska C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE 10 15 20 25 13 motsvarigheten till "police" (Dokument 1, 2 och 4) och ett som inte innehåller ordet "po|ice"(Dokument 3). Vidare innehåller dokument 2 och 4 vartdera ordet "polis" lika många gånger (tre gånger). Dokument 2 delar flera sökord med dokument 1 ("emergency" och "call 112"), medan dokument 4, som handlar om tillträde till den lokala polishögsko- lan, delar inga nyckelord med dokument 1. Därför, i valet mellan dokument 2 och 4 (som båda har nyckelordet lika många gånger), rankas dokumentet 2 högre än dokument 4 eftersom det är grupperat tillsammans med ett annat liknande dokument (dokument 1), där likheten är baserad på antalet gemensamma nyckelord. Därför, i steg 103, identifieras dokument 2 i detta exempel. Således, i det här fallet rangordnades dokumenten baserat på förekomsten, i dokumentet, av ett nyckelord vars fonetiska version matchar en fonetisk version av sökordet i dokumenten och även dokumentens tema.
I nästa steg 104 väljer systemet 10 den svenska versionen av dokumentet 2 eftersom svenska valdes som andra språk. I steg 105 tillhandahålls den svenska versionen av Doku- ment 2 till gränssnittet 4 som visar Dokument 2 på svenska i klientens 6 webbläsare.
Signaler för genomförandet av metoden kan överföras via internet, genom ett kabelnät- verk såsom Ethernet, eller via ett trådlöst nät, såsom exempelvis ett Wi-Fi-nätverk eller ett trådlöst bredbandsnät.
Systemet och/eller metoden kan implementeras åtminstone delvis via en datorprogram- produkt, det vill säga en dator produkt för exekvering av en databehandlingsanordning, t.ex. en programmerbar processor hos en eller flera datorer. Ett datorprogram kan lagras på ett lagringsmedium (t.ex. ett halvledarminne, en hårddisk eller en cd-rom).
C:\Users\yvjo\Desktop\140922 Översättning av ansökan .docx, 2014-11-13 130054SE

Claims (16)

10 15 20 25 30 14 iFATENTKRAV
1. En datorirnpierttenterati dokiimentiniiärntriingsrnetord irtnefattarttte stegen att: a) tiiiåta en användare att mata in ett sökord på ett forsta spraitf, b) tiiiärripa en fonetisit algoritm på sökordet, så att en fonetisk version av sökordet ernaiis, c) använda utdata från steg b) for att utföra en söitning i ett fiertai eiektroniska dokument på det första språket där nämnda sökning identifierar det mest reievanta dokumentet baserat på den fonetiska versionen av sökordet, d) vaiia ett översatt dokument som representerar dokumentet identifierat i steg c), översatt tiii ett andra språk, e) tiiiiiarttïiaiiåiia ett svar tiii användaren, innefattaritte det översatta ciokurrieittet.
2. Metod enligt krav 1,, där, dessutom, dokumentet på det första språket som irieritifierats i steg c.) innefattas i svaret tili användaren.
3. Metod eniigt något av kraven 1-2, där steg c) innefattar steget att rangordna dokument baserat på förekomsten, i dokurnentet, av ett ord, vars fonetiska version svarar mot den fonetiska versionen av sökordet i dokumenten. fi.
4. Metod eriiigt något av kraven 1-2, där steg c) irinefattar steget att rangordna dokument baserat på förekomsteri, i dokumenten, av en syrionyrn tiii den fonetiska versionen av sö ko rdet.
5. Metod eniigt itågot av kraven 1-2, dar steg c) innefattar steget att rangordna dokuinent baserat på dokumentens tema, där teman bestäms utifrån en statistisk modeii.
6. Metod eniigt krav 5, där den statistiska modeiien bestämmer dokumentens terna genom att i) identifiera ett antai nvckeiord som finns i aiia dokument, ii) kiustra dokument som i stor titstrëckriirig har samma riyttkeiturd.
7. C:\Users\yvjo\Desktop\140922 Översättning av ansökan .doc><, 2014-11-13 130054SE 10 15 20 25 30 15 'L Metod eniigt krav 6, där' antalet rtyckeiord är från 109 tiii 1000.
8. Metod eniigt något av patentkraven í-Z, där steg ti) irinefattar steget att ra ngordria doknrrient i) baserat på den metod som beskrivs i krav 3, ii) baserat på den metod som beskrivs i krav 4, rich iii) baserad på den metod som beskrivs i något av kraven 5-7 där var och en av i), ii) och iii) bidrartiii rangordningen.
9. Metod eniigt krav 8, där var och en av i), ii) och iii) är tiiideiade en egen viktning. 1G.
10. Metod eriiigt något av kraven 1 tiii 9, där rtärnntia fiertai elektroniska dokurnent är en fördefinierad sarniing av eiektroniska dokument. 1.1.
11. Metod eniigt krav lt), dar antaiet dokument år mindre än ttifší) OÛG.
12. ivietod eitiigt något av kraven 1 tiii 11, där åtminstone två av de eiektroniska doku» menten finns närvarande i ett första språk och ett andra språk.
13. Fortfarande eniigt något av kraven 1 tiii 12, innefattande det ytterligare steget, att, före steg; a), utföra indexering av sarniirigert av eiektrortiska ciokurriertt.
14. Förfarande eniigt krav 1.3, där irtdexeringssteget innefattar användning av en 'ionetisk aigoritrn.
15. Ett systern för innånttniitg av eiektroniska dokument, varvid nämnda system 1G inne~ fattar åtminstone en dator, en fördefinierad sarniing av eiektroniska dokument 1, en indexeršngsntotor' 2, och en sökmotor 3, varvid rtâ-imnda system är i stånd att trtföra metoden eniigt något av patentkraveat 1 tiii 14. C:\Users\yvjo\Desktop\140922 Översättning av ansökan .doc><, 2014-11-13 130054SE 16
16. En artikel šnswefattande ett näaskšswíäsbart aneciiunw som iagrar exekverbara änstruktion» är för att söka after ett eißktronâskt dokument E en samšing av eiektroniska dokument, där den exekverbara instruktionen orsakar en maskin att Latföra förfarandet enligt något av kraven 1 tEEi 14. C:\Users\yvjo\Desktop\140922 Översättning av ansökan .doc><, 2014-11-13 130054512
SE1450148A 2014-02-11 2014-02-11 Sökmotor med översättningsfunktion SE1450148A1 (sv)

Priority Applications (4)

Application Number Priority Date Filing Date Title
SE1450148A SE1450148A1 (sv) 2014-02-11 2014-02-11 Sökmotor med översättningsfunktion
PCT/EP2015/052885 WO2015121309A1 (en) 2014-02-11 2015-02-11 Translating search engine
US15/117,850 US20170052966A1 (en) 2014-02-11 2015-02-11 Translating search engine
CA2938254A CA2938254A1 (en) 2014-02-11 2015-02-11 Translating search engine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE1450148A SE1450148A1 (sv) 2014-02-11 2014-02-11 Sökmotor med översättningsfunktion

Publications (1)

Publication Number Publication Date
SE1450148A1 true SE1450148A1 (sv) 2015-08-12

Family

ID=52484467

Family Applications (1)

Application Number Title Priority Date Filing Date
SE1450148A SE1450148A1 (sv) 2014-02-11 2014-02-11 Sökmotor med översättningsfunktion

Country Status (4)

Country Link
US (1) US20170052966A1 (sv)
CA (1) CA2938254A1 (sv)
SE (1) SE1450148A1 (sv)
WO (1) WO2015121309A1 (sv)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4066600B2 (ja) * 2000-12-20 2008-03-26 富士ゼロックス株式会社 多言語文書検索システム
US7310605B2 (en) * 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
US7412441B2 (en) * 2005-05-31 2008-08-12 Microsoft Corporation Predictive phonetic data search
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US7925498B1 (en) * 2006-12-29 2011-04-12 Google Inc. Identifying a synonym with N-gram agreement for a query phrase
US9317593B2 (en) * 2007-10-05 2016-04-19 Fujitsu Limited Modeling topics using statistical distributions
US7984034B1 (en) * 2007-12-21 2011-07-19 Google Inc. Providing parallel resources in search results
US20120278302A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Multilingual search for transliterated content
US8918308B2 (en) * 2012-07-06 2014-12-23 International Business Machines Corporation Providing multi-lingual searching of mono-lingual content

Also Published As

Publication number Publication date
WO2015121309A1 (en) 2015-08-20
US20170052966A1 (en) 2017-02-23
CA2938254A1 (en) 2015-08-20

Similar Documents

Publication Publication Date Title
US8370334B2 (en) Dynamic updating of display and ranking for search results
JP5379696B2 (ja) 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
US9195640B1 (en) Method and system for finding content having a desired similarity
US10552539B2 (en) Dynamic highlighting of text in electronic documents
CN109564573B (zh) 来自计算机应用元数据的平台支持集群
US10552467B2 (en) System and method for language sensitive contextual searching
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
US20060173886A1 (en) Systems, methods, software, and interfaces for multilingual information retrieval
US20090210404A1 (en) Database search control
US10936667B2 (en) Indication of search result
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
US8082240B2 (en) System for retrieving information units
CN109299238B (zh) 一种数据查询方法和装置
WO2013147236A1 (ja) 専門家評価情報管理装置
O’Neill et al. Using authorities to improve subject searches
Leveling et al. On metonymy recognition for geographic information retrieval
KR101505673B1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
Bussmann et al. MathSciNet: A comparative analysis of American Mathematical Society and EBSCO platforms
JP2012208775A (ja) 検索方法、検索装置、ならびに、コンピュータプログラム
US11150871B2 (en) Information density of documents
SE1450148A1 (sv) Sökmotor med översättningsfunktion
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
AU2017232064B2 (en) Systems, methods, software, and interfaces for multilingual information retrieval
KR20170086386A (ko) 콘텐츠를 추적하는 방법 및 이를 사용하는 전자 장치
Liu et al. An improved full-text retrieval for elementary education resource database system

Legal Events

Date Code Title Description
NAV Patent application has lapsed