SE517005C2

SE517005C2 - Segmentering av text

Info

Publication number: SE517005C2
Application number: SE0002034A
Authority: SE
Inventors: Eva Ingegerd Ejerhed
Original assignee: Hapax Information Systems Ab
Priority date: 2000-05-31
Filing date: 2000-05-31
Publication date: 2002-04-02
Also published as: SE0002034L; US6810375B1; SE0002034D0; DE60137935D1; AU2001262852A1; ATE425500T1; EP1305738A1; WO2001093088A1; EP1305738B1

Description

25 30 35 517 005 o--en o non- » « o o 1 noen.. u oo 2 En principiell anledning till varför syntaxanalysteknologi inte lyckas med att àstadkomma den noggrannhet som krävs för storskaliga tillämpningar pà fri text är den välkända observationen inom området att syntaxanalysatorernas prestanda försämras när längden pà inmatade meningar ökar. Detta beror pá att syntaxanalysatorer riktar in sig på hela meningar som de_ enheter som skall syntaxanalyseras. Alltefter längden pà en mening ökar, ökar även den kombinatoriska explosionen av alternativa sätt att kombinera de vàlformade delsträngarna av en mening som syntaxanalysatorn har hittat.

För att man skall förbättra täckningen och noggrannheten hos syntaxanalysatorer för fri text, har en ny söndra-och-härska-strategi framkommit. Strategin involverar användningen av enkla syntaxanalystekniker med tillstàndsautomat i en fas som är förberedande för_ 'riktig' syntaxanalys, vilken använder med komplexa tekniker. Syftet med det förberedande steget är att text skall delas in fullständigt i en sekvens av enheter som kallas för ordsekvenser ("chunks") eller segment, i syfte att underlätta och förbättra senare behandling.

Satssegmentering häller pà att framträda som ett erkänt problemområde. Bland praktiserande inom området finns det emellertid ingen enighet avseende definitionen av de satser som satssegmenteringen skall resultera i eller avseende terminologi. Enheter som är satser eller 'satslika' har många olika benämningar.

För diskussionen i detta bakgrundsavsnitt är en enkel sats en informationsenhet som ungefär motsvarar en enkel proposition eller ett faktum. Dagens informationsàtervinningsteknik är inte baserad på satser såsom informationsenheter som kan användas i snabbt skapande av databaser av rapporterade fakta som innefattar agenter och handlingar av intresse för slutanvändare av informationssystem. En viktig motivering till satssegmentering är att den möjliggör automatisk 10 15 20 25 30 35 ._- v»| . nu . n. ,, I. 5.17 Û()5 gi: :won-n n n u nouu~ø 3 igenkänning av grundläggande satsdelar inom satser (subjekt, objekt, etc). Tack vare detta gör satssegmentering det möjligt för senare processer att fastställa vilka textpartier som uppvisar lexikal, konstruktionsmässig och semantisk informationsparallellitet_ Existerande förfaranden för identifiering av satser och segmentering av text i satser är beroende av att fraser först hittas inom meningar, såsom nominalfraser och andra fraser, innan satsenheter hittas inom meningar.

När satsenheter har hittats, gör de det möjligt att fastställa satsgränser, d v s var en sats böjar och slutar.

I Nelson, W. & Kucera, H., "Frequency Analysis of English Usage", 1982, Houghton Mifflin Company, Boston, s 549-556, i det följande kallad Nelson&Kucera-1982, använde Kucera en tillstándsautomat för att hitta verbgrupper i en text taggad med ordklasser i Brown- korpusen, och för klassificering av verbgrupper som finita och icke-finita. En verbgrupp är finit om den innehåller ett verb i presens eller imperfekt. En verbgrupp är icke-finit om den inte innehåller något böjt verb, d v s om det bestàr av ett infinitiv eller ett presens eller perfekt particip. I traditionell och modern grammatik är man i allmänhet överens om att en verbgrupp implicerar en predikation, ekvivalent en sats, och att finita och icke-finita predikationer är syntaktiskt skilda, men besläktade typer av predikationer.

Nackdelen med Kuceras tillstàndsautomat från 1982 är att den inte tar itu med problemet med identifiering av platserna för gränser mellan predikationsenheterna, d v s det är inte en metod som segmenterar text i predikationsenheter. Även om ett senare patent med (US- patentskriften nr 4 864 502) indirekt lokaliserar benämningen "Sentence analyzer" (Kucera et al) satsgränser, är denna teknik främst baserad pà att först 10 15 20 25 30 35 517 005 4 hitta fraser inom meningar, följt av identifiering av satser och därefter av satsgränser.

Andra tekniker som analyserar meningar internt först, innan satsgränser lokaliseras, är kända, exempelvis: Greffenstette, G. "Light parsing a finite (Ed), Extended Finite State models of Language, 1999, Cambridge University Press, Cambridge, U.K., s 86-94; "Text chunking using transformation-based learning", i state filtering", i A. Kornai och Ramshaw, L. & Marcus, M., Proceedings to the Third Workshop on Very Large Corpora, D. Yarowsky, &K. Church, Eds, juni 1995, M.I.T., Cambridge, Massachusetts, s. 82-94. Dessa tekniker använder märkningstransduktorer med ändligt antal tillstànd pà text som taggats med ordklasser som indata.

Märkningstransduktorerna märker bàde intilliggande substantivgrupper och intilliggande verbgrupper i utdata.

En mening är implicit jämställd med en predikation som anses vara en kombination av en verbgrupp men en eller flera substantivgrupp.

Ett allvarlig problem med angreppssättet är att det ger dåliga resultat för meningar som består av flera satser. Anledningen till detta är att gruppmärkningstransduktorer typiskt inte känner igen meningsinterna satser som satsenheter.

Det finns andra kända tekniker för satssegmentering beskrivna i: Ejerhed, E., "Finding clauses in unrestrikted text by finatary and stochastic methods", i Second Conference on Applied Natural Language Processing, 1988, ACL, Austin, Textas, s 219-227, S. P., Rapid incremental parsing with repair", i Proceedings of the 6th New OED Conference, 1990, s 1-9. För Ejerheds och Abneys och i Abney, Waterloo, Ontario, University of Waterloo, tekniker består indata till igenkänningen av satser av text som är taggad med ordklasser, i vilken även enkla nominalfraser har känts igen genom probabilistiska tekniker sàsom beskrivs i US-patentskriften nr 5 146 405 (Church). Ett problem för båda dessa tekniker är 10 15 20 25 30 35 517 5.2 :"§ 'III 7- -ï 5 följande. Om igenkänningen av en enkel nominalfras inte är korrekt, kan detta resultera i ett fel i satssegmentering. Om en lång nominalfras som har känts igen egentligen skulle ha analyserats som tvâ nominalfraser, är exempelvis en möjlig satsgräns oátkomlig.

Inom ramen för Constraint Grammar finns det också en modul för detektering av meningsinterna satsgränser som beskrivs i Karlson et al, "Constraint Grammar: A language independent system for parsing unrestricted text", 1995, s 1-430. Författarna 238) att mekanismen för identifiering av meningsinterna Mouton de Gruynter, Berlin/New York, rapporterar emellertid (pà sidorna 213, satsgränser är problematisk och ganska osofistikerad och som ett resultat av detta mäste de andra modulerna inom denna grammatikmodell till stor del klara sig utan den.

Sammanfattning av uppfinningen Ett syfte med föreliggande uppfinning är tillhandahållande av ett förbättrat förfarande för satsgränsdetektering och segmentering av fri text i satser, vilket inte är föremål för nackdelarna med existerande förfaranden för dessa uppgifter.

Uppfinningen är baserad pà insikten att fri text kan segmenteras i initiala satser med användning av ett förfarande vars antal beräkningar endast ökar linjärt med antalet textelement i texten som skall segmenteras.

Vidare ger det föreslagna förfarandet enligt uppfinningen, trots sitt begränsade antal beräkningar, upphov till en segmentering i initiala satser vilken är förvånansvärt användbar i tillämpningar såsom automatisk extrahering av information fràn fri text med användning av en dator.

Enligt en aspekt av uppfinningen tillhandahålls ett förfarande för segmentering i en eller fler initiala satser av en sekvens av textelement som innefattar analyserade löpord. Enligt förfarandet avsöks ett i 10 15 20 25 30 35 517 005 "_ uno-nu o 1 ouunvo 6 förväg bestämt antal på varandra följande textelement av sekvensen av textelement, med början från en given position. Det i förväg bestämda antalet på varandra följande textelementen jämförs med varje mönster av en uppsättning mönster för början av initiala satser. Om nämnda i förväg bestämda antal på varandra följande textelement matchar ett mönster av nämnda uppsättning mönster för början av initiala satser, identifieras vidare en början av en initial sats i nämnda i förväg bestämda antal på varandra följande textelement.

Avsökningen, jämförelsen och identifieringen upprepas sedan, varvid den givna positionen flyttas åtminstone en position framåt mellan varje repetition.

Genom att den givna positionen flyttas åtminstone en position framåt mellan varje repetition, ökar antalet gånger som avsökningen, jämförelsen och identifieringen görs linjärt med antalet textelement i sekvensen av textelement som skall segmenteras. Vidare har det visats att segmenteringen, som är resultatet av förfarandet enligt uppfinningen, underlättar efterföljande, automatiserad informationsextrahering från fri text i en grad som tidigare inte väntats vara möjlig med sådana förfaranden. Detta beror på insikten om det empiriska faktumet att en satsbörjans lokalisering i vilket språk som helst kan fastställas på basis av iterativ inspektion av ett i förväg bestämt antal på varandra följande textelement. Antingen innehåller de i förväg bestämda textelementen en sekvens som är en satsbörjan enligt en kort språkspecifik lista över sådana sekvenser, eller så gör de inte det. Vidare beror detta också på erkännandet av fördelningsmässiga fakta: inom satser finns det många och starka restriktioner på samförekomster av innehållsord, medan det över satsgränser finns färre och svagare restriktioner pà samförekomster av innehållsord.

Av denna anledning uppfyller en initial sats kravet att vara en maximalt oberoende behandlingsenhet. Detta kan 10 15 20 25 30 35 517 005 o o uuoouø 7 utnyttjas av en inkrementell modell för analys av meningar baserad pà uppfinningen.

Ett särskiljande drag hos förfarandet enligt uppfinningen är att det reverserar ordningsföljden som används i all känd teknik där man först gör meningsintern syntaxanalys innan satser och satsgränser igenkänns.

Istället känner förefarandet enligt uppfinningen först igen satsgränserna i text som endast har taggats med ordklasser och inte syntaxanalyserats, därefter görs satsintern syntaxanalys. Denna reversering av ordningsföljden i behandlingsstegen förbättrar noggrannheten och robustheten hos satsgränsdetekteringen i det att beroendet av tidigare behandlingssteg minimeras. Reverseringen manifesteras i det att indata till förfarandet enligt uppfinningen är en sekvens av textelement som innefattar analyserade löpord. Således är för-analysen av en fri text som ger upphov till sekvensen av textelement begränsad till en analys på individuell löpordsnivä, inklusive interpunktionstecken.

Ett annat särskiljande drag hos uppfinningen är att satsgränserna som igenkänns tidigt i en sekvens av textanalyssteg är gränser för de lingvistiska enheter som här benämns initiala satser. Initiala satser har egenskapen att de är icke-rekursiva.

I en utföringsform av förfarandet enligt uppfinningen infogas en markering för början av en initial sats i nämnda i förväg bestämda antal på varandra följande textelement som svar pà en identifierad början pà en initial sats i steget att identifiera. Detta har fördelen att det förenklar senare analys av den segmenterade texten. Det skall emellertid märkas att vilken annat sätt som helst att indikera satsgränserna i den segmenterade texten, såsom att man har en pekare som pekar pà platser för början pà initiala satser, är lika användbar.

Vidare är varje mönster av nämnda uppsättning mönster i utföringsformen ovan företrädesvis associerad 10 15 20 25 30 517 005 -Qanoa u uaonf.. u - ~ ooøouc 8 med en àtgärd, och markören för början av initial sats infogas i det i förväg bestämda antalet pà varandra följande textelementen i enlighet med åtgärden som är associerad med mönstret som det i förväg bestämda antalet pà varandra följande textelementen matchar. Vidare fastställer åtgärden företrädesvis i vilken position av de i förväg bestämda antalet på varandra följande elementen markören för början av initial sats skall infogas.

För ytterligare förenkling av efterföljande analys av den segmenterade texten som är resultatet fràn förfarandet enligt uppfinningen, innefattar en utföringsform av uppfinningen indikationen, för varje markör för början av initial sats, av vilket mönster av nämnda mönster för början av initial sats som gav upphov till infogandet av markören.

Enligt en annan utföringsform av uppfinningen utförs en ytterligare uppsättning steg för var och en av de initiala satserna. Enligt denna utföringsform genomsöks textelementen för varje initial sats och jämförs med varje mönster av en uppsättning mönster med multipla finita verb. Om textelementen i en initial sats matchar ett mönster med multipla finita verb, identifieras en början pà en initial sats i textelementen i denna initiala sats. Denna utföringsform av uppfinningen förbättrar den resulterande segmenterade texten ytterligare i användbarhetssynpunkt i efterföljande, automatiserad informationsextrahering från fri text och liknande.

Förfarandet för satssegmentering enligt uppfinningen kan användas direkt för förbättring av hastigheten och noggrannheten för meningsbehandling i textanalyssystem för fri text. 10 15 20 25 30 35 517 005 o.-.~. - . u.. »- ~ - - -1 .- .I" _.

. ' Q ~ a ~ --Q -nano- v . . n-.u-1 9 Kort beskrivning av ritningarna I det följande àskádliggörs föreliggande uppfinning med hjälp av exempel, och inte som en begränsning, med hänvisning till bifogade ritningar, på vilka: Fig. 1A och 1B är flödesscheman vilka tillsammans visar ett förfarande för segmentering av text i initiala satser (i-satser) ("i-clauses") i enlighet med en utföringsform av uppfinningen; Fig. 2 visar platserna för steget att segmentera text i initiala satser (i-satser) i en sekvens av textanalyssteg; Fig. 3A och 3B visar exempel pà regler som används i steget att segmentera engelsk text i initiala satser (i- satser); Fig. 4A-4D visar härledningen av i-satssegment för en första engelsk exempelmening utan självinbäddning, varvid textanalyssteg och regler som tillämpas visas; Fig. 5 visar den första härledningen av i- satssegment för den första exempelmeningen, varvid iterativ avsökning och regeltillämpning visas; Fig. 6 är en graf som visar i-satssegmenten för den första exempelmeningen som är resultatet av utförande av 1A; Fig. 7A-7D visar härledningen av i-satssegment för stegen i Fig. en andra engelsk exempelmening med självinbäddning, varvid textanalyssteg och regler som tillämpas visas; Fig. 8 visar härledningen av i-satssegment för den andra exempelmeningen, varvid iterativ avsökning och regeltillämpning visas; Fig. 9 är en graf som visar i-satssegmenten för den andra exempelmeningen som är resultatet av utförande av 1A; Fig. 10A-l0F visar härledningen av i-satssegment för stegen i Fig. en tredje engelsk exempelmening, varvid textanalyssteg och regler som tillämpas visas; 10 15 20 25 30 35 . . n. . . . . . . . .' .". .a " " ~ *- . f . - » - , , _ g :v u f u . o« uno oc u u , ' o nu n 1 a p , . ' 0 0 . . . . ,, . ~ uvouqq 10 Fig. ll visar härledningen av i-satssegment för den tredje exempelmeningen, varvid iterativ avsökning och regeltillämpning visas; Fig. 12 är en graf som visar i-satssegmenten för den tredje exempelmeningen som är resultatet av utförande av 1A och lB; 13 visar ett schematiskt diagram för en stegen i Fig. och Fig. utföringsform av en anordning för segmentering av en sekvens av textelement som innefattar analyserade löpord i en eller fler initiala satser i enlighet med uppfinningen.

Detaljerad beskrivning av uppfinningen 1A och lB tillhandahåller ett detaljerat flödesschema för behandlingsstegen vid segmentering av Fig. text i initial satser i enlighet med en utföringsform av föreliggande uppfinning. Platsen för detta satssegmenteringssteg i ett exempel pà en större sekvens av textanalyssteg indikeras i Fig. 2 som steget 260.

I steget 110 matas en textkorpus, som har blivit lexikalt analyserad och disambiguerad, in i form av en sekvens av textelement som innefattar analyserade löpord.

Utöver löpord, inkluderar sekvensen av textelement unika taggar för ordklasser och böjning som är tilldelad varje löpord, inklusive skiljetecken, och den kan innefatta textstrukturmarkörer, såsom för början av mening och för slut pà mening.

I Fig. 1A bildar stegen 120-124 en slinga där textkorpusen segmenteras fullständigt i initiala satser.

I steget 120 avsöks ett i förväg bestämt antal k pá varandra följande textelement hos den inmatade sekvensen av textelement fràn en linjär position i till i+k. Termen linjär position som används i steget 120 i Fig. 1A hänvisar till den linjära positionen mellan löpord i en textkorpus. Exempelvis kan alla linjära positioner i en textkorpus numreras i följd fràn O till n. Det index som motsvarar en analyserad textkorpus kan tilldela platser 10 15 20 25 30 35 n o o o nu 517 ÛÛ5§.:=:::==-..-= m* ll till vilken enhet som helst av pà varandra följande element i en textkorpus. Enheterna kan vara enskilda fraser, element, initiala satser, meningar, till hela dokument. stycke, upp Platserna för en given enhet tillhandahålls av en uppsättning heltalspar, där varje heltalspar representerar ett intervall mellan de två linjära positionerna som enheten upptar i textkorpusen.

Uttrycket "mönsterdelen av en satsregel" i 121 i Fig. 1A hänvisar till en sekvens av löpord, inklusive skiljetecken som indikerar början pá en ny sats otvetydigt. kort, Satssegmenteringssteget 121 konsulterar en spràkspecifik lista med satsregler, av vilka belysande exempel ges i Fig. 3A. Varje regel har en mönsterdel som är ett diagnostiskt mönster för en satsbörjan och en associerad àtgärdsdel som indikerar positionen i vilken en satsgräns skall infogas.

Satsreglerna är lexikosyntaktiska mönster. De kan antingen referera till den individuella lexikala identiteten (lemma) för ett textelement i sekvensen, eller till den morfo-sytaktiska beskrivningen (ordklass + vilket är användbart för vissa funktionsord, böjningsinformation) för ett textelement, vilket är användbart för innehàllsord. Reglerna kan även referera till förekomsten av en textstrukturmarkör i en linjär position, sàsom för 'början av mening', 'början av stycke'. Om de i förväg bestämda antalet k pà varandra följande textelementen fràn linjär position i till linjär position i+k vilka avsökes i 120 matchar mönsterdelen av en satsregel i teststeget 121, markör för 'början av sats' indikeras av àtgärdsdelen av den matchande regeln. Om en sekvens av textelement från den linjära positionen i till den linjära positionen i+k som avsöks i 120 inte matchar vänsterledet hos någon satsregel i teststeget 121, görs ingen infogning. Efter testet i steget 121 och infogningen i steget 122 om den förekommer, utförs ett test i steget 123 om alla linjära positioner i den eller för infogas en i steget 122 i positionen som 10 15 20 25 30 35 517 005 . o nu om' o ou .u . u. u 1 uno-no 12 inmatade textkorpusen har testats. Om svaret är ja fortsätts processen i steget 125 i Fig. 1B. Om svaret är nej, flyttas avsökningsfönstret fram fràn i till i+1 i steget 124 till nästa linjära position i+1 och processen forstätter i steget 120. Pä detta sätt upprepas avsökningen och testningen till dess att alla linjära positioner i textkorpusen har testats. För att processen skall göras snabbare kan avsökningsfönstret flytas fram mer än en linjär position i steget 124.

I Fig. 1B utförs en uppsättning steg i syfte att förbättra segmenteringen av textkorpusen. Stegen 125-129 bildar en slinga i vilken alla initiala satser som hittas i stegen 120-124 i Fig. 1A segmenteras i en ny uppsättning initiala satser i enlighet med reglerna för multipla finita verb, av vilka regler belysande exempel ges i Fig. 3B. I steget 125 avsöks textelementen hos en initial sats, d v s textelementen från en markör ¿ för början av en initial sats i till en markör iﬂ_för början av en nästa initial sats i+1. Om textelementen hos den initiala satsen i som avsöks i 125 matchar mönsterdelen av en regel i teststeget 126, infogas en markör för 'början av sats' i steget 127 i positionen som indikeras av àtgärdsdelen av den matchande regeln. Om textelementen hos den initiala satsen i som avsöks i 125 inte matchar mönsterdelen av någon regel i teststeget 126, görs ingen infogning. Efter testet i steget 126 och infogningen i steget 127 om en sådan förekommer, utförs ett test i steget 128 om alla initiala satser har testats. Om svaret är ja, avslutas processen. Om svaret är nej, flyttas den initiala sats som skall avsökas fram fràn den initiala satsen i till nästa initiala sats i+1.

Pà detta sätt upprepas avsökningen och testningen till dess att alla initiala satser som är resultatet av stegen 120-124 i Fig. 1A har testats.

Det Fig. 2 visar är sekvensen av formbaserade textanalyssteg nedifrán och upp, i syfte att indikera positionen i denna sekvens av steg för segmentering av 10 15 20 25 30 35 n nu o I o n nu c n In _' ".,", ,' a. u n en u . v u - a u v V0 * , . n .u u .. a a n n 1 1 e n a I ' ,'..n- u. g o a Q e q ; n »o n n a n o . . . n n o a n. . . g v s u o " ' n n o av oo 13 text i initiala satser (i-satser) detaljbeskriven i Fig. 1.

Steget 210 i Fig. 2 innefattar inmatning av en textkorpus, sàsom en samling artiklar, dokument eller webbsidor. I steget 220 tilldelas den inmatade texten valfritt typografiskt motiverad textstruktur genom segmentering i en sekvens av styckeelement såsom, och . I steget 230 segmenteras sekvensen av tecken och mellanslag som utgör texten i diskreta löpord, vilka valfritt kan grupperas ytterligare i en sekvens av diskreta ortografiska meningar. Löpord innefattar vanliga ord, numeriska uttryck och skiljetecken. Igenkännandet av en ortografisk mening baseras på en sekvens av löpord som slutar med ett meningsavslutande skiljetecken. I steget 240, underkastas varje ord lexikal analys och tilldelas en uppsättning alternativa lexikala analyser i fallet tvetydiga ord, såsom det engelska ordet 'wind' i betydelsen substantivet vind, eller det engelska ordet 'wind' i betydelsen verbet vinda, eller en enda analys i fallet entydiga ord, såsom det engelska ordet 'from' i betydelsen prepositionen fràn. I steget 250, som kallas lexikal disambiguering (eller ordklasstaggning, eller endast taggning) fastställs en unik lexikal analys för varje löpord genom en statistisk process med trigramtaggning som väljer den mest sannolika lexikala analysen för varje löpord givet de tvà föregående löporden och deras lexikala analyser. En lexikal analys består minst av en beskrivning av ordklassen och böjningsform för löpordet (även kallat morfo-syntaktisk beskrivning), och löpordets lemma (även kallat grundform, eller uppslagsform). Utöver denna information kan en lexikal analys även innehålla annan information avseende ett löpord, såsom information avseende des uttal, dess interna morfologiska uppdelning och struktur och dess medlemskap i ekvivalensklasser med avseende på fördelning. Det skall märkas att detta endast är ett exempel på hur stegen som föregår förfarandet enligt 10 15 20 25 30 35 517 f: .: ¿. n o .- u . o o u an' n q annon- 14 uppfinningen utförs. Alternativa sätt att utföra dessa steg inses med lätthet av fackmannen.

Steget 260 i Fig. 2 är steget att segmentera i 1A och lB.

Det efterföljande steget 270 behandlar initiala satser initiala satser vilket visas i detalj i Fig. internt genom igenkànning och etikettering av fraser inom varje initial sats, medelst regelbaserade eller statistiska metoder, och steget 280 matar ut resultatet av stegen 210-270.

I det följande kommer för-analysen och segmenteringen enligt uppfinningen av tre exempelmeningar att beskrivas. Överallt i beskrivningen och pá ritningarna används ett antal förkortningar för Brown- korpustaggar. Dessa förkortningar är sàsom följer: CS = underordnande konjunktion, WDT = interrogativ WPS = interrogativt pronomen i grundform, RB = adverb, MD = modalt hjälpverb, NNS = substantiv i determinerare , pluralis, IN = preposition, NP = egennamn i singularis, VBD = verb, imperfekt, NN = substantiv i singularis, BE = vara, VBN = verb, perfekt particip, RBR = komparativt adverb, CC = samordnande konjunktion, BEZ = är, JJ = BER = är, VBG = verb, presens particip, VB = verb, grundform, PPSS = personligt adjektiv, AP = efter determinerare, pronomen, ej 3:e person singular, HV = ha, AT = artikel, BED = QL = PPO = personligt pronomen i PPS = possessivt personligt pronomen, var, bestämningsord, BEDZ = var, objektsform, WRB = interrogativt adverb, * = ej, , = komma, = punkt.

I Fig. 3A och 3B ges exempel pà regler. Reglerna i Fig. 3A är associerade med testet som görs i steget 121 i 3B är associerade med testet Fig. 1A och reglerna i Fig. som görs i steget 126 i Fig. IB. Varje regel i Fig. 3A och 3B år indelad i en mönsterdel i den vänstra kolumnen och en associerad àtgärdsdel i den högra kolumnen.

Mönsterdelen är en sekvens av textelement, där ett textelement antingen är ett löpord, någon information associerad med ett löpord, eller en textstrukturmarkör. X 10 15 20 25 30 35 517 005 -= n o v | | - oo 15 är en variabel som sträcker sig över löpord. Åtgärdsdelen definierar i vilken position av en sekvens av textelement som en markör för början av en sats skall infogas om en matchning med ett motsvarande mönster har gjorts. I Fig. 3A finns det två alternativ för reglerna l-6 vilka betecknas la-6a respektive lb-6b. Det första alternativet, d v s reglerna la-6a i Fig. 3A och regeln la i Fig. 3B, hänför sig till en regelbaserad metod för I detta fall bestäms positionen i vilken en markör för satsbörjan skall associering av åtgärder med regler. infogas om en matchning med ett motsvarande mönster har gjorts av en regel. Det andra alternativet, d v s 3B, hänför sig till en probabilistisk metod för associering av reglerna lb-6b i Fig. 3A och regeln la i Fig. åtgärder med regler. I detta fall bestäms den position som en markör för satsbörjan skall infogas i, om en matchning med ett motsvarande mönster har gjorts, i enlighet med sannolikheten för varje position att det finns en satsgräns i denna position på ett sådant sätt att den mest sannolika positionen väljs. Dessa sannolikheter indikeras under var och en av mönsterdelarna av reglerna lb-6b i Fig. 3A och regeln lb i Fig. 3B. Sannolikheterna kan erhållas med användning av bigram där frekvensen för närvaron av en satsgräns mellan två löpord har fastställts empiriskt. Bigram tar emellertid endast hänsyn till två ord när sannolikheterna beräknas, vilket i vissa fall inte är tillräckligt.

Således erhålls sannolikheterna företrädesvis med användning av n-gram, där n är 2 eller större. För n-gram tas inte endast hänsyn till de tvà löpord som ligger intill den möjliga satsgränsen vid fastställandet av sannolikheten för den möjliga satsgränsen, utan n på varandra följande löpord. Exempelvis skulle, när sannolikheten att det är en satsgräns mellan det första och andra löpordet i en sekvens av tre löpord erhålls med användning av trigram, det inte endast tas hänsyn till 10 15 20 25 30 35 517 005 usa: n Q n u n 16 det första och det andra löpordet utan även det faktum att det tredje löpordet kommer efter det andra löpordet. 4A-C, 5 och 6 tillhandahåller olika betraktelser av segmentering av en första exempelmening i Fig. initiala satser, vilken är ett exempel pà en flersatsmening på engelska utan självinbäddning.

I Fig. 4A och 4B visas den första exempelmeningen som den matas ut från för-analysstegen av tokeniseringen 230 respektive disambigueringen 250. Utdata från disambigueringen tjänar som indata till förfarandet som visas i flödesschemat i Fig. 1A.

I Fig. 4C och 4D visas den första exempelmeningen som den matas ut från förfarandet i Fig. 1A respektive reglerna som används för var och en av de resulterande initiala satserna.

Fig. 5 visar härledandet av i-satssegment för den första exempelmeningen, varvid iterativ avsökning och regeltillämpning visas. Varje rad i figuren motsvarar en iteration av stegen 120-124 i Fig. 1A. Varje gång textelementen på en rad matchar ett mönster i Fig. 3A indikeras detta med fetstil. På raden där en matchning har hittats indikeras även den resulterande infogningen av markör för satsbörjan i den position som fastställts av åtgärden som är associerad med det matchande mönstret. Exempelvis matchar sekvensen av textelement ' Officials' på första raden regel 1 i Fig. 3A, och åtgärden som är associerad med denna regel är infogande av markören för satsbörjan mellan 'Officials'. 6 är en graf som visar satssegmenten för den textelementen '' och Fig. första exempelmeningen vilka är resultatet av utförande av stegen i Fig. 1A. 7A-7D, 8 och 9 tillhandahåller olika betraktelser av segmentering av en andra exempelmening i Fig. initiala satser, vilken är ett exempel på en flersatsmening på engelska med självinbäddning. 10 15 20 25 30 35 o u. :nu g o n o n n , , ﬁ oo nu g. 517 Û05š¿?¿šíä,:mﬂ_,¿ä¿ 17 I Fig. 7A och 7B visas den andra exempelmeningen som den matas ut från för-analysstegen av tokeniseringen 230 respektive disambigueringen 250. Utdata frän disambigueringen tjänar som indata till förfarandet som visas i flödesschemat i Fig. 1A.

I Fig. 7C och 7D visas den andra exempelmeningen som den matas ut från förfarandet i Fig. 1A respektive reglerna som används för var och en av de resulterande initiala satserna.

Fig. 8 visar härledandet av i-satssegment för den andra exempelmeningen, varvid iterativ avsökning och regeltillämpning visas. Varje rad i figuren motsvarar en iteration av stegen 120-124 i Fig. 1A. Varje gäng textelementen pä en rad matchar ett mönster i Fig. 3A indikeras detta med fetstil. Pä raden där en matchning har hittats indikeras även den resulterande infogningen av markör för satsbörjan i den position som fastställts av åtgärden som är associerad med det matchande mönstret. Exempelvis matchar sekvensen av textelement ' Many' pà den första raden regel 1 i Fig. 3A, och åtgärden som är associerad med denna regel är infogande av markören för satsbörjan mellan textelementen '' och 'Many'. Vidare matchar textelementet 'who' på första raden regel 4 i Fig. 3A och åtgärden som är associerad med denna regel är infogning av markören för satsbörjan före textelementet 'who'.

Fig. 9 är en graf som visar satssegmenten för den andra exempelmeningen vilka är resultatet av utförande av stegen i Fig. 1A. 10A-F, 11 och 12 tillhandahåller olika perspektiv pà segmenteringen av en tredje exempelmening i Fig. initiala satser, vilken är ett exempel pá en flersatsmening på engelska.

I Fig. 10A och 10B visas den tredje exempelmeningen som den matas ut fràn för-analysstegen av tokeniseringen 230 respektive disambigueringen. Utdata fràn 10 15 20 25 30 35 517 005 18 disambigueringen tjänar som indata till förfarandet som visas i flödesschemat i Fig. 1A.

I Fig. lOC och 10D visas den andra meningen som den matas ut från förfarandet i Fig. 1A respektive reglerna som används för var och en av de resulterande initiala satserna. Utdata som visas i Fig. 1OC tjänar som indata till förfarandet som visas i Fig. 1B.

I Fig. 1OE och 1OF visas den andra meningen som den matas ut fràn förfarandet som visas i flödesschemat i Fig. 1B respektive reglerna som används för var och en av de resulterande initiala satserna.

Fig. ll visar härledandet av i-satssegment för den andra exempelmeningen, varvid iterativ avsökning och regeltillämpning i enlighet med stegen 125-129 i Fig. 1B visas. Varje initial sats som hittas i stegen 120-124 i Fig. 1A visas tillsammans med resultatet av matchningen av textelementen hos varje initial sats med mönsterdelarna av reglerna för finita verb i Fig. 3B.

Exempelvis visar det sig att den tredje initiala satsen , som hittats i stegen 120-124, matchar regeln la för finita verb i Fig. 3B. Således segmenteras denna sats i två initiala satser i enlighet med åtgärden som är associerad med regel la för finita verb i Fig. 3B. Detta visas i Fig.

Och .

Fig. 11 som de tvà nya initiala satserna 12 är en graf som visar satssegmenten för den tredje exempelmeningen vilka är resultatet av utförande 1A och lB. 13 visas ett schematiskt diagram av en av stegen i Fig.

I Fig. utföringsform av en anordning för segmentering av en sekvens av textelement som innefattar analyserade löpord i en eller flera initiala satser enligt uppfinningen.

Anordningen är företrädesvis en dator 1310, eller en som innefattar I minnet 1320 lösning med distribuerad programmering, ett minne 1320 och en processor 1330. lagras en uppsättning mönster för början pà initiala satser tillsammans med motsvarande åtgärder, och en 10 15 20 25 30 35 19 uppsättning mönster med multipla finita verb för initiala satser tillsammans med motsvarande åtgärder. Processorn 1330 kan utföra stegen för en metod enligt uppfinningen.

För detta syfte är datorn 1310 försedd med avsökningsorgan 1340, jämförelseorgan 1342, matchningsorgan 344 och infogningsorgan 1346. Dessa organ kan realiseras i maskinvara men realiseras företrädesvis i programvara. Således är avsökningsorganen 1340 anordnade att avsöka ett i förväg bestämt antal pà varandra följande textelement av nämnda sekvens av textelement och att avsöka textelementen hos en initial sats. Vidare är jämförelseorganen anordnade att jämföra det i förväg bestämda antalet pà varandra följande textelementen hos nämnda sekvens av textelement, med varje mönster av uppsättningen mönster för början av initiala satser som lagras i minnet 1330, och att jämföra textelementen i en initial sats med varje mönster av uppsättningen mönster för multipla finita verb som lagras i minnet 1330. Matchningsorganen 1344 är anordnade att identifiera en matchning mellan de i förväg bestämda på varandra följande textelementen och ett mönster av uppsättningen mönster för början av initiala satser och att identifiera en matchning mellan textelementen hos den initiala satsen och ett mönster av uppsättningen mönster för multipla finita verb. Slutligen är infogningsorganen 1346 anordnade att infoga en markör för början av initial sats i det i förväg bestämda antalet textelement eller i textelementen hos den initiala satsen som svar pà en matchning som gjorts av matchningsorganen. Markören infogas i en position som fastställs av åtgärden som är associerad med mönstret mot vilket matchningen svarar.

När ett förfarande enligt uppfinningen utförs segmenteras indata 1350 i form av sekvensen av textelement till datorn 1310 i initiala satser. Utdata 1360 från datorn är sekvensen av textelement inklusive markörer för satsbörjan. Vidare lagras sekvensen av textelement inklusive markörer i minnet 1320.

Claims

10 15 20 25 30 35 517 005 .-' =--,,¿;¿_.--,¿;: =._.= 20 PATENTKRAV

1. Förfarande för segmentering av en sekvens av textelement som innefattar analyserade löpord i en eller flera initiala satser med användning av en dator, innefattande stegen: att från en given position avsöka ett i förväg bestämt antal på varandra följande textelement av nämnda sekvens av textelement; att jämföra nämnda i förväg bestämda antal pà varandra följande textelement med varje mönster av en uppsättning mönster för början av initiala satser; att identifiera en början av en initial sats i nämnda i förväg bestämda antal pá varandra följande textelement, om nämnda i förväg bestämda antal på varandra följande textelement matchar ett mönster av nämnda uppsättning mönster för början av initiala satser; att upprepa stegen att avsöka, jämföra och identifiera, varvid nämnda givna position flyttas åtminstone en position framåt mellan varje repetition.

2. Förfarande enligt patentkrav l, vidare innefattande steget: att infoga en markör för början av initial sats i nämnda i förväg bestämda antal pà varandra följande textelement som svar på en identifierad början av en initial sats i steget att identifiera.

3. Förfarandet enligt patentkrav 2, varvid varje mönster av nämnda uppsättning mönster för början av initiala satser är associerad med en åtgärd, och varvid nämnda markör, i steget att infoga, infogas i nämnda i förväg bestämda antal pà varandra följande textelement i enlighet med åtgärden, som är associerad med nämnda mönster av nämnda uppsättning mönster för början av initiala satser. 10 15 20 25 30 35 u ounoou 21

4. Förfarande enligt patentkrav 3, varvid nämnda markör, i steget att infoga, infogas i nämnda i förväg bestämda antal på varandra följande textelement i en position som fastställs av åtgärden som är associerad med nämnda mönster av nämnda uppsättning mönster för början av initiala satser.

5. Förfarande enligt patentkrav 4, vidare innefattande steget: inklusive i ett att lagra nämnda sekvens av textelement, markörerna som infogats i steget att infoga, elektroniskt lagringsmedium.

6. Förfarande enligt patentkrav 1, vidare innefattande steget: att avsöka textelementen hos en initial sats; att jämföra nämnda textelement hos nämnda initiala sats med varje mönster av en uppsättning mönster för multipla finita verb; att identifiera en början av en sats i nämnda textelement hos nämnda initiala sats om nämnda textelement av nämnda initiala sats matchar ett mönster av nämnda uppsättning mönster för multipla finita verb; och att upprepa stegen att avsöka, jämföra och identifiera för varje initial sats.

7. Förfarande enligt patentkrav 6, vidare innefattande steget: att infoga en markör för början av initial sats i nämnda textelement hos nämnda initiala sats som svar på en identifierad början av en initial sats i steget att identifiera.

8. Förfarande enligt patentkrav 7, varvid varje mönster av nämnda mönster för multipla finita verb är associerad med en åtgärd, och varvid nämnda markör, i 10 15 20 25 30 35 517 005 22 steget att infoga, infogas i nämnda textelement hos nämnda initiala sats i enlighet med åtgärden som är associerad med nämnda ett mönster av nämnda mönster för multipla finita verb.

9. Förfarande enligt patentkrav 8, varvid nämnda markör för början av initial sats, i steget att infoga, infogas i nämnda textelement hos nämnda initiala sats i en position som fastställs av åtgärden som är associerad med nämnda ett mönster av nämnda uppsättning mönster för multipla finita verb.

10. Förfarande enligt patentkrav 9, vidare innefattande steget: att lagra nämnda sekvens av textelement, inklusive markörerna som infogas i steget att infoga, i ett elektroniskt lagringsmedium.

11. Förfarande enligt något av patentkraven 2-4, vidare innefattande steget: att för varje markör för början av initial sats indikera det mönster av nämnda mönster för början av initial sats mot vilket markören svarar.

12. Förfarande enligt patentkrav 1, varvid nämnda sekvens av textelement som innefattar analyserade löpord segmenteras i nämnda initiala satser så att varje löpord tillhör exakt en initial sats.

13. Förfarande enligt patentkrav 1, varvid nämnda analyserade löpord endast har tilldelats en unik analys i form av en morfo-syntaktisk beskrivning och ett lemma.

14. Förfarande enligt patentkrav 13, varvid nämnda morfo-syntaktiska beskrivning innefattar en ordklass och en böjningsform. 10 15 20 25 30 35 :n nu n . ,, , N H n lf I' I II I Q . n ... :gu t.. . . .. . u.. .. , , _, :~ - .- -. u n - 1 n . _ n-:v . ' =' rﬂ n , 23

15. Förfarande enligt patentkrav 1, varvid varje mönster av nämnda uppsättning mönster innefattar högst nämnda i förväg bestämda antal textelement.

16. Förfarande enligt patentkrav 1, varvid nämnda i förväg bestämda antal är anpassat till ett specifikt språk eller en specifik tillämpning.

17. Förfarande enligt patentkrav 1, varvid ett textelement innefattar antingen ett löpord eller en textstrukturmarkör.

18. Förfarande enligt patentkrav 17, varvid förekomsten av en textstrukturmarkör markerar början eller slutet av någon textenhet, och en typ av textstrukturmarkör markerar en typ av textenhet, såsom huvud, fras eller stycke, mening, sats, ord.

19. Förfarande enligt patentkrav 18, varvid en textenhet innefattar en eller fler på varandra följande löpord.

20. Förfarande enligt patentkrav 1, varvid ett textelement som är ett löpord och som förekommer i ett mönster kan hänvisa till: löpordet i sig själv, lemmat för löpordet, eller den morfo-syntaktiska beskrivningen för löpordet.

21. Förfarande enligt något av patentkraven 2-4 och 7-9, varvid en markör för slut på sats, i steget att infoga, infogas före varje markör för början av sats, utom för den först markören för början av sats, och vid slutet av nämnda analyserade text. 10 15 20 25 30 35 ; 0 o u n ..ø o u 0 | o o ; n 517 Û05šjgﬁf{fi:Üf:Wﬁ"*s Q n noo- anno.. n 1 ' ' OI 'OI nu a - u . nu 24

22. Anordning för segmentering av en sekvens av textelement som innefattar analyserade löpord i en eller flera initiala satser, innefattande; minnesorgan som är anordnade att lagra en uppsättning mönster för början av initial sats; avsökningsorgan vilka är anordnade att avsöka ett i förväg bestämt antal pà varandra följande textelement av nämnda sekvens av textelement; jämförelseorgan som är anordnade att jämföra nämnda i förväg bestämda antal pà varandra följande textelement med varje mönster av nämnda uppsättning mönster för början av initiala satser; och matchningsorgan som är anordnade att identifiera en matchning mellan nämnda i förväg bestämda antal pá varandra följande textelement och ett mönster av nämnda uppsättning mönster för början av initiala satser.

23. Anordning enligt patentkrav 22, vidare innefattande: infogningsorgan som är anordnade att infoga en markör för början av initial sats i nämnda i förväg bestämda antal på varandra följande textelement som svar på en matchning som görs av nämnda matchningsorgan.

24. Anordning enligt patentkrav 23, varvid nämnda minnesorgan vidare är anordnade att lagra en åtgärd för varje mönster av nämnda uppsättning mönster, och varvid nämnda infogningsorgan är anordnade att infoga nämnda markör i nämnda i förväg bestämda antal textelement i enlighet med åtgärden som är associerad med nämnda ett mönster.

25. Anordning enligt patentkrav 24, varvid nämnda infogningsorgan är anordnade att infoga nämnda markör i nämnda i förväg bestämda antal pà varandra följande textelement i en position som fastställs av åtgärden som är associerad med nämnda ett mönster. 10 l5 20 25 30 35 517 005 maja-__:- :nn aa p oo .non-non a canvas 25

26. Anordning enligt patentkrav 25, varvid nämnda minnesorgan vidare är anordnade att lagra nämnda sekvens av textelement inklusive markörerna som infogas av nämnda infogningsorgan.

27. Anordning enligt patentkrav 22, varvid: nämnda minnesorgan vidare är anordnade att lagra en uppsättning mönster för multipla finita verb; nämnda avsökningsorgan vidare är anordnade att avsöka textelementen hos en initial sats; nämnda jämförelseorgan är anordnade att jämföra nämnda textelement hos nämnda initiala sats med varje mönster av nämnda uppsättning mönster för multipla finita verb; och nämnda matchningsorgan vidare är anordnade att identifiera en matchning mellan nämnda textelement hos nämnda initiala sats och ett mönster av nämnda uppsättning för multipla finita verb.

28. Anordning enligt patentkrav 27, vidare innefattande: infogningsorgan som är anordnade att infoga en markör för början av initial sats i nämnda i förväg bestämda antal textelement som svar pä en matchning som görs av nämnda matchningsorgan.

29. Anordning enligt patentkrav 28, varvid nämnda minnesorgan vidare är anordnade att lagra en åtgärd för varje mönster av nämnda uppsättning mönster för multipla finita verb, och varvid nämnda infogningsorgan är anordnade att infoga nämnda markör i nämnda i förväg bestämda antal textelement i enlighet med åtgärden som är associerad med nämnda ett mönster av nämnda mönster för multipla finita verb. 10 15 20

30. Anordning enligt patentkrav 29, varvid nämnda infogningsorgan är anordnade att infoga nämnda markör i nämnda i förväg bestämda antal pà varandra följande textelement i en position som fastställs av åtgärden som är associerad med nämnda ett mönster av nämnda uppsättning mönster för multipla finita verb.

31. Anordning enligt nàgot av kraven 23-25, varvid nämnda infogningsorgan vidare är anordnade att infoga en markör för det mönster av nämnda mönster för början av sats mot vilket markören för början av initial sats SVaIaI' .

32. Av en dator läsbart medium som har av en dator exekverbara instruktioner för en generell dator att utföra stegen som står i något av kraven 1-19.

33. Datorprogram som innefattar av en dator exekverbara instruktioner för utförande av stegen som står i något av kraven 1-19.