SE519636C2 - Förfarande och anordning för analys av sammansatta ord - Google Patents

Förfarande och anordning för analys av sammansatta ord

Info

Publication number
SE519636C2
SE519636C2 SE0002550A SE0002550A SE519636C2 SE 519636 C2 SE519636 C2 SE 519636C2 SE 0002550 A SE0002550 A SE 0002550A SE 0002550 A SE0002550 A SE 0002550A SE 519636 C2 SE519636 C2 SE 519636C2
Authority
SE
Sweden
Prior art keywords
word
compound
electronically stored
written
stored list
Prior art date
Application number
SE0002550A
Other languages
English (en)
Other versions
SE0002550L (sv
SE0002550D0 (sv
Inventor
Eva Ingegerd Ejerhed
Original Assignee
Hapax Information Systems Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hapax Information Systems Ab filed Critical Hapax Information Systems Ab
Priority to SE0002550A priority Critical patent/SE519636C2/sv
Publication of SE0002550D0 publication Critical patent/SE0002550D0/sv
Priority to US09/610,688 priority patent/US6754617B1/en
Priority to EP01945869A priority patent/EP1311977A1/en
Priority to PCT/SE2001/001499 priority patent/WO2002003242A1/en
Priority to AU2001267978A priority patent/AU2001267978A1/en
Publication of SE0002550L publication Critical patent/SE0002550L/sv
Publication of SE519636C2 publication Critical patent/SE519636C2/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

25 30 35 519 636 H. -=- 2 Ett problem med kända metoder för igenkänning av sammansatta ord och deras konstituenter är att dessa ofta leder till många olika segmenteringar av ett enda sammansatt ord. I dessa fall finns det ingen metod för identifiering av den mest sannolika segmenteringen av ordet. Vidare kan de kända metoderna endast ge de grundläggande konstituenterna hos ett sammansatt ord och inte deras strukturella relationer (bestämning-huvud).
En viktig anledning till varför det är svårt att känna igen hopskrivna sammansatta ord och deras konstituenter är att det inte finns några generella regler som styr om det finns något sammanfogningselement eller ej, och vilket sammanfogningselement som skall användas när ett hopskrivet sammansatt ord bildas.
Således kan inte hopskrivna sammansatta ord och deras konstituenter kännas igen genom identifiering endast av sammanfogningselement. Å andra sidan finns det, på grund av att antalet hopskrivna sammansatta ord som kan skapas är så ofantligt, ingen möjlighet att lagra alla tänkbara kombinationer av konstituenter. Även om ett stort antal kända hopskrivna sammansatta ord har lagrats skulle risken för att ett okänt hopskrivet sammansatt ord påträffas fortfarande vara väldigt stor. Vidare kan skapandet av sammansatta ord utan mellanslag mellan konstituenterna ge upphov till segmenteringstvetydigheter som inte är möjliga att lösa med användning av kända automatiska metoder.
Sammanfattning av uppfinningen Syftet med föreliggande uppfinning är att tillhandahålla ett förfarande för automatisk igenkänning av om en ordtyp är ett hopskrivet sammansatt ord, vilket förfarande inte är föremål för ovannämnda problem som är förknippade med existerande förfaranden för denna uppgift. Således tillhandahålls ett förfarande för automatiskt fastställande av om en ordtyp är ett hopskrivet sammansatt ord eller ej, vilket förfarande lO 15 20 25 30 35 519 636 3 minskar antalet erforderliga lagrade hopskrivna sammansatta ord avsevärt och vilket ger ett deterministiskt resultat.
Föreliggande uppfinning är baserad pà insikten av att hopskrivna sammansatta ord kan delas in i grupper enligt sin ordklass och att hopskrivna sammansatta ord, genom användning av en iterativ och hierarkisk metod, kan kännas igen med användning av mindre mängd lagrad information och resultatet kommer att bli deterministiskt. Vidare är föreliggande uppfinning baserad pà insikten att mängden information som mäste lagras kan minskas avsevärt genom lagring för flertalet av de hopskrivna sammansatta orden endast av ett förled och ett efterled och inte varje tänkbar kombination av dem.
Enligt en aspekt av uppfinningen tillhandahålls ett förfarande för automatiskt fastställande av om en ordtyp är ett sammaskrivet sammansatt ord eller ej. I förfarandet görs ett uppslag i en elektroniskt lagrad lista över kända ordtyper. Listan innefattar en indikation för varje känd ordtyp om det är ett känt hopskrivet sammansatt ord eller ej. Om nämnda ordtyp finns i listan över kända ordtyper, fastställs det om ordtypen är ett känt hopskrivet sammansatt ord eller ej genom uppslag i listan över kända ordtyper. Om ordtypen inte finns i listan över kända ordtyper, görs en uttömmande uppdelning av ordtypen i ett förled och ett efterled och förledet och efterledet slås upp i en elektroniskt lagrad lista över kända förled hos hopskrivna sammansatta ord av en ordklass, respektive i en elektronisk lista över kända efterled hos hopskrivna sammansatta ord av nämnda ordklass. Detta uppslag görs för varje möjlig uppdelning av ordtypen i ett förled och ett efterled. Om ett förled som är associerat med en uppdelning finns i listan över kända förled hos hopskrivna sammansatta ord av ordklassen och ett efterled som är associerat med samma uppdelning finns i listan 10 15 20 25 30 35 .n nu 0 0 f' 2 . -.. »v - » 0 '_ , ,. . . . » - u. 1 \ _. i f ' h , , . . . f . . . . -ø -'«' 4 över kända efterled hos hopskrivna sammansatta ord av ordklassen, fastställs det att ordtypen är ett hopskrivet sammansatt ord av ordklassen. Om ordtypen inte är en känd ordtyp och om det inte har fastställts vara ett hopskrivet sammansatt ord upprepas uppslagen av förled och efterled för en ny ordklass. Detta upprepas till dess att ordtypen har fastställts vara ett hopskrivet sammansatt ord av en given ordklass eller till dess att alla ordklasserna har testats.
Genom uppslag först av ordtypen i en lista av kända ordtyper och fastställande av om ordtypen är ord av typen känd ordtyp, kommer inte kända ordtyper att behöva underkastas den senare analysen enligt förfarandet. Detta är fördelaktigt eftersom det eliminerar risken för att en känd ordtyp som inte är ett hopskrivet sammansatt ord felaktigt identifieras som ett hopskrivet sammansatt ord i den senare analysen.
Angående den senare analysen som görs för ordtyper som inte är kända ordtyper, delas denna analys in i en analys för var och en av ett antal olika ordklasser.
Genom uppslag av förled och efterled i listor som innefattar kända förled respektive efterled som är associerade med en ordklass i taget, kan det faktum att hopskrivna sammansatta ord skapas enligt olika regler för olika ordklasser användas. Tillsammans med faktumet att uppslag och fastställande endast kommer att göras för en ordklass så länge som ordet inte har fastställts vara ett hopskrivet sammansatt ord av en annan ordklass, kommer detta att minska risken för att ett hopskrivet sammansatt ord felaktigt fastställs vara ett hopskrivet sammansatt ord av en ordklass när det i själva verket är ett hopskrivet sammansatt ord av en annan ordklass. Vidare kommer detta att eliminera risken för att en ordtyp felaktigt fastställs vara ett hopskrivet sammansatt ord av tvà eller fler ordklasser samtidigt.
Genom att uppslagen av förled och efterled görs i listor som innefattar kända förled respektive efterled, lO 15 20 25 30 35 519 636 . . . . t . 5 minskas vidare mängden information som måste lagras i en ordlista med fullständiga ord i förhållande till alternativet där alla tänkbara kombinationer av förled och efterled lagras.
I en utföringsform av förfarandet enligt uppfinningen innefattar listan med kända ordtyper vidare en indikation för varje känt hopskrivet sammansatt ord om dess huvudsammansättningspunkt, d v s punkten mellan tvà tecken i ordtypen som delar ordet i dess huvudkonstituenter. Exempelvis är huvudsammansättningspunkten för ett hopskrivet sammansatt ord som har tvà huvudkonstituenter som är osammansatta ord helt enkelt mellan dessa tvà konstituenter, medan huvudsammansättningspunkten för ett sammansatt ord som har tvà huvudkonstituenter av vilka en är ett sammansatt ord och det andra inte är det kommer att vara mellan det sammansatta ordet och det osammansatta ordet. I denna utföringsform fastställs det när ordtypen hittas i nämnda elektroniskt lagrade lisa över kända ordtyper, om ordtypen är ett känt hopskrivet sammansatt ord eller ej i enlighet med indikationen i nämnda elektroniskt lagrade lista över kända ordtyper. Om ordtypen är ett känt hopskrivet sammansatt ord, hittas dess huvudsammansättningspunkt i listan över känd hopskrivna sammansatta ord. Om ordtypen vidare har fastställts vara hopskrivet sammansatt ord av en ordklass, fastställs dess huvudsammansättningspunkt vara mellan förledet och efterledet som har hittats i listan över kända förled respektive kända efterled för denna ordklass. Genom lagring av huvudsammansättningspunkten för hopskrivna sammansatta ord och kända förled och efterled hos hopskrivna sammansatta ord av olika ordklasser, ger fastställandet av huvudsammansättningspunkten ett entydigt resultat.
I en annan utföringsform av uppfinningen utökas fastställandet av en huvudsammansättningspunkt, och således huvudkonstituenterna hos ett hopskrivet lO l5 20 25 30 35 519 636 6 sammansatt ord, med fastställandet av de binära sammansättningspunkterna internt i huvudkonstituenterna.
Om en ordtyp har befunnits vara ett hopskrivet sammansatt ord och dess huvudsammansättningspunkt har fastställts, upprepas metoden för det hopskrivna sammansatta ordets huvudkonstituenter. Pà detta sätt kommer det att fastställas om huvudkonstituenterna i sin tur är hopskrivna sammansatta ord. Detta görs företrädesvis rekursivt till dess att alla de funna konstituenterna av ordtypen är osammansatta ord. Resultatet kommer då inte endast ge ordtypens alla konstituenter, utan även deras strukturella relationer (relationerna bestämning-huvud).
I en utföringsform uppdateras vidare den elektroniskt lagrade listan över kända ordtyper med nämnda ordtyp, en indikation om att nämnda ordtyp är ett känt hopskrivet sammansatt ord och en indikation om var ordtypen har sin huvudsammansättningspunkt, närhelst en ordtyp fastställs vara ett sammansatt ord som inte är i listan över kända sammansatta ordtyper. Detta är fördelaktigt eftersom uppslag i listan av ordtyper är mycket snabbare än sönderdelning och uppslag av förled och efterled. Eftersom endast de sammansatta ord som verkligen har observerats lagras i listan över kända ord, kommer listan över sammansatta ord vidare fortfarande att innefatta mycket färre ordtyper än om alla tänkbara kombinationer av förled och efterled lagras i denna lista.
I ytterligare en utföringsform av förfarandet enligt uppfinningen utförs stegen att slà upp förled och efterled, och att fastställa att ett ord är ett hopskrivet sammansatt ord av en ordklass först för ordklasser med mer restriktiva kombinatoriska egenskaper innan de utförs för ordklasser med mindre restriktiva kombinatoriska egenskaper. När en ordtyp fastställs vara en hopskrivet sammansatt ord av en given ordklass kommer det vidare inte att underkastas någon ytterligare analys.
Risken för att ett hopskrivet sammansatt ord av en 10 15 20 25 30 35 519 636 7 ordklass med mer restriktiva kombinatoriska egenskaper felaktigt skall fastställas vara av ett hopskrivet sammansatt ord av en ordklass med mindre restriktiva kombinatoriska egenskaper. Dessa steg utförs företrädesvis först för hopskrivna sammansatta namn, sedan för hopskrivna sammansatta verb, och slutligen för andra hopskrivna sammansatta ord, säsom sammansatta substantiv, adjektiv och particip.
Kort beskrivning av ritningarna I det följande àskàdliggörs föreliggande uppfinning i form av exempel, och ej som begränsning, med hänvisning till de bifogade ritningarna, pá vilka: figur 1 är ett flödesschema för en utföringsform av ett förfarande enligt uppfinningen; figur 2A och 2B åskådliggör konstituentstrukturen för tvà exempel pà hopskrivna sammansatta ord; och figur 3 åskådliggör konstituentstrukturen för ett annat exempel pä ett hopskrivet sammansatt ord.
Detaljerad beskrivning av uppfinningen I figur 1 visas ett flödesschema över en utföringsform av ett förfarande enligt uppfinningen. I förfarandet fastställs det om en ordtyp är ett hopskrivet sammansatt ord eller ej, och när det är ett hopskrivet sammansatt ord var dess huvudsammansättningspunkt är. I steget 100 matas en ordtyp i en lista av ordtyper in och i steget 102 slàs ordtypen upp i en elektroniskt lagrad lista över kända ordtyper, d v s observerade ordtyper.
Utöver de kända ordtyperna innefattar listan för varje känt ord en indikation om det kända ordet är ett känt hopskrivet sammansatt ord eller ej, och för varje hopskrivet sammansatt ord en indikation av platsen för dess huvudsammansättningspunkt. Uppslaget kommer antingen att ge ett positivt eller ett negativt resultat beroende pà om ordtypen finns i listan eller ej. Om ordtypen finns i listan över kända ordtyper, fastställs det i steget 110 lO l5 20 25 30 35 . .
, .. .. . , , .H , . w e yta ' . ' U , .. .. 1 - I \: - ._ b , . \ . v f I i? f, f r I ' ^ " ' 'u .' . . ~ = I ' ~,' f .,. . v . u . . ~- ^' ' 8 om ordtypen är ett hopskrivet sammansatt ord eller ej genom ett uppslag i listan över kända ordtyper. Om ordtypen inte är ett känt sammansatt ord fastställs det att ordtypen inte är ett sammansatt ord. Om ordtypen är ett känt sammansatt ord, ger indikationen i listan över kända sammansatta ord emellertid även huvudsammansättningspunkten för ordtypen och ordtypen samlas in i steget 114 och förfarandet avslutas.
Om ordtypen inte är i listan över kända ordtyper fastställs det i steget 120 i figur 1 om ordtypen är ett hopskrivet sammansatt namn. I detta steg delas ordtypen upp i ett förled och ett efterled. Uppdelningen görs först mellan ordtypens första och andra tecken. Sedan slås förledet upp i en elektroniskt lagrad lista över kända förled hos hopskrivna sammansatta namn. Pà likande sätt slàs efterledet upp i en elektroniskt lagrad lista över kända efterled hos hopskrivna sammansatta namn. Om förledet och efterledet hittas i listan över kända förled hos hopskrivna sammansatta namn respektive listan över kända efterled hos hopskrivna sammansatta namn, fastställs att ordtypen är ett hopskrivet sammansatt namn. Om förledet inte hittas i listan över kända förled hos hopskrivna sammansatta namn eller efterledet inte hittas i listan över kända efterled hos hopskrivna sammansatta namn, delas ordtypen upp i ett nytt förled och ett nytt efterled. Denna uppdelning upprepas mellan ordtypens andra och tredje tecken. Ett uppslag i listorna över kända förled och efterled för detta nya förled respektive nya efterled görs sedan. Om det nya förledet och det nya efterledet hittas i listan över kända förled hos hopskrivna sammansatta namn respektive listan över kända efterled hos hopskrivna sammansatta namn, fastställs att ordtypen är ett hopskrivet sammansatt namn. Om inte, delas ordtypen upp mellan det tredje och det fjärde tecknet. Denna iterativa drift fortsätter till dess att alla uppdelningar av ordtypen har testats.
Vidare fastställs det, när ett förled och ett efterled 10 15 20 25 30 35 519 636 9 hittas i listan över kända förled hos hopskrivna sammansatta namn respektive listan över kända efterled hos hopskrivna sammansatta namn, att huvudsammansättningspunkten för ordtypen ligger mellan det funna förledet och det funna efterledet.
Om ordtypen fastställs vara ett hopskrivet sammansatt namn, uppdateras den elektroniskt lagrade listan över kända ordtyper, i steget 126, med ordtypen och dess huvudsammansättningspunkt_ Efter steget 126 samlas ordtypen in i steget 114 i figur l och förfarandet avslutas. Om ordtypen inte fastställs vara ett hopskrivet sammansatt namn, fastställs det i steget 122 om ordtypen är ett hopskrivet sammansatt verb, Detta görs pà ett sätt som liknar fastställandet i 120 med den skillnaden att uppslaget av förled och efterled görs i en lista över kända förled hos hopskrivna sammansatta verb respektive en lista över efterled hos hopskrivna sammansatta verb.
Om ordtypen fastställs vara ett hopskrivet sammansatt verb, uppdateras den lagrade listan över kända ordtyper i steget 126 med ordtypen och dess huvudsammansättningspunkt_ Efter steget 126 mottas ordtypen i steget 114 i figur 1 och förfarandet avslutas.
Om ordtypen inte fastställs vara ett hopskrivet sammansatt verb, fastställs det i steget 124 om ordtypen är ett hopskrivet sammansatt ord av en annan ordklass.
Detta görs pà ett sätt som liknar fastställandet i 120 och 122 med den skillnaden att uppslagen av förled och efterled görs i en lista över kända förled för kända hopskrivna sammansatta ord av en annan ordklass respektive en lista över efterled hos hopskrivna sammansatta ord av en annan ordklass.
Om ordklassen fastställs vara ett hopskrivet sammansatt ord av en annan ordklass, uppdateras den elektroniskt lagrade listan över kända ordtyper i steget 126 med ordtypen och dess huvudsammansättningspunkt_ Efter steget 126 samlas ordtypen in i steget 114 i figur 1 och förfarandet avslutas. Om ordtypen inte 10 15 20 25 30 35 -u s19 ess ¿=¿ç,;;;i1 10 fastställs vara ett hopskrivet sammansatt ord av en annan ordklass avslutas förfarandet.
Stegen 110-126 upprepas för nästa ordtyp i listan över ordtyper till dess att det har fastställts för varje ordtyp om det är ett sammansatt ord eller ej.
Notera att den ordning i vilken fastställande av om ordtypen är ett hopskrivet sammansatt namn, ett hopskrivet sammansatt verb eller ett hopskrivet sammansatt ord av en annan ordklass kan ändras. Den beskrivna ordningen är emellertid föredragen.
Listorna över kända förled och efterled hos sammansatta ord av olika ordklasser har initialt skapats som förleden och efterleden hos kända, d v s observerade, sammansatta ord. En lista över kända förled kan sedan uppdateras med förled hos uppdelningar i vilka dessa inte finns i listan över kända förled medan de motsvarande efterleden finns i listan över kända efterled. Pâ liknande sätt kan en lista över kända efterled uppdateras med efterled hos uppdelningar i vilka dessa inte finns i listan över kända efterled medan de motsvarande förleden finns i listorna över kända efterleden. I fallet när varken förledet eller efterledet hittas i respektive lista kommer listan inte att uppdateras.
Utöver att endast hitta huvudsammansättningspunkten, som görs genom användning av förfarandet som beskrivs i figur l, kan förfarandet utökas till att även hitta underordnade sammansättningspunkter. Detta kan göras enkelt genom utförande av stegen i figur 1 för varje huvudkonstituent hos ett hopskrivet sammansatt ord, där huvudkonstituenterna definieras som delarna av ett hopskrivet sammansatt ord som ligger före huvudsammansättningspunkten (förled) respektive efter (efterled). För att förfarandet skall förbättras för àterfinnande av huvudsammansättningspunkten underordnade sammansättningspunkter i konstituenter före huvudsammansättningspunkten, används emellertid en separat lista över kända efterled och förled hos 10 l5 20 25 30 35 .. v - .1 f ~ u «f fl * ~, . _ .V . ,. _, , , p u _ :I ' I . i , , t. »=» u v e ' . x , , , . _ f »« »» l i i . n n 1 ~' ïfi _' , , s » , , . ll hopskrivna sammansatta ord för dessa. Detta beror på att efterled hos förled har egenskaper som skiljer sig fràn egenskaperna hos efterled i slutet pà ord. Upprepningen görs rekursivt, d v s om ett förled eller ett efterled har fastställts vara ett sammansatt ord, kommer stegen i figur 1 även att upprepas för dess konstituenter. Detta fortsätter till dess att alla konstituenter hos ordtypen är osammansatta ord.
Ett förfarande enligt uppfinningen, såsom förfarandet som beskrivs med hänvisning till figur 1, kan realiseras i programvara som ett datorprogram som innefattar datorexekverbara instruktioner för utförande av stegen, med det kan lika väl realiseras i maskinvara med användning av hàrdkodade kretsar för utförande av stegen.
Med hänvisning till figur 2A och figur 2B, visas konstituentstrukturen hos tvâ exempel pà hopskrivna sammansatta ord. De hopskrivna sammansatta orden som visas är de svenska orden "flodpärlmussla", vilket består av former orden 'flod', och "flodhästhuvud", 'flod', 'häst' resultatet som ges om förfarandet som beskrivs med 'pärla' och 'mussla', i figur 2A vilket består av former orden och 'huvud', i figur 2B. Figurerna visar hänvisning till figur 1 används rekursivt för fastställande av huvudsammansättningspunkten och underordnade sammansättningspunkter hos ett hopskrivet sammansatt ord.
I figur 2A har ordet "flodpärlmussla" fastställts vara ett hopskrivet sammansatt ord med huvudsammansättningspunkten mellan "flod" och "pärlmussla" i ett första utförande av förfarandet som beskrivs med hänvisning till figur l. I upprepningar av förfarandet som beskrivs med hänvisning till figur l har "flod" hopskrivet sammansatt ord och konstituenten "pärlmussla" sedan huvudkonstituenten fastställts inte vara ett har fastställts vara ett hopskrivet sammansatt ord med konstituenterna "pärl" och "mussla". Detta visas genom 10 15 20 25 30 35 519 636 12 binärträdet i figur 2A. Slutligen har ytterligare upprepningar av förfarandet som beskrivs med hänvisning till figur 1 för konstituenterna "pärl" och "mussla" visat att dessa inte är hopskrivna sammansatta ord och således avslutas rekursionen.
I figur 2B har ordet "flodhästhuvud" fastställts vara ett hopskrivet sammansatt ord med huvudsammansättningspunkten mellan "flodhäst" och "huvud" i ett första utförande av metoden som beskrivs med hänvisning till figur 1. I upprepningar av förfarandet som beskrivs med hänvisning till figur 1 har sedan "flodhäst" hopskrivet sammansatt ord som har konstituenterna "flod" och "häst", "huvud" har fastställts huvudkonstituenten fastställts vara ett och konstituenten inte vara ett hopskrivet sammansatt ord. Detta visas av binärträdet i figur 2B. Slutligen har ytterligare upprepningar av förfarandet som beskrivs med hänvisning till figur 1 för konstituenten "flod" och "häst" visat att dessa inte är hopskrivna sammansatta ord och således avslutas rekursionen.
I figur 3 visas konstituenterna hos ett annat exempel pà ett hopskrivet sammansatt ord grafiskt. Det hopskrivna sammansatta ordet är det svenska ordet "mervärdesskattelagstiftning", som består av former av orden 'mer', 'värde', 'skatt', 'lag ' och 'stiftning'.
Figuren visar resultatet dä förfarandet som beskrivs med hänvisning till figur 1 används rekursivt för fastställande av huvudsammansättningspunkten och underordnade sammansättningspunkter hos ett hopskrivet sammansatt ord. Ordet "mervärdeskattelagstiftningen" har fastställts vara ett hopskrivet sammansatt ord med huvudkonstituenterna "mervärdeskatte" och "lagstiftning" i ett första utförande av förfarandet som beskrivs med hänvisning till figur 1. I upprepningarna av förfarandet som beskrivs med hänvisning till figur 1 har sedan fastställts vara ett huvudkonstituenten "mervärdeskatte" hopskrivet sammansatt ord som har konstituenterna 10 519 656 13 "mervärde" och "skatte", och konstituenten "lagstiftning" har fastställts vara ett hopskrivet sammansatt ord som har konstituenterna "lag" och "stiftning". I ytterligare en upprepning har vidare konstituenten "mervärde" fastställts vara ett hopskrivet sammansatt ord som har konstituenterna "mer" och "värde". Detta visas genom binärträdet i figur 3. Slutligen har ytterligare upprepningar av förfarandet som beskrivs med hänvisning till figur l för konstituenterna "mer", "skatte", "värde", "lag" och "stiftning" visat att dessa inte är sammansatta ord och således avslutas rekursionen.

Claims (12)

10 l5 20 25 30 35 519 636 l4 PATENTKRAV
1. Förfarande för automatiskt fastställande av om en ordtyp är ett hopskrivet sammansatt ord, innefattande stegen: a) att slä upp en ordtyp i en elektroniskt lagrad lista över kända ordtyper som innefattar en indikation för varje känd ordtyp om det är ett känt hopskrivet sammansatt ord eller ej; b) att, när nämnda ordtyp hittas i nämnda elektroniskt lagrade lista över kända ordtyper, fastställa om nämnda ordtyp är ett känt hopskrivet sammansatt ord eller ej i enlighet med indikationen i nämnda elektroniskt lagrade lista över kända ordtyper; c) att, när nämnda ordtyp inte hittas i nämnda elektroniskt lagrade lista över kända ordtyper, för varje tänkbar uppdelning av nämnda ordtyp i ett förled och ett efterled, slá upp nämnda förled i en elektroniskt lagrad lista över kända förled hos hopskrivna sammansatta ord av en ordklass och nämnda efterled i en elektroniskt lagrad lista över kända efterled hos hopskrivna sammansatta ord av en ordklass; och d) att, uppdelning hittas i nämnda elektroniskt lagrade lista när ett förled som är associerat med en över kända förled hos hopskrivna sammansatta ord av nämnda ordklass och ett efterled som är associerat med nämnda uppdelning hittas i nämnda elektroniskt lagrade lista över kända efterled hos hopskrivna sammansatta ord av nämnda ordklass, fastställa att nämnda ordtyp är ett hopskrivet sammansatt ord av nämnda ordklass; och e) att, när nämnda ordtyp inte har fastställts vara ett hopskrivet sammansatt ord, upprepa stegen c) och d) för var och en av ett antal olika ordklasser.
2. Förfarande enligt patentkrav 1, varvid nämnda lista över kända ordtyper vidare innefattar en indikation för varje känt hopskrivet sammansatt ord av dess 10 15 20 25 30 35 519 656 15 huvudsammansättningspunkt, varvid steg b) innefattar stegen: bl) att, när nämnda ordtyp hittas i nämnda elektroniskt lagrade lista över kända ordtyper, fastställa om nämnda ordtyp är ett känt hopskrivet sammansatt ord eller ej i enlighet med indikationen i nämnda elektroniskt lagrade lista över kända ordtyper; b2) att, när nämnda ordtyp är ett känt hopskrivet sammansatt ord, fastställa att nämnda ordtyp har huvudsammansättningspunkten enligt listan över kända hopskrivna sammansatta ord, och varvid steget d) dl) att, uppdelning hittas i nämnda elektroniskt lagrade lista innefattar stegen: när ett förled som är associerat med en över kända förled hos hopskrivna sammansatta ord av nämnda ordklass och ett efterled som är associerat med nämnda uppdelning hittas i nämnda elektroniskt lagrade lista över kända efterled hos hopskrivna sammansatta ord av nämnda ordklass, fastställa att nämnda ordtyp är ett hopskrivet sammansatt ord av nämnda ordklass; och d2) att, när nämnda ordtyp är ett hopskrivet sammansatt ord av nämnda ordklass, fastställa att det har sin huvudsammansättningspunkt mellan nämnda förled och nämnda efterled.
3. Förfarande enligt patentkrav 2, vidare innefattande stegen: f) att, när nämnda ordtyp har fastställts vara ett hopskrivet sammansatt ord, upprepa stegen a)-e) för nämnda förled av nämnda ordtyp; 9) att, hopskrivet sammansatt ord, upprepa stegen a)-e) när nämnda ordtyp har fastställts vara ett för nämnda efterled av nämnda ordtyp; h) att rekursivt upprepa stegen a)-e) för förledet av ett förled som är ett sammansatt ord till dess att nämnda förled av ett förled fastställs inte vara ett samansatt ord; 10 15 20 25 30 35 519 656 » « « . - . 16 i) att rekursivt upprepa stegen a)-e) för efterledet av ett förled som är ett sammansatt ord till dess att nämnda efterled av ett förled fastställs inte vara ett samansatt ord; j) att rekursivt upprepa stegen a)-e) för förledet av ett efterled som är ett sammansatt ord till dess att nämnda förled av ett efterled fastställs inte vara ett samansatt ord; och k) att rekursivt upprepa stegen a)-e) för efterledet av ett efterled som är ett sammansatt ord till dess att nämnda efterled av ett efterled fastställs inte vara ett samansatt ord.
4. Förfarande enligt patentkrav 1, vidare innefattande steget: l) att, hopskrivet sammansatt ord av en given ordklass, uppdatera när nämnda ordtyp fastställs vara ett nämnda elektroniskt lagrade lista över kända ordtyper med nämnda ordtyp och med en indikation av att nämnda ordtyp är ett känt hopskrivet sammansatt ord.
5. Förfarande enligt patentkrav 2, vidare innefattande steget: m) att, när nämnda ordtyp är ett hopskrivet sammansatt ord av en given ordklass, uppdatera nämnda elektroniskt lagrade lista över kända ordtyper med nämnda ordtyp med en indikation av att nämnda ordtyp är ett känt hopskrivet sammansatt ord och med en indikation av att nämnda ordtyp har sin huvudsammansättningspunkt mellan nämnda förled och nämnda efterled.
6. Förfarande enligt patentkrav 1, varvid uppslaget i steget d) görs sekventiellt med början med en uppdelning av ordtypen mellan nämnda ordtyps första tecknet och andra tecknet och avslutande med en uppdelning av nämnda ordtyp mellan ordtypens näst sista tecken och sista tecken. 10 15 20 25 30 35 «1 H. . , .. , ,, N ß I' ~v - , - > \ _ , , v -. - _ , - . . , _ , .H m. _ , g _ ,, _,, w _ 1 f _- o I a _ . 1 . u .. _ 17
7. Förfarande enligt patentkrav 1, och d) kombinatoriska egenskaper innan de utförs för ordklasser varvid stegen c) utförs för ordklasser med mer restriktiva med mindre restriktiva kombinatoriska egenskaper.
8. Förfarande enligt patentkrav l, och d) användning av en elektroniskt lagrad lista över kända varvid stegen c) utförs först för hopskrivna sammansatta namn med förled hos hopskrivna sammansatta namn och en elektroniskt lagrad lista över kända efterled hos hopskrivna sammansatta namn, sedan för hopskrivna sammansatta verb med användning av en elektroniskt lagrad lista över kända förled hos hopskrivna sammansatta verb och en elektroniskt lagrad lista över kända efterled hos hopskrivna sammansatta verb och slutligen för andra hopskrivna sammansatta ord med användning av en elektroniskt lagrad lista över kända förled hos andra hopskrivna sammansatta ord och en elektroniskt lagrad lista över kända efterled hos andra hopskrivna sammansatta ord.
9. Förfarande för automatiskt fastställande av om en ordtyp är ett hopskrivet sammansatt ord, innefattande stegen: att slà upp en ordtyp i en elektroniskt lagrad lista över kända ordtyper vilken innefattar en indikation för varje känd ordtyp om det är ett sammansatt ord eller ej och om det är det en specifikation av dess huvudsammansättningspunkt; att, när nämnda ordtyp hittas i nämnda elektroniskt lagrade lista över kända ordtyper, fastställa om nämnda ordtyp är ett hopskrivet sammansatt ord och om det är det att dess huvudsammansättningspunkt är den enligt nämnda elektroniskt lagrade lista över kända ordtyper; att, när nämnda ordtyp inte hittas i nämnda elektroniskt lagrade lista över kända ordtyper, för varje 10 15 20 25 30 35 :w »w . . .. , .. ,. v fi . » , ; ,. . . . I =f , _ f » 1 , « _. . '_ . . n .. , i. i r n i « . ; r . f I ._ ,. ' * 18 tänkbar uppdelning av nämnda ordtyp i ett förled och ett efterled, slå upp nämnda förled i en elektroniskt lagrad lista över kända förled hos hopskrivna sammansatta namn och nämnda efterled i en elektroniskt lagrad lista över kända efterled hos hopskrivna sammansatta namn; att, när ett förled som är associerat med en uppdelning hittas i nämnda elektroniskt lagrade lista över kända förled hos hopskrivna sammansatta namn och ett efterled som är associerat med en uppdelning hittas i nämnda elektroniskt lagrade lista över kända efterled hos hopskrivna sammansatta namn, fastställa att nämnda ordtyp är ett hopskrivet sammansatt namn och att dess huvudsammansättningspunkt ligger mellan nämnda förled och nämnda efterled; att, när nämnda ordtyp inte hittas i nämnda elektroniskt lagrade lista över kända ordtyper och inte är ett hopskrivet sammansatt namn, för varje tänkbar uppdelning av nämnda ordtyp i ett förled och ett efterled, slá upp nämnda förled i en elektroniskt lagrad lista över kända förled hos hopskrivna sammansatta verb och nämnda efterled i en elektroniskt lagrad lista över kända efterled hos hopskrivna sammansatta verb; att, uppdelning hittas i nämnda elektroniskt lagrade lista när ett förled som är associerat med en över kända förled hos hopskrivna sammansatta verb och ett efterled som är associerat med en uppdelning hittas i nämnda elektroniskt lagrade lista över kända efterled hos hopskrivna sammansatta verb, fastställa att nämnda ordtyp är ett hopskrivet sammansatt verb och att dess huvudsammansättningspunkt ligger mellan nämnda förled och nämnda efterled; att, elektroniskt lagrade lista över kända ordtyper och inte när nämnda ordtyp inte hittas i nämnda är ett hopskrivet sammansatt namn och inte är ett hopskrivet sammansatt verb, för varje tänkbar uppdelning av nämnda ordtyp i ett förled och ett efterled, slå upp nämnda förled i en elektroniskt lagrad lista över kända lO 15 20 25 I' HI v a m ~ m .- v -k n» f « o . . ,, , v ». 1.» 1 ~ x , , -f ~1- -1 a a . »- s, f 1 u » f , , , , , - v u .. . _ 19 förled hos andra hopskrivna sammansatta ord och nämnda efterled i en elektroniskt lagrad lista över kända efterled hos andra hopskrivna sammansatta ord; att, när ett förled som är associerat med en uppdelning hittas i nämnda elektroniskt lagrade lista över kända förled hos andra hopskrivna sammansatta ord och ett efterled som är associerat med en uppdelning hittas i nämnda elektroniskt lagrade lista över kända efterled hos andra hopskrivna sammansatta ord, fastställa att nämnda ordtyp är ett annat hopskrivet sammansatt ord och att dess huvudsammansättningspunkt ligger mellan nämnda förled och nämnda efterled.
10. Datorläsbart medium som har datorexekverbara instruktioner för att en generell dator skall utföra stegen som omnämns i nàgot av kraven 1-9.
11. ll. Datorprogram som innefattar datorexekverbara instruktioner för utförande av stegen som omnämns i något av kraven 1-9.
12. Anordning som innefattar organ för utförande av stegen som omnämns i nàgot av kraven 1-9. -«~..-
SE0002550A 2000-07-06 2000-07-06 Förfarande och anordning för analys av sammansatta ord SE519636C2 (sv)

Priority Applications (5)

Application Number Priority Date Filing Date Title
SE0002550A SE519636C2 (sv) 2000-07-06 2000-07-06 Förfarande och anordning för analys av sammansatta ord
US09/610,688 US6754617B1 (en) 2000-07-06 2000-07-07 Method for automatically determining solid compound words
EP01945869A EP1311977A1 (en) 2000-07-06 2001-06-29 Method for analyzing words
PCT/SE2001/001499 WO2002003242A1 (en) 2000-07-06 2001-06-29 Method for analyzing words
AU2001267978A AU2001267978A1 (en) 2000-07-06 2001-06-29 Method for analyzing words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE0002550A SE519636C2 (sv) 2000-07-06 2000-07-06 Förfarande och anordning för analys av sammansatta ord

Publications (3)

Publication Number Publication Date
SE0002550D0 SE0002550D0 (sv) 2000-07-06
SE0002550L SE0002550L (sv) 2002-01-07
SE519636C2 true SE519636C2 (sv) 2003-03-25

Family

ID=20280391

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0002550A SE519636C2 (sv) 2000-07-06 2000-07-06 Förfarande och anordning för analys av sammansatta ord

Country Status (5)

Country Link
US (1) US6754617B1 (sv)
EP (1) EP1311977A1 (sv)
AU (1) AU2001267978A1 (sv)
SE (1) SE519636C2 (sv)
WO (1) WO2002003242A1 (sv)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US7555428B1 (en) * 2003-08-21 2009-06-30 Google Inc. System and method for identifying compounds through iterative analysis
US7941310B2 (en) * 2003-09-09 2011-05-10 International Business Machines Corporation System and method for determining affixes of words
EP2284652A3 (en) * 2006-01-13 2011-02-23 2012244 Ontario Inc. Handheld electronic device and method for disambiguation of compound text input
US7880646B2 (en) 2006-01-13 2011-02-01 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and employing different groupings of data sources to disambiguate different parts of input
US7698128B2 (en) 2006-01-13 2010-04-13 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and that employs N-gram data to limit generation of low-probability compound language solutions
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
CN102859515B (zh) * 2010-02-12 2016-01-13 谷歌公司 复合词拆分
US20140025368A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation Fixing Broken Tagged Words
US10713426B2 (en) 2013-11-14 2020-07-14 Elsevier B.V. Systems, computer-program products and methods for annotating multiple controlled vocabulary-defined concepts in single noun phrases
US11789923B2 (en) 2015-10-23 2023-10-17 Oracle International Corporation Compression units in an index block
US10838961B2 (en) * 2017-09-29 2020-11-17 Oracle International Corporation Prefix compression

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672571A (en) 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US5225981A (en) 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4777617A (en) 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
DE4135261C1 (sv) 1991-10-25 1993-03-18 International Business Machines Corp., Armonk, N.Y., Us
EP0634042B1 (en) * 1992-03-06 2001-07-11 Dragon Systems Inc. Speech recognition system for languages with compound words
US5867812A (en) 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP3581752B2 (ja) * 1995-10-09 2004-10-27 株式会社リコー 音声認識装置及び音声認識方法
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US6349282B1 (en) * 1999-04-20 2002-02-19 Larnout & Hauspie Speech Products N.V. Compound words in speech recognition systems

Also Published As

Publication number Publication date
EP1311977A1 (en) 2003-05-21
US6754617B1 (en) 2004-06-22
SE0002550L (sv) 2002-01-07
AU2001267978A1 (en) 2002-01-14
WO2002003242A1 (en) 2002-01-10
SE0002550D0 (sv) 2000-07-06
WO2002003242A9 (en) 2002-04-11

Similar Documents

Publication Publication Date Title
SE519636C2 (sv) Förfarande och anordning för analys av sammansatta ord
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
KR101153033B1 (ko) 사본 탐지 및 삭제 방법
US7328211B2 (en) System and methods for improved linguistic pattern matching
EP2624147A1 (en) File list generation method and system, file list generation apparatus, and program
SE524595C2 (sv) Förfarande och datorprogram för normalisering av stilkast
CN106528647B (zh) 一种基于cedar双数组字典树算法进行术语匹配的方法
CN109918664B (zh) 分词方法和装置
CA2464835A1 (en) Technique for searching for contact information concerning desired parties
JP2005165598A (ja) 可変長文字列検索装置及び可変長文字列検索方法並びにプログラム
CN110795526A (zh) 一种用于检索系统的数学公式索引创建方法与系统
US8051060B1 (en) Automatic detection of separators for compression
JP2693914B2 (ja) 検索システム
CN115794745A (zh) 文件搜索方法、系统、设备及存储介质
CN114003685A (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置
Yazdani et al. DMP-tree: A dynamic M-way prefix tree data structure for strings matching
EP1455163A2 (de) Verfahren zur Eingabe von Zielen in ein Navigationssystem
CN112183074A (zh) 一种数据增强方法、装置、设备及介质
JP6712749B2 (ja) 最後のアルファベット除去アルゴリズムを利用した半導体部品検索方法
Kucherov et al. Full-fledged real-time indexing for constant size alphabets
CN112650914A (zh) 一种长尾关键词识别方法、关键词搜索方法及计算机设备
Kurniawan et al. A new string matching algorithm based on logical indexing
CN114036350A (zh) 一种网址查询方法、装置、电子设备及存储介质
JP5505207B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
Sprunger A complete logic for behavioural equivalence in coalgebras of finitary set functors

Legal Events

Date Code Title Description
NUG Patent has lapsed