WO2005001711A2 - Method, computer device and computer program for assistance in adding vowels to words in arabic - Google Patents

Method, computer device and computer program for assistance in adding vowels to words in arabic Download PDF

Info

Publication number
WO2005001711A2
WO2005001711A2 PCT/FR2004/001603 FR2004001603W WO2005001711A2 WO 2005001711 A2 WO2005001711 A2 WO 2005001711A2 FR 2004001603 W FR2004001603 W FR 2004001603W WO 2005001711 A2 WO2005001711 A2 WO 2005001711A2
Authority
WO
WIPO (PCT)
Prior art keywords
words
word
vowel
succession
dictionary
Prior art date
Application number
PCT/FR2004/001603
Other languages
French (fr)
Other versions
WO2005001711A3 (en
Inventor
Fathi Debili
Original Assignee
Centre National De La Recherche Scientifique (Cnrs)
Ecole Normale Superieure Lettres Et Sciences Humaines
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National De La Recherche Scientifique (Cnrs), Ecole Normale Superieure Lettres Et Sciences Humaines filed Critical Centre National De La Recherche Scientifique (Cnrs)
Publication of WO2005001711A2 publication Critical patent/WO2005001711A2/en
Publication of WO2005001711A3 publication Critical patent/WO2005001711A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Definitions

  • the invention relates to the vowel of a text in Arabic, assisted by computer means.
  • a first type concerns consonants, which constitute the body of the text.
  • a second type concerns vowels, which, in Arabic script, are added to consonants by adding vowel signs above or below each consonant.
  • the word represented in this figure comprises three successive letters 1, 2 and 3, corresponding respectively to the consonants K, T and B.
  • This word in its context, usually means “he wrote” and is KATABA bed.
  • a reader of an Arabic text, fluent in this language, will therefore naturally interpret the succession of the three letters of figure la as corresponding to the word KATABA, which, when it is vowel, has horizontal bars 4 appearing above the letters 1, 2 and 3, as shown in Figure 1b.
  • a word to vowel is cut into several sections. Each section, comprising an identified succession of consonants, is compared with a succession of corresponding consonants in the dictionary which is specific to this type of segment. Vowel rules encoded in the form of computer program instructions define the vowel to be applied to this section. Finally, the word vowel is reconstructed by concatenating the different vowels sections.
  • a process of voelling a text in Arabic assisted by computer means, in which: a) a first memory area is provided in which a first dictionary is stored comprising non-vowel words, b) a second memory area is provided in which a second dictionary is stored comprising groups of at least one vowel word, each group being stored in correspondence with a non-vowel word of said first dictionary, c) for a current word, not vowel, a character string forming at least said current word is compared with character strings stored in the first memory area, in order to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) a group of candidate words, vowels, corresponding to said isolated word of the first dictionary, is extracted from the second dictionary.
  • a first database arranged according to a first dictionary comprising non-vowels words
  • a second database arranged according to a second dictionary comprising groups of at least one vowel word, each group of the second base being indexed in correspondence with a non vowel word from the first base
  • a computer routine suitable for: c) comparing, for a current word, not vowel, a character string forming at least said current word with character strings stored in the first memory area, to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) extracting from the second dictionary a group of candidate words, vowels, corresponding to said isolated word from the first dictionary.
  • FIG. 1B illustrates the word in FIG. 1a, but vowel now
  • - FIG. 1 illustrates the word in FIG. 1a, with several possible vowelings of this word
  • FIGS. 4a, 4b and 4c respectively represent a text comprising a non-vowel sentence, a vowel sentence without case vowels and a vowel sentence with case vowels
  • FIG. 5 represents a general flow diagram of the method according to a preferred embodiment of
  • FIG. 3 represents a structure of a memory (for example of ROM type) in which the first and second abovementioned dictionaries are stored. It is indicated that the central unit 24 comprises a memory, for example a permanent ROM type memory, in which are stored in digital form successions of Arabic characters forming words of the first and second dictionaries.
  • a memory for example of ROM type
  • the central unit 24 comprises a memory, for example a permanent ROM type memory, in which are stored in digital form successions of Arabic characters forming words of the first and second dictionaries.
  • the second dictionary is initially constructed with vowel words which have a meaning, so as to offer a pleasant and user-friendly use of the program within the meaning of the invention.
  • the first and second dictionaries are respectively in the form: - of a first database Dl whose structure is arranged according to the first dictionary which includes non-vowels words, and
  • Each group of the second database D2 is indexed in correspondence of a non-vowel word of the first database D1, as further shown by the correspondence arrows Fil to F22 of FIG. 3.
  • FIGS. 4a and 4b respectively represent a non-vowel text containing a complete sentence delimited by two points PI and P2 and a partially vowel text containing said sentence delimited by the points PI and P2.
  • Arabic can be read from right to left. It will thus be understood that a succession of words can be in the form of a complete sentence defined by a character string between two punctuation characters PI and P2, the different words of this sentence being able to be vowels according to their position in the sentence, as we will see later.
  • the computer device also comprises a memory area Z3 in which instructions of a computer program PGM are stored which are specific to:
  • FIG. 5 We now refer to FIG. 5 to describe the flow of the computer routine of the PGM program.
  • This routine first locates, for example by character recognition, in step 51, the characters (the consonants 1, 2, 3) of the non-vowel word 45.
  • the routine then performs, in step 52, a comparison with words not vowels and listed in the dictionary Dl to isolate, in step 53, a non-word vowel 31 with the same succession of consonants 1, 2, 3.
  • step 54 the program PGM determines, as a function of the memory location in the memory area D1 of word 31, the memory location of group 3-1 in the memory area D2 and comprising the vowels words 311 and 312, from the second dictionary of vowels words.
  • step 55 the program PGM extracts from the memory area D2 the group of candidate words 311 and 312 comprising the same succession of consonants but vowels differently.
  • a man / machine interface module is also provided, preferably in the form of computer instructions forming part of the PGM program.
  • FIG. 6 a screenshot 21 is shown showing, for a text 62 electronically edited, a dialog box 61 which is one of the functionalities of this man / machine interface.
  • the dialog box 61 For a current word 45, non-vowel, selected by a user (from an input device such as the mouse 23) and which appears, for this reason, contrasted in the text 62, the dialog box 61 first indicates what is the word 31 analyzed in correspondence in the first dictionary Dl. Then, the dialog box 61 proposes potential vowelings of this current word 45, which correspond to candidate vowels words 312 and
  • the man / machine interface offers a user a choice list of candidate words 311 and 312.
  • the user chooses, in step 56, a candidate word 311 from the list of candidate words 311,
  • step 57 the chosen word 311, vowel, automatically replaces word 45, not vowel, in the text edited electronically.
  • the "choice" of the user is stored in step 58, in a memory zone Z5 of the computer device.
  • this memory zone Z5 is in correspondence with the memory zone D2 in which the second dictionary is stored, so as to enrich the latter.
  • the chosen word 311, thus vowel is stored with the words preceding and / or succeeding it in part of the edited text.
  • the chosen word 311 is stored with the complete sentence in which it appears, with a view to perfecting the voyellation within the meaning of the present invention, by learning, as will be seen below.
  • the current word 45 to be vellified is part of a current succession of words, such as a complete sentence, following the choice of a word 311 by the user (in the list of candidate words 311 , 312), the selected vowel word 311 and the succession of words which comprise it are stored in the aforementioned memory zone Z5.
  • FIGS. 4a to 4c describe below a vowelization of the words according to their context.
  • a word beginning a sentence corresponds to a verb.
  • the word which succeeds the first point PI of FIG. 4a is a verb whose vowel form corresponds with almost certainty to the conjugated verb 321 of the second dictionary D2 of FIG. 3.
  • a string of characters forming this succession of words comprising the current word is compared more broadly with strings of characters stored in the aforementioned zone Z5 in correspondence of the second memory area D2, to identify a plurality of words comprising the same character string as this succession of words.
  • This step corresponds, in a broader perspective, to step 51 represented in FIG. 5.
  • the PGM program can include instructions for carrying out this comparison "extended to a succession of words". For example, for a complete sentence, a computer routine can be provided to isolate the characters of the complete sentence between the two punctuation marks PI and P2.
  • a word vowel (here the verb 321) according to the succession of identified words and, in particular, of a position of the current word 32 in this succession of identified words.
  • the word 32 begins the sentence and therefore corresponds to the verb vowel 321.
  • this automatic vowel is advantageously provided here by memorization of complete sentences and / or succession of words, the vowel of which is validated by the user, as and when the computer software for assistance is used. the vowel, so by learning.
  • Computer learning routines are known per se. It is indicated for example that routines such as those used by the software ViaVoice ® of the company Microsoft ® are well suited to the determination of written characters by learning.
  • the man / machine interface advantageously offers the user a choice list comprising words selected from candidate words of the second dictionary.
  • This situation is represented in FIG. 6 where two possible vowelings 312 and 311, which are consistent as a function of the context of the current word 45, are proposed to the user.
  • this list is hierarchical, according to the context, in order of relevance of the proposed vowels. In particular, this hierarchy can be deduced by learning, by analyzing the form of vowel preferred by the user and which returns most often during use.
  • a memory area is provided (for example still in correspondence with the second memory area D2) to further store grammatical labels 70 each corresponding to a vowel word 311 of the second dictionary.
  • the PGM computer program for the implementation of the invention and the interface module man / machine are compatible with electronic means of editing text in Arabic language, such as MICROSOFT WORD ® software.
  • the preposition corresponding to the word 44 is identified in the succession of words in which the word 43 appears.
  • This preposition 44 necessarily leads to an ablative variation of the word 43 which follows, with an automatic occasional vowelization by the sound "i" of the last letter 431 of the word 43.
  • the computer routine of the PGM program includes instructions for comparing the current succession of words in FIG. 4b, with successions of words stored beforehand. Where appropriate, the preposition 44 is identified, with a position which just precedes the word 42 to be vowel. A routine of the PGM program then selects, as a function of this comparison, the word vowel 43 ending with the sound "i" which corresponds to a declension in the ablative, brought about by the position of this preposition 44 with respect to word 43.
  • the occasional vowel is proposed as an option by the man / machine interface of the PGM program, in a preferred embodiment.
  • this program for example stored on CD-ROM, comprises the first and second memory areas D1 and D2 arranged in the form of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a computer-assisted method of adding vowels to an Arabic text. The inventive method consists in using a first dictionary (D1) containing words with no vowels and a second dictionary (D2) containing groups of one or more words with vowels, each of said groups being stored in a memory element and associated with a no-vowel word. For a common, no-vowel word, the inventive method consists in: comparing a string of characters forming the common word with a string of characters stored in the first dictionary, and extracting from the second dictionary a group of possible vowel words which correspond to the word identified in the first dictionary.

Description

Procédé, dispositif informatique et programme d'ordinateur pour 1 ' aide à la voyellation de mots en langue arabeMethod, computer device and computer program for assisting with the verbelling of words in Arabic language
L'invention concerne la voyellation d'un texte en langue arabe, assistée par des moyens informatiques.The invention relates to the vowel of a text in Arabic, assisted by computer means.
L'écriture de la langue arabe prévoit principalement deux types de caractères. Un premier type concerne les consonnes, lesquelles constituent le corps du texte. Un second type concerne les voyelles, lesquelles, dans l'écriture arabe, sont ajoutées aux consonnes par adjonction de signes de voyellation au-dessus ou en- dessous de chaque consonne.The writing of the Arabic language mainly foresees two types of characters. A first type concerns consonants, which constitute the body of the text. A second type concerns vowels, which, in Arabic script, are added to consonants by adding vowel signs above or below each consonant.
Généralement, les textes publiés en langue arabe comportent des mots représentés uniquement par leurs consonnes. Seuls les ouvrages pédagogiques pour l'apprentissage de la langue arabe présentent les consonnes avec les signes de voyellation.Generally, texts published in Arabic contain words represented only by their consonants. Only educational books for learning the Arabic language have consonants with the signs of vowel.
En se référant à la figure la, le mot représenté sur cette figure comporte trois lettres successives 1, 2 et 3, correspondant respectivement aux consonnes K, T et B. Ce mot, dans son contexte, signifie habituellement " il a écrit" et se lit KATABA. Un lecteur d'un texte arabe, pratiquant couramment cette langue, interprétera donc naturellement la succession des trois lettres de la figure la comme correspondant au mot KATABA, qui, lorsqu'il est voyelle, présente des barres horizontales 4 figurant au- dessus des lettres 1, 2 et 3, comme le montre la figure lb. En se référant à la figure lb, on comprendra ainsi que ces barres horizontales 4, placées au-dessus des consonnes K, T, B, correspondent à la voyelle A et un lecteur non initié à la langue arabe peut déduire maintenant sans ambiguïté de l'expression représentée sur la figure lb qu'il s'agit du mot KATABA.Referring to FIG. 1a, the word represented in this figure comprises three successive letters 1, 2 and 3, corresponding respectively to the consonants K, T and B. This word, in its context, usually means "he wrote" and is KATABA bed. A reader of an Arabic text, fluent in this language, will therefore naturally interpret the succession of the three letters of figure la as corresponding to the word KATABA, which, when it is vowel, has horizontal bars 4 appearing above the letters 1, 2 and 3, as shown in Figure 1b. Referring to FIG. 1b, it will thus be understood that these horizontal bars 4, placed above the consonants K, T, B, correspond to the vowel A and a reader not initiated in the Arabic language can now deduce without ambiguity from the expression represented in the figure lb that he is the word KATABA.
Toutefois, en se référant à la figure le, le lecteur non initié ne saurait pas si le mot non voyelle de la figure la correspond : - à la bonne combinaison de voyelles KATABA (portant la référence A sur la figure le) ,However, by referring to figure le, the uninitiated reader will not know if the non-vowel word in the figure corresponds to it: - to the right combination of KATABA vowels (bearing the reference A in figure le),
- à la combinaison erronée de voyelles KATABO (portant la référence B sur la figure le) ,- to the incorrect combination of KATABO vowels (bearing the reference B in Figure le),
- à la combinaison erronée de voyelles KOTOBO (portant la référence C sur la figure le) , ou à toute autre combinaison parmi 27 combinaisons possibles pour ces trois consonnes.- to the wrong combination of KOTOBO vowels (bearing the reference C in figure le), or to any other combination among 27 possible combinations for these three consonants.
En effet, on peut compter en tout 9 signes possibles de voyellation pour une consonne (a, o, i, an, oun, in, pas de voyelle associée à la consonne, hamza. et chedda) .Indeed, we can count in all 9 possible signs of vowel for a consonant (a, o, i, an, oun, in, no vowel associated with the consonant, hamza. And chedda).
Cette difficulté est d'autant accrue que certains mots, non voyelles, peuvent se lire selon une pluralité d'interprétations possibles. Par exemple, le mot "homme" , non voyelle, se lit aussi bien "homme" que "pied" , car le mot "pied" , en arabe, présente la même succession de consonnes que le mot "homme" .This difficulty is all the more increased as certain words, not vowels, can be read according to a plurality of possible interpretations. For example, the word "man", not vowel, reads both "man" and "foot", because the word "foot", in Arabic, has the same succession of consonants as the word "man".
Dans d'autres applications actuellement envisagées telles que la synthèse vocale (impliquant une conversion de caractères d'écriture en signaux de parole voisés) , la voyellation des mots apparaît nécessaire car une simple succession de consonnes ne peut pas permettre à elle seule la construction d'un signal de parole exact.In other applications currently envisaged such as speech synthesis (involving a conversion of writing characters into voiced speech signals), the Vowelization of words appears necessary because a simple succession of consonants cannot by itself allow the construction of an exact speech signal.
D'un autre côté, une voyellation manuelle d'un texte complet, édité électroniquement, est fastidieuse car l'opérateur doit actionner systématiquement une touche pour une consonne et au moins deux touches pour éditer en outre le signe de voyellation associée à cette consonne (notamment la touche " SHIFT" et une autre touche du clavier) .On the other hand, manual vowelization of a complete text, edited electronically, is tedious because the operator must systematically press a key for a consonant and at least two keys to further edit the vowel sign associated with this consonant ( including the "SHIFT" key and another key on the keyboard).
Ainsi, il existe aujourd'hui un réel besoin d'une voyellation automatique de mots en langue arabe.Thus, there is today a real need for an automatic vowel of words in the Arabic language.
On connaît, à cet effet, un procédé assisté par des moyens informatiques et basé sur le découpage de mots en une pluralité de tronçons tels que, notamment, un préfixe, un radical, un suffixe. En suivant cet exemple, chaque type de préfixe est stocké dans un premier dictionnaire, chaque type de radical est stocké dans un second dictionnaire et chaque type de suffixe est stocké dans un troisième dictionnaire. On procède de la même manière pour des verbes conjugués. Finalement, ce procédé prévoit une multiplicité de dictionnaires formant des bases de données qui sont stockées dans une mémoire des moyens informatiques précités.There is known for this purpose a process assisted by computer means and based on the cutting of words into a plurality of sections such as, in particular, a prefix, a radical, a suffix. Following this example, each type of prefix is stored in a first dictionary, each type of radical is stored in a second dictionary, and each type of suffix is stored in a third dictionary. We proceed in the same way for conjugated verbs. Finally, this method provides for a multiplicity of dictionaries forming databases which are stored in a memory of the aforementioned computer means.
Ainsi, un mot à voyeller est découpé en plusieurs tronçons. Chaque tronçon, comportant une succession identifiée de consonnes, est comparé avec une succession de consonnes correspondante dans le dictionnaire qui est propre à ce type de tronçon. Des règles de voyellation codées sous la forme d'instructions de programme informatique définissent la voyellation qui doit être appliquée à ce tronçon. Finalement, le mot voyelle est reconstruit par concaténation des différents tronçons voyelles .Thus, a word to vowel is cut into several sections. Each section, comprising an identified succession of consonants, is compared with a succession of corresponding consonants in the dictionary which is specific to this type of segment. Vowel rules encoded in the form of computer program instructions define the vowel to be applied to this section. Finally, the word vowel is reconstructed by concatenating the different vowels sections.
Ce procédé, quoique prometteur, présente de nombreuses erreurs dans sa mise en oeuvre. A titre illustratif, on comprendra par exemple que le mot " INFORMATION" comporte le radical " INFORM- " et le même suffixe " -ATION" que le mot " PERTURBATION" . Toutefois, le mot "NATION" ne peut pas être découpé de la même manière avec la lettre seule "N- " , d'une part, et la succession de lettres " -ATION" , d'autre part. Le même problème se pose en langue arabe.This process, although promising, presents numerous errors in its implementation. By way of illustration, it will be understood for example that the word "INFORMATION" includes the radical "INFORM-" and the same suffix "-ATION" as the word "PERTURBATION". However, the word "NATION" cannot be cut in the same way with the letter only "N-", on the one hand, and the succession of letters "-ATION", on the other hand. The same problem arises in the Arabic language.
La présente invention vient améliorer la situation.The present invention improves the situation.
Se basant sur une toute autre approche, elle propose à cet effet un procédé de voyellation d'un texte en langue arabe, assisté par des moyens informatiques, dans lequel : a) on prévoit une première zone mémoire dans laquelle est stocké un premier dictionnaire comportant des mots non voyelles, b) on prévoit une seconde zone mémoire dans laquelle est stocké un second dictionnaire comportant des groupes d'au moins un mot voyelle, chaque groupe étant stocké en correspondance d'un mot non voyelle dudit premier dictionnaire, c) pour un mot courant, non voyelle, on compare une chaîne de caractères formant au moins ledit mot courant avec des chaînes de caractères stockées dans la première zone mémoire, pour isoler au moins un mot du premier dictionnaire comportant la même chaîne de caractères que le mot courant, et d) on extrait du second dictionnaire un groupe de mots candidats, voyelles, correspondant audit mot isolé du premier dictionnaire.Based on a completely different approach, it proposes for this purpose a process of voelling a text in Arabic, assisted by computer means, in which: a) a first memory area is provided in which a first dictionary is stored comprising non-vowel words, b) a second memory area is provided in which a second dictionary is stored comprising groups of at least one vowel word, each group being stored in correspondence with a non-vowel word of said first dictionary, c) for a current word, not vowel, a character string forming at least said current word is compared with character strings stored in the first memory area, in order to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) a group of candidate words, vowels, corresponding to said isolated word of the first dictionary, is extracted from the second dictionary.
La présente invention vise aussi un dispositif informatique d'aide à la voyellation d'un texte en langue arabe, comportant :The present invention also relates to a computer device for assisting with the shelling of a text in the Arabic language, comprising:
- une première zone mémoire dans laquelle est stocké un premier dictionnaire comportant des mots non voyelles, - une seconde zone mémoire dans laquelle est stocké un second dictionnaire comportant des groupes d'au moins un mot voyelle, chaque groupe étant stocké en correspondance d'un mot non voyelle dudit premier dictionnaire, - une zone mémoire dans laquelle sont stockées des instructions d'une routine informatique propre à : c) comparer, pour un mot courant, non voyelle, une chaîne de caractères formant au moins ledit mot courant avec des chaînes de caractères stockées dans la première zone mémoire, pour isoler au moins un mot du premier dictionnaire comportant la même chaîne de caractères que le mot courant, et d) extraire du second dictionnaire un groupe de mots candidats, voyelles, correspondant audit mot isolé du premier dictionnaire. A ce titre, la présente invention vise aussi un programme d'ordinateur d'aide à la voyellation d'un texte en langue arabe, stocké dans une mémoire d'un dispositif informatique ou, de manière équivalente, sur un support destiné à coopérer avec un lecteur d'un dispositif informatique, comportant :- a first memory area in which is stored a first dictionary comprising non-vowel words, - a second memory area in which is stored a second dictionary comprising groups of at least one vowel word, each group being stored in correspondence with a non-vowel word of said first dictionary, - a memory zone in which instructions of a computer routine suitable for: c) are compared, for a current word, non-vowel, a character string forming at least said current word with strings of characters stored in the first memory area, to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) extract from the second dictionary a group of candidate words, vowels, corresponding to said isolated word from the first dictionary. As such, the present invention also relates to a computer program for assisting with the vellification of a text in Arabic language, stored in a memory of a computer device or, in an equivalent manner, on a medium intended to cooperate with a reader of a computer device, comprising:
- une première base de données agencée selon un premier dictionnaire comportant des mots non voyelles, une seconde base de données agencée selon un second dictionnaire comportant des groupes d'au moins un mot voyelle, chaque groupe de la seconde base étant indexé en correspondance d'un mot non voyelle de la première base, eta first database arranged according to a first dictionary comprising non-vowels words, a second database arranged according to a second dictionary comprising groups of at least one vowel word, each group of the second base being indexed in correspondence with a non vowel word from the first base, and
- une routine informatique propre à : c) comparer, pour un mot courant, non voyelle, une chaîne de caractères formant au moins ledit mot courant avec des chaînes de caractères stockées dans la première zone mémoire, pour isoler au moins un mot du premier dictionnaire comportant la même chaîne de caractères que le mot courant, et d) extraire du second dictionnaire un groupe de mots candidats, voyelles, correspondant audit mot isolé du premier dictionnaire.a computer routine suitable for: c) comparing, for a current word, not vowel, a character string forming at least said current word with character strings stored in the first memory area, to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) extracting from the second dictionary a group of candidate words, vowels, corresponding to said isolated word from the first dictionary.
On comprendra ainsi qu'une voyellation, au sens de l'invention, se base uniquement sur deux dictionnaires, l'un comprenant des mots non voyelles et l'autre, comprenant des groupes de mots voyelles. On verra dans la description d'un mode de réalisation préféré et de variantes de ce mode de réalisation, donnée ci-après, comment est sélectionné un mot candidat voyelle en remplacement d'un mot courant non voyelle.It will thus be understood that a vowel, within the meaning of the invention, is based solely on two dictionaries, one comprising non-vowel words and the other, comprising groups of vowel words. We will see in the description of a preferred embodiment and variants of this embodiment, given below, how a vowel candidate word is selected to replace a current non-vowel word.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci- après, et des dessins annexés sur lesquels :Other characteristics and advantages of the invention will appear on examining the detailed description below, and the attached drawings in which:
- la figure la illustre un mot arabe non voyelle,- the figure illustrates a non-vowel Arabic word,
- la figure lb illustre le mot de la figure la, mais voyelle maintenant, - la figure le illustre le mot de la figure la, avec plusieurs voyellations possibles de ce mot,FIG. 1B illustrates the word in FIG. 1a, but vowel now, - FIG. 1 illustrates the word in FIG. 1a, with several possible vowelings of this word,
- la figure 2 représente schématiquement un dispositif informatique pour la mise en œuvre de la présente invention, - la figure 3 représente schématiquement le contenu de zones mémoires d'une mémoire de l'unité centrale 24 de la figure 2,FIG. 2 diagrammatically represents a computer device for implementing the present invention, FIG. 3 diagrammatically represents the content of memory areas of a memory of the central unit 24 of FIG. 2,
- les figures 4a, 4b et 4c représentent respectivement un texte comportant une phrase non voyellée, une phrase voyellée sans voyelles casuelles et une phrase voyellée avec voyelles casuelles, la figure 5 représente un organigramme général du procédé selon un mode de réalisation préféré deFIGS. 4a, 4b and 4c respectively represent a text comprising a non-vowel sentence, a vowel sentence without case vowels and a vowel sentence with case vowels, FIG. 5 represents a general flow diagram of the method according to a preferred embodiment of
1 ' invention, - la figure 6 représente une boîte de dialogue mise en œuvre par un module d'interface homme/machine, pour proposer des voyellations possibles d'un mot courant, et1 invention, - Figure 6 shows a dialog box implemented by a man / machine interface module, to propose possible vowelings of a current word, and
- la figure 7 représente une boîte de dialogue proposant des étiquettes grammaticales possibles d'un mot courant. On se réfère tout d'abord à la figure 2 sur laquelle un dispositif informatique comporte classiquement une unité centrale 24, à laquelle sont reliés un écran de visualisation 21, un organe de saisie tel qu'un clavier 22 ou une souris 23, ainsi qu'une interface de communication COM, par exemple avec un serveur distant, via un réseau étendu de type INTERNET. L'unité centrale 24 comporte en outre un lecteur 25 propre à coopérer avec un support mémoire tel qu'un CD-ROM, un DVD-ROM, une disquette, ou tout autre support mémoire. On comprendra ainsi qu'un programme informatique, au sens de l'invention, peut être stocké sur un support mémoire de ce type, tandis que des mises a jour des dictionnaires précités peuvent être téléchargées du serveur distant ou encore obtenues sur un autre support mémoire .- Figure 7 shows a dialog box offering possible grammatical labels of a current word. First of all, reference is made to FIG. 2 in which a computer device conventionally comprises a central unit 24, to which are connected a display screen 21, an input device such as a keyboard 22 or a mouse 23, as well as '' a COM communication interface, for example with a remote server, via a wide area network of the INTERNET type. The central unit 24 further comprises a reader 25 capable of cooperating with a memory medium such as a CD-ROM, a DVD-ROM, a floppy disk, or any other memory medium. It will thus be understood that a computer program, within the meaning of the invention, can be stored on a memory medium of this type, while updates to the aforementioned dictionaries can be downloaded from the remote server or even obtained on another memory medium. .
La figure 3 représente une structure d'une mémoire (par exemple de type ROM) dans laquelle sont stockés les premier et second dictionnaires précités. On indique que l'unité centrale 24 comporte une mémoire, par exemple une mémoire permanente de type ROM, dans laquelle sont stockées sous forme numérique des successions de caractères arabes formant des mots des premier et second dictionnaires .FIG. 3 represents a structure of a memory (for example of ROM type) in which the first and second abovementioned dictionaries are stored. It is indicated that the central unit 24 comprises a memory, for example a permanent ROM type memory, in which are stored in digital form successions of Arabic characters forming words of the first and second dictionaries.
Une première zone mémoire Dl stocke un premier dictionnaire comportant des mots non voyelles 31, 32. Une seconde zone mémoire D2 stocke un second dictionnaire comportant des groupes 3-1, 3-2 d'un ou plusieurs mots voyelles 311,312 ; 321,322. Préférentielle ent , chaque groupe 3-1, 3-2 du second dictionnaire D2 est stocké en correspondance d'un mot non voyelle 31, 32 du premier dictionnaire Dl, comme l'illustrent les flèches de correspondance Fil, F12, F21, F22 sur la figure 3. On retrouve par exemple dans le premier dictionnaire Dl,. la succession des trois consonnes K,T,B (mot 31) de la figure la et, dans le second dictionnaire D2 , le mot KATABA 311.A first memory area D1 stores a first dictionary comprising non-vowel words 31, 32. A second memory area D2 stores a second dictionary comprising groups 3-1, 3-2 of one or more vowel words 311,312; 321,322. Preferably, each group 3-1, 3-2 of the second dictionary D2 is stored in correspondence of a non-vowel word 31, 32 of the first dictionary Dl, as illustrated by the correspondence arrows Fil, F12, F21, F22 in FIG. 3. We find for example in the first dictionary Dl ,. the succession of the three consonants K, T, B (word 31) of figure la and, in the second dictionary D2, the word KATABA 311.
On indique que, dans une réalisation préférée, seuls les mots voyelles qui ont un sens sont répertoriés dans le second dictionnaire précité. Toutefois, en variante, on peut prévoir de former un second dictionnaire initial comportant toutes les combinaisons possibles de voyelles pour une succession donnée de consonnes, tandis qu'un utilisateur supprime du second dictionnaire, au fur et à mesure de l'utilisation, les combinaisons aberrantes et qui correspondent à des mots qui n'ont aucun sens. Dans ce cas, le second dictionnaire est formé par apprentissage en éliminant de la zone mémoire D2 les combinaisons aberrantes .It is indicated that, in a preferred embodiment, only the words vowels which have a meaning are listed in the aforementioned second dictionary. However, as a variant, provision may be made for forming a second initial dictionary comprising all the possible combinations of vowels for a given succession of consonants, while a user deletes from the second dictionary, as and when used, the combinations outliers and which correspond to words which have no meaning. In this case, the second dictionary is formed by learning by eliminating outliers from the memory area D2.
Cependant, dans le mode de réalisation préféré, le second dictionnaire est construit initialement avec des mots voyelles qui ont un sens, de manière à offrir une utilisation agréable et conviviale du programme au sens de 1 ' invention.However, in the preferred embodiment, the second dictionary is initially constructed with vowel words which have a meaning, so as to offer a pleasant and user-friendly use of the program within the meaning of the invention.
Bien entendu, pour un programme d'ordinateur d'aide à la voyellation au sens de l'invention, stocké dans une mémoire d'un dispositif informatique ou sur un support capable de coopérer avec un lecteur d'un dispositif informatique, les premier et second dictionnaires se présentent respectivement sous la forme : - d'une première base de données Dl dont la structure est arrangée selon le premier dictionnaire qui comporte des mots non voyelles, etOf course, for a computer program for assisting with vellification within the meaning of the invention, stored in a memory of a computer device or on a medium capable of cooperating with a reader of a device data processing, the first and second dictionaries are respectively in the form: - of a first database Dl whose structure is arranged according to the first dictionary which includes non-vowels words, and
- d'une seconde base de données D2 dont la structure est arrangée selon le second dictionnaire qui comporte des groupes d'au moins un mot voyelle.- a second database D2, the structure of which is arranged according to the second dictionary which comprises groups of at least one vowel word.
Chaque groupe de la seconde base de données D2 est indexé en correspondance d'un mot non voyelle de la première base de données Dl, comme le montrent encore les flèches de correspondance Fil à F22 de la figure 3.Each group of the second database D2 is indexed in correspondence of a non-vowel word of the first database D1, as further shown by the correspondence arrows Fil to F22 of FIG. 3.
On se réfère maintenant aux figures 4a et 4b qui représentent respectivement un texte non voyelle contenant une phrase complète délimitée par deux points PI et P2 et un texte partiellement voyelle contenant ladite phrase délimitée par les points PI et P2. On rappelle que l'arabe se lit de la droite vers la gauche. On comprendra ainsi qu'une succession de mots peut se présenter sous la forme d'une phrase complète définie par une chaîne de caractères entre deux caractères de ponctuation PI et P2 , les différents mots de cette phrase pouvant être voyelles en fonction de leur position dans la phrase, comme on le verra plus loin.Reference is now made to FIGS. 4a and 4b which respectively represent a non-vowel text containing a complete sentence delimited by two points PI and P2 and a partially vowel text containing said sentence delimited by the points PI and P2. Remember that Arabic can be read from right to left. It will thus be understood that a succession of words can be in the form of a complete sentence defined by a character string between two punctuation characters PI and P2, the different words of this sentence being able to be vowels according to their position in the sentence, as we will see later.
On indique simplement ici que le texte de la figure 4b ne comporte pas systématiquement de voyelles dites " casuelles" et qui sont attribuées le plus souvent en fin de mot. En revanche, le texte de la figure 4c est voyelle πIt is simply indicated here that the text of FIG. 4b does not systematically include so-called "case" vowels which are most often assigned at the end of the word. On the other hand, the text of figure 4c is vowel π
de _._façon complète et comporte en outre les voyelles casuelles qui apparaissent notamment à la dernière lettre 431 du mot 43 (avec un trait horizontal sous cette dernière lettre 431 et à comparer avec la dernière lettre non voyellée 421 du mot 42 (partiellement voyelle) de la figure 4b) .of _._ in a complete way and also includes the occasional vowels which appear in particular at the last letter 431 of the word 43 (with a horizontal line under this last letter 431 and to compare with the last non-vowel letter 421 of the word 42 (partially vowel) in Figure 4b).
En outre, on reconnaîtra sur la figure 4a le mot non voyelle, référencé 45, qui comporte la succession de caractère 1, 2, 3 de la figure la, correspondant aux consonnes K, T, B. On reconnaîtra aussi sur la figure 4b le mot voyelle 451 qui correspond au mot KATABA de la figure lb et voyelle par des traits horizontaux 4 au- dessus des consonnes, qui sont représentatifs de la voyelle "A" .In addition, we will recognize in Figure 4a the word non-vowel, referenced 45, which includes the succession of characters 1, 2, 3 of Figure la, corresponding to consonants K, T, B. We will also recognize in Figure 4b word vowel 451 which corresponds to the word KATABA in FIG. 1b and vowel by horizontal lines 4 above the consonants, which are representative of the vowel "A".
Ces phrases des figures 4a, 4b et 4c apparaissent ainsi à l'écran 21 du dispositif informatique et les caractères des textes formant ces phrases sont classiquement stockés sous forme numérique TXT (figure 3) dans une mémoire de travail Z4 (par exemple de type RAM) de l'unité centrale 24 du dispositif informatique.These sentences of FIGS. 4a, 4b and 4c thus appear on the screen 21 of the computer device and the characters of the texts forming these sentences are conventionally stored in digital form TXT (FIG. 3) in a working memory Z4 (for example of the RAM type). ) of the central unit 24 of the computing device.
En se référant à nouveau à la figure 3, le dispositif informatique comporte en outre une zone mémoire Z3 dans laquelle sont stockées des instructions d'un programme informatique PGM propre à :Referring again to FIG. 3, the computer device also comprises a memory area Z3 in which instructions of a computer program PGM are stored which are specific to:
- comparer, pour un mot courant non voyelle (portant la référence 45 sur la figure 4a) , une chaîne de caractères (en l'espèce les consonnes 1, 2 et 3 de la figure la) formant ce mot courant 45, avec des chaînes de caractères 31 stockées dans la-première zone mémoire Dl, pour isoler le mot 31 du premier dictionnaire Dl comportant la même chaîne de caractères que le mot courant 45, et - extraire du second dictionnaire D2 un groupe 3-1 de mots candidats 311,321, voyelles et qui correspondent (flèches Fil et F12) au mot isolé 31 du premier dictionnaire Dl .- compare, for a current non-vowel word (bearing the reference 45 in FIG. 4a), a character string (in this case the consonants 1, 2 and 3 of FIG. la) forming this current word 45, with strings of characters 31 stored in the first memory area Dl, to isolate the word 31 from the first dictionary Dl comprising the same character string as the current word 45, and - extract from the second dictionary D2 a group 3-1 of candidate words 311, 321, vowels and which correspond (arrows Fil and F12) to the isolated word 31 of the first dictionary Dl.
On se réfère maintenant à la figure 5 pour décrire le déroulement de la routine informatique du programme PGM. On ch rchè à voyeller ici un mot 45 qui apparaît dans un texte édité électroniquement sur l'écran 21 de la figure 2. Cette routine repère d'abord, par exemple par reconnaissance de caractères, à l'étape 51, les caractères (les consonnes 1, 2, 3) du mot non voyelle 45. La routine effectue ensuite, à l'étape 52, une comparaison avec des mots non voyelles et répertoriés dans le dictionnaire Dl pour en isoler, à l'étape 53, un mot non voyelle 31 présentant la même succession de consonnes 1, 2, 3.We now refer to FIG. 5 to describe the flow of the computer routine of the PGM program. We try to vowel here a word 45 which appears in a text electronically edited on the screen 21 of FIG. 2. This routine first locates, for example by character recognition, in step 51, the characters (the consonants 1, 2, 3) of the non-vowel word 45. The routine then performs, in step 52, a comparison with words not vowels and listed in the dictionary Dl to isolate, in step 53, a non-word vowel 31 with the same succession of consonants 1, 2, 3.
A l'étape 54, le programme PGM détermine, en fonction de l'emplacement mémoire dans la zone mémoire Dl du mot 31, l'emplacement mémoire du groupe 3-1 dans la zone mémoire D2 et comprenant les mots voyelles 311 et 312, du second dictionnaire de mots voyelles. A l'étape 55, le programme PGM extrait de la zone mémoire D2 le groupe de mots candidats 311 et 312 comportant la même succession de consonnes mais voyelles différemment.In step 54, the program PGM determines, as a function of the memory location in the memory area D1 of word 31, the memory location of group 3-1 in the memory area D2 and comprising the vowels words 311 and 312, from the second dictionary of vowels words. In step 55, the program PGM extracts from the memory area D2 the group of candidate words 311 and 312 comprising the same succession of consonants but vowels differently.
Dans un mode de réalisation préféré, on prévoit en outre un module d'interface homme/machine, préfèrentiellement sous la forme d'instructions informatiques faisant partie du programme PGM. Sur la figure 6, on montre une copie d'écran 21 faisant apparaître, pour un texte 62 édité électroniquement, une boîte de dialogue 61 qui est l'une des fonctionnalités de cette interface homme/machine . Pour un mot courant 45, non voyelle, sélectionné par un utilisateur (à partir d'un organe de saisie comme la souris 23) et qui apparaît, pour cette raison, contrasté dans le texte 62, la boîte de dialogue 61 indique d'abord quel est le mot 31 analysé en correspondance dans le premier dictionnaire Dl . Ensuite, la boîte de dialogue 61 propose des voyellations potentielles de ce mot courant 45, qui correspondent à des mots voyelles candidats 312 etIn a preferred embodiment, a man / machine interface module is also provided, preferably in the form of computer instructions forming part of the PGM program. In FIG. 6, a screenshot 21 is shown showing, for a text 62 electronically edited, a dialog box 61 which is one of the functionalities of this man / machine interface. For a current word 45, non-vowel, selected by a user (from an input device such as the mouse 23) and which appears, for this reason, contrasted in the text 62, the dialog box 61 first indicates what is the word 31 analyzed in correspondence in the first dictionary Dl. Then, the dialog box 61 proposes potential vowelings of this current word 45, which correspond to candidate vowels words 312 and
311 du second dictionnaire D2 , pour la même succession de consonnes que le mot 31 du premier dictionnaire. Ainsi, dans le deuxième cadre de la boîte de dialogue 61, l'interface homme/machine propose à un utilisateur une liste de choix des mots candidats 311 et 312.311 from the second dictionary D2, for the same succession of consonants as word 31 from the first dictionary. Thus, in the second frame of the dialog box 61, the man / machine interface offers a user a choice list of candidate words 311 and 312.
En se référant à nouveau à la figure 5, dans un mode de réalisation préférée, l'utilisateur choisit, à l'étape 56, un mot candidat 311 parmi la liste de mots candidats 311,Referring again to FIG. 5, in a preferred embodiment, the user chooses, in step 56, a candidate word 311 from the list of candidate words 311,
312 du groupe de mots 3-1. A l'étape 57, le mot choisi 311, voyelle, remplace automatiquement le mot 45, non voyelle, dans le texte édité électroniquement. On précise en outre que "le choix" de l'utilisateur est mémorisé à l'étape 58, dans une zone mémoire Z5 du dispositif informatique. Préférentiellement , cette zone mémoire Z5 est en correspondance de la zone mémoire D2 dans laquelle est stocké le second dictionnaire, de manière à enrichir ce dernier. Plus particulièrement, le mot choisi 311, ainsi voyelle, est stocké avec les mots le précédant et/ou le succédant dans une partie du texte édité. Préférentiellement , le mot choisi 311 est stocké avec la phrase complète dans laquelle il apparaît, en vue de perfectionner la voyellation au sens de la présente invention, par apprentissage, comme on le verra plus loin. On indique simplement ici que, si le mot courant 45 à voyeller fait partie d'une succession courante de mots, telle qu'une phrase complète, suite au choix d'un mot 311 par l'utilisateur (dans la liste de mots candidats 311, 312) , le mot voyelle choisi 311 et la succession de mots qui le comporte sont mémorisés dans la zone mémoire Z5 précitée .312 from word group 3-1. In step 57, the chosen word 311, vowel, automatically replaces word 45, not vowel, in the text edited electronically. It is further specified that the "choice" of the user is stored in step 58, in a memory zone Z5 of the computer device. Preferably, this memory zone Z5 is in correspondence with the memory zone D2 in which the second dictionary is stored, so as to enrich the latter. More particularly, the chosen word 311, thus vowel, is stored with the words preceding and / or succeeding it in part of the edited text. Preferably, the chosen word 311 is stored with the complete sentence in which it appears, with a view to perfecting the voyellation within the meaning of the present invention, by learning, as will be seen below. It is simply indicated here that, if the current word 45 to be vellified is part of a current succession of words, such as a complete sentence, following the choice of a word 311 by the user (in the list of candidate words 311 , 312), the selected vowel word 311 and the succession of words which comprise it are stored in the aforementioned memory zone Z5.
Ainsi, dans le troisième cadre de la boîte de dialogue 61 de la figure 6, l'interface homme/machine indique à l'utilisateur le mot choisi 311, qui va être édité dans le texte 62 en remplacement du mot 45 non voyelle et préférentiellement mémorisé avec une succession de mots le précédant et/ou le succédant.Thus, in the third frame of the dialog box 61 of FIG. 6, the man / machine interface indicates to the user the chosen word 311, which will be edited in the text 62 to replace the word 45 not vowel and preferably memorized with a succession of words preceding and / or succeeding it.
On se réfère à nouveau aux figures 4a à 4c pour décrire ci -après une voyellation des mots en fonction de leur contexte .Reference is again made to FIGS. 4a to 4c to describe below a vowelization of the words according to their context.
Sur la figure 4a, on s'intéresse en particulier au premier mot de la phrase qui suit le point PI, sachant que l'arabe se lit de la droite vers la gauche. On reconnaît ce premier mot de la phrase sur la figure 3 qui correspond à l'expression non voyellée 32 du premier dictionnaire Dl . Or, ce mot ,non voyelle 32 admet deux voyellations possibles 321 (signifiant l'expression " il est allé" ) et 322 (signifiant le métal " or" ) dans le second dictionnaire D2.In Figure 4a, we are particularly interested in the first word of the sentence following the point PI, knowing that Arabic can be read from right to left. We recognize this first word of the sentence in Figure 3 which corresponds to the non-vowel expression 32 of the first dictionary Dl. However, this word, non-vowel 32 admits two possible vowelings 321 (meaning the expression "he went") and 322 (meaning the metal "gold") in the second dictionary D2.
Généralement, en langue arabe, un mot commençant une phrase correspond à un verbe. Ainsi, le mot qui succède au premier point PI de la figure 4a est un verbe dont la forme voyellée correspond avec quasi-certitude au verbe conjugué 321 du second dictionnaire D2 de la figure 3.Generally, in the Arabic language, a word beginning a sentence corresponds to a verb. Thus, the word which succeeds the first point PI of FIG. 4a is a verb whose vowel form corresponds with almost certainty to the conjugated verb 321 of the second dictionary D2 of FIG. 3.
Ainsi,, si le mot courant fait partie d'une succession de mots, on compare, de façon plus large, une chaîne de caractères formant cette succession de mots comportant le mot courant, avec des chaînes de caractères stockées dans la zone Z5 précitée en correspondance de la seconde zone mémoire D2 , pour identifier une pluralité de mots comportant une même chaîne de caractères que cette succession de mots. Cette étape correspond, dans une perspective plus large, à l'étape 51 représentée sur la figure 5.Thus, if the current word is part of a succession of words, a string of characters forming this succession of words comprising the current word is compared more broadly with strings of characters stored in the aforementioned zone Z5 in correspondence of the second memory area D2, to identify a plurality of words comprising the same character string as this succession of words. This step corresponds, in a broader perspective, to step 51 represented in FIG. 5.
On indique alors que le programme PGM peut comporter des instructions pour effectuer cette comparaison " élargie à une succession de mots" . Par exemple, pour une phrase complète, une routine informatique peut être prévue pour isoler les caractères de la phrase complète entre les deux signes de ponctuation PI et P2.It is then indicated that the PGM program can include instructions for carrying out this comparison "extended to a succession of words". For example, for a complete sentence, a computer routine can be provided to isolate the characters of the complete sentence between the two punctuation marks PI and P2.
Ensuite, pour le mot courant à voyeller, on sélectionne parmi le groupe de mots candidats voyelles extraits du second dictionnaire D2 , un mot voyelle (ici le verbe 321) en fonction de la succession de mots identifiés et, en particulier, d'une position du mot courant 32 dans cette succession de mots identifiés. Ici, le mot 32 commence la phrase et correspond donc au verbe voyelle 321.Then, for the current word to vowel, one selects from the group of candidate words vowels extracted from the second dictionary D2, a word vowel (here the verb 321) according to the succession of identified words and, in particular, of a position of the current word 32 in this succession of identified words. Here, the word 32 begins the sentence and therefore corresponds to the verb vowel 321.
Avantageusement, on peut procéder alors à un remplacement automatique, dans le texte édité électroniquement, du mot courant non voyelle 32 par le mot voyelle 321, sélectionné automatiquement parmi le groupe de mots candidats 321 et 322.Advantageously, one can then proceed to an automatic replacement, in the electronically edited text, of the current non-vowel word 32 by the word vowel 321, automatically selected from the group of candidate words 321 and 322.
On comprendra ainsi que cette voyellation automatique est avantageusement assurée ici par mémorisation de phrases complètes et/ou de succession de mots, dont la voyellation est validée par l'utilisateur, au fur et à mesure de l'utilisation du logiciel informatique d'aide à la voyellation, donc par apprentissage. Des routines d'apprentissage informatique sont connues en soi. On indique par exemple que des routines telles que celles utilisées par le logiciel ViaVoice ® de la société Microsoft ® conviennent bien à la détermination de caractères écrits par apprentissage.It will thus be understood that this automatic vowel is advantageously provided here by memorization of complete sentences and / or succession of words, the vowel of which is validated by the user, as and when the computer software for assistance is used. the vowel, so by learning. Computer learning routines are known per se. It is indicated for example that routines such as those used by the software ViaVoice ® of the company Microsoft ® are well suited to the determination of written characters by learning.
Toutefois, en cas d'incertitude sur la voyellation, 1 ' interface homme/machine propose avantageusement à l'utilisateur une liste de choix comportant des mots sélectionnés parmi des mots candidats du second dictionnaire. Cette situation est représentée sur la figure 6 où deux voyellations possibles 312 et 311, qui sont cohérentes en fonction du contexte du mot courant 45, sont proposées à l'utilisateur. De façon encore plus avantageuse, cette liste est hiérarchisée, en fonction du contexte, par ordre de pertinence des voyellations proposées. En particulier, cette hiérarchie peut être déduite par apprentissage, en analysant la forme de voyellation préférée par l'utilisateur et qui revient le plus souvent au cours de l'utilisation.However, in the event of uncertainty about the vowel, the man / machine interface advantageously offers the user a choice list comprising words selected from candidate words of the second dictionary. This situation is represented in FIG. 6 where two possible vowelings 312 and 311, which are consistent as a function of the context of the current word 45, are proposed to the user. Even more advantageously, this list is hierarchical, according to the context, in order of relevance of the proposed vowels. In particular, this hierarchy can be deduced by learning, by analyzing the form of vowel preferred by the user and which returns most often during use.
En se référant à la figure 7, de façon avantageuse, des étiquettes grammaticales en correspondance de chaque mot 311 dans chaque groupe 3-1 du second dictionnaire D2 sont stockées dans une zone mémoire (non représentée) , de sorte que l'interface homme/machine, en particulier la boîte de dialogue 61 de la figure 7, indique en outre à l'utilisateur une étiquette grammaticale 70 de chacun des mots sélectionnés parmi les mots candidats 311, 312. Le cas échéant, cette étiquette grammaticale est validée par l'utilisateur, dans le cadre 71 de la boîte de dialogue. On indique que cette étiquette grammaticale correspond par exemple à une description syntaxique d'un mot, du type "nom commun, au singulier, défini , placé en tant que sujet dans la phrase, etc" . Bien entendu, cette étiquette grammaticale est définie et validée en fonction de la position du mot analysé 45 dans la phrase courante.Referring to FIG. 7, advantageously, grammatical labels corresponding to each word 311 in each group 3-1 of the second dictionary D2 are stored in a memory area (not shown), so that the man / machine, in particular the dialog box 61 in FIG. 7, furthermore indicates to the user a grammatical label 70 of each of the words selected from the candidate words 311, 312. If necessary, this grammatical label is validated by the user, in frame 71 of the dialog box. It is indicated that this grammatical label corresponds for example to a syntactic description of a word, of the type "common name, in the singular, defined, placed as subject in the sentence, etc.". Of course, this grammatical label is defined and validated as a function of the position of the word analyzed 45 in the current sentence.
A cet effet, on prévoit une zone mémoire (par exemple en correspondance encore de la seconde zone mémoire D2) pour stocker en outre des étiquettes grammaticales 70 correspondant chacune à un mot voyelle 311 du second dictionnaire.To this end, a memory area is provided (for example still in correspondence with the second memory area D2) to further store grammatical labels 70 each corresponding to a vowel word 311 of the second dictionary.
Comme le montrent les figures 6 et 7, on précise que le programme informatique PGM, pour la mise en œuvre de l'invention, ainsi que le module d'interface homme/machine, sont compatibles avec des moyens électroniques d'édition de texte en langue arabe, tels que le logiciel MICROSOFT WORD ® .As shown in Figures 6 and 7, it is specified that the PGM computer program, for the implementation of the invention and the interface module man / machine are compatible with electronic means of editing text in Arabic language, such as MICROSOFT WORD ® software.
On décrit ci-après un autre type de voyellation automatique possible, dite " casuelle" . Les voyelles casuelles sont le plus souvent attribuées aux consonnes de fin de mot, suivant le contexte de ce mot dans une phrase. Par exemple, le mot 42 de la figure 4b, dans son contexte, admet une voyellation de sa dernière lettre 421, par le son "i" qui correspond à une barre horizontale 431 sous cette lettre de fin.Another possible type of automatic voyellation, called "casual", is described below. Case vowels are most often assigned to end-of-word consonants, depending on the context of that word in a sentence. For example, the word 42 in FIG. 4b, in its context, admits a vowel of its last letter 421, by the sound "i" which corresponds to a horizontal bar 431 under this end letter.
On rappelle qu'il existe, dans la langue arabe, une pluralité de déclinaisons possibles pour un nom commun, telles que le nominatif (déterminé ou indéterminé) , l'accusatif (déterminé ou indéterminé), l'ablatif (déterminé ou indéterminé), etc. A ces déclinaisons correspondent des voyellations de fin de mot avec les sons suivants : - "0" = nominatif déterminé, - "OUN" = nominatif indéterminé, - "A" = accusatif déterminé, - "AN" = accusatif indéterminé, - "I" = ablatif déterminé, - "IN" = ablatif indéterminé, etc.We recall that there are, in the Arabic language, a plurality of possible variations for a common name, such as nominative (determined or indeterminate), accusative (determined or indeterminate), ablative (determined or indeterminate), etc. These declensions correspond to end-of-word vowels with the following sounds: - "0" = determined nominative, - "OUN" = unspecified nominative, - "A" = determined accusative, - "AN" = unspecified accusative, - "I "= determined ablative, -" IN "= indeterminate ablative, etc.
Par exemple, en se référant à nouveau aux figures 4b et 4c, la préposition correspondant au mot 44 est repérée dans la succession de mots dans laquelle figure le mot 43. Cette préposition 44 entraîne nécessairement une déclinaison à l'ablatif du mot 43 qui suit, avec une voyellation casuelle automatique par le son "i" de la dernière lettre 431 du mot 43.For example, by referring again to FIGS. 4b and 4c, the preposition corresponding to the word 44 is identified in the succession of words in which the word 43 appears. This preposition 44 necessarily leads to an ablative variation of the word 43 which follows, with an automatic occasional vowelization by the sound "i" of the last letter 431 of the word 43.
Ainsi, comme précédemment, la routine informatique du programme PGM comporte des instructions pour comparer la succession courante de mots de la figure 4b, avec des successions de mots mémorisées au préalable. Le cas échéant, la préposition 44 est identifiée, avec une position qui précède juste le mot 42 à voyeller. Une routine du programme PGM sélectionne alors, en fonction de cette comparaison, le mot voyelle 43 finissant par le son "i" qui correspond à une déclinaison à l'ablatif, entraînée par la position de cette préposition 44 par rapport au mot 43. On indique que la voyellation casuelle est proposée comme option par l'interface homme/machine du programme PGM, dans un mode de réalisation préféré.Thus, as before, the computer routine of the PGM program includes instructions for comparing the current succession of words in FIG. 4b, with successions of words stored beforehand. Where appropriate, the preposition 44 is identified, with a position which just precedes the word 42 to be vowel. A routine of the PGM program then selects, as a function of this comparison, the word vowel 43 ending with the sound "i" which corresponds to a declension in the ablative, brought about by the position of this preposition 44 with respect to word 43. We indicates that the occasional vowel is proposed as an option by the man / machine interface of the PGM program, in a preferred embodiment.
De manière générale, on comprendra que les étapes décrites ci-avant, notamment celles en référence avec la figure 5, sont mise en œuvre par le déroulement d'instructions ou de routines informatiques du programme PGM, lequel est donc destiné à être installé dans une mémoire d'une machine ou d'un dispositif informatique du type représenté sur la figure 2. Initialement, ce programme, par exemple stocké sur CD-ROM, comporte les première et seconde zones mémoires Dl et D2 agencées sous forme de bases de donnéesIn general, it will be understood that the steps described above, in particular those with reference to FIG. 5, are implemented by the execution of instructions or computer routines of the PGM program, which is therefore intended to be installed in a memory of a machine or of a computer device of the type represented in FIG. 2. Initially, this program, for example stored on CD-ROM, comprises the first and second memory areas D1 and D2 arranged in the form of databases
(avec, le cas échéant, les données des étiquettes grammaticales) , lesquelles peuvent être chargées et copiées en mémoire (par exemple permanente de type ROM) du dispositif informatique précité. On comprendra que ces bases de données, une fois copiées en mémoire du dispositif, peuvent ensuite être enrichies, notamment par apprentissage. En particulier, il en va de même pour ladite zone mémoire Z5 en correspondance de la seconde zone mémoire, qui est destinée à stocker les successions de mots ou des phrases complètes. La base de données stockée dans la zone Z5 (dans une mémoire du dispositif) est ainsi enrichie au fur et à mesure de l'utilisation. (with, where appropriate, the data of the grammar labels), which can be loaded and copied in memory (for example permanent ROM type) of the aforementioned computer device. It will be understood that these databases, once copied to the memory of the device, can then be enriched, in particular by learning. In particular, the same applies to said memory area Z5 in correspondence with the second memory area, which is intended to store the successions of words or complete sentences. The database stored in zone Z5 (in a memory of the device) is thus enriched as and when used.

Claims

Revendications claims
1. Procédé de voyellation d'un texte en langue arabe, assisté par des moyens informatiques, dans lequel : a) on prévoit une première zone mémoire dans laquelle est stocké un premier dictionnaire comportant des mots non voyelles, b) on prévoit une seconde zone mémoire dans laquelle est stocké un second dictionnaire comportant des groupes d'au moins un mot voyelle, chaque groupe étant stocké en correspondance d'un mot non voyelle dudit premier dictionnaire, c) pour un mot courant, non voyelle, on compare une chaîne de caractères formant au moins ledit mot courant avec des chaînes de caractères stockées dans la première zone mémoire, pour isoler au moins un mot du premier dictionnaire comportant la même chaîne de caractères que le mot courant, et d) on extrait du second dictionnaire un groupe de mots candidats, voyelles, correspondant audit mot isolé du premier dictionnaire.1. Method for voelling a text in Arabic, assisted by computer means, in which: a) a first memory area is provided in which a first dictionary containing non-vowel words is stored, b) a second area is provided memory in which is stored a second dictionary comprising groups of at least one vowel word, each group being stored in correspondence with a non-vowel word of said first dictionary, c) for a current word, non-vowel, a chain of characters forming at least said current word with character strings stored in the first memory area, to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) a group of candidate words, vowels, corresponding to said isolated word of the first dictionary.
2. Procédé selon la revendication 1, dans lequel on prévoit une routine informatique propre à effectuer ladite comparaison des chaînes de caractères et ladite extraction du groupe de mots candidats.2. Method according to claim 1, in which a computer routine is provided capable of carrying out said comparison of the character strings and said extraction of the group of candidate words.
3. Procédé selon la revendication 1, dans lequel on prévoit en outre une interface homme/machine propre à proposer à un utilisateur une liste de choix desdits mots candidats . 3. The method of claim 1, wherein there is further provided a man / machine interface suitable for proposing to a user a choice list of said candidate words.
4. Procédé selon la revendication 1, dans lequel, ledit mot courant faisant partie d'une succession de mots, cl) on compare une chaîne de caractères formant ladite succession de mots comportant le mot courant, avec des chaînes de caractères stockées dans une zone mémoire en correspondance de la seconde zone mémoire, pour identifier une pluralité de mots comportant une même chaîne de caractères que ladite succession de mots, et d2) pour ledit mot courant, on sélectionne parmi ledit groupe de mots candidats voyelles, au moins un mot voyelle en fonction de la succession de mots identifiés et d'une position du mot courant dans ladite succession de mots identifiés .4. Method according to claim 1, in which, said current word being part of a succession of words, c1) a character string forming said succession of words comprising the current word is compared with strings of characters stored in an area memory in correspondence of the second memory area, to identify a plurality of words comprising the same character string as said succession of words, and d2) for said current word, at least one vowel word is selected from said group of candidate word vowels as a function of the succession of identified words and of a position of the current word in said succession of identified words.
5. Procédé selon la revendication 4, dans lequel ladite succession de mots est une phrase complète définie par une chaîne de caractères entre deux caractères de ponctuation.5. The method of claim 4, wherein said succession of words is a complete sentence defined by a character string between two punctuation characters.
6. Procédé selon la revendication 4, dans lequel on remplace automatiquement dans un texte édité électroniquement ledit mot courant par ledit mot voyelle, sélectionné parmi le groupe de mots candidats.6. The method of claim 4, wherein automatically replacing in an electronically edited text said current word by said vowel word, selected from the group of candidate words.
7. Procédé selon la revendication 3 et la revendication 4, dans lequel 1 ' interface homme/machine propose à un utilisateur une liste de choix comportant des mots sélectionnés parmi lesdits mots candidats.7. The method of claim 3 and claim 4, wherein the man / machine interface offers a user a list of choices comprising words selected from said candidate words.
8. Procédé selon la revendication 7, dans lequel on stocke en outre des étiquettes grammaticales en correspondance de chaque mot dans chaque groupe du second dictionnaire, et dans lequel 1 ' interface homme/machine indique en outre à l'utilisateur une étiquette grammaticale de chacun des mots sélectionnés parmi lesdits mots candidats.8. The method of claim 7, wherein the grammatical labels are further stored in correspondence with each word in each group of the second dictionary, and in which the man / machine interface further indicates to the user a grammatical label of each of the words selected from said candidate words.
9. Procédé selon la revendication 3, dans lequel, ledit mot courant faisant partie d'une succession courante de mots , suite au choix d'un mot par ledit utilisateur dans la liste de mots candidats, on mémorise le mot choisi avec ladite succession de mots, dans une zone mémoire en correspondance de ladite seconde zone mémoire.9. The method of claim 3, wherein, said current word being part of a current succession of words, following the choice of a word by said user from the list of candidate words, the word chosen is stored with said succession of words, in a memory area in correspondence of said second memory area.
10. Procédé selon la revendication 8 et la revendication 4, dans lequel la sélection du mot voyelle parmi ledit groupe de mots candidats voyelles est effectuée par apprentissage, en comparant la succession courante de mots avec des successions de mots mémorisées dans ladite zone mémoire en correspondance de la seconde zone mémoire.10. The method as claimed in claim 8 and claim 4, in which the selection of the word vowel from said group of candidate vowels words is carried out by learning, by comparing the current succession of words with successions of words stored in said corresponding memory area. from the second memory area.
11. Dispositif informatique d'aide à la voyellation d'un texte en langue arabe, comportant :11. Computer device for assisting with the shelling of a text in Arabic, comprising:
- une première zone mémoire dans laquelle est stocké un premier dictionnaire comportant des mots non voyelles, - une seconde zone mémoire dans laquelle est stocké un second dictionnaire comportant des groupes d'au moins un mot voyelle, chaque groupe étant stocké en correspondance d'un mot non voyelle dudit premier dictionnaire, une zone mémoire dans laquelle sont stockées des instructions d'une routine informatique propre à : c) comparer, pour un mot courant, non voyelle, une chaîne de caractères formant au moins ledit mot courant avec des chaînes de caractères stockées dans la première zone mémoire, pour isoler au moins un mot du premier i dictionnaire comportant la même chaîne de caractères que le mot courant, et d) extraire du second dictionnaire un groupe de mots candidats, voyelles, correspondant audit mot isolé du premier dictionnaire.- a first memory area in which is stored a first dictionary comprising non-vowel words, - a second memory area in which is stored a second dictionary comprising groups of at least one vowel word, each group being stored in correspondence with a non-vowel word of said first dictionary, a memory zone in which instructions of a computer routine specific to: c) compare, for a current, non-vowel word, a character string forming at least said current word with character strings stored in the first memory area, to isolate at least one word from the first dictionary comprising the same character string than the current word, and d) extract from the second dictionary a group of candidate words, vowels, corresponding to said isolated word from the first dictionary.
12. Dispositif informatique selon la revendication 11, comportant en outre une interface homme/machine propre à proposer à un utilisateur une liste de choix desdits mots candidats .12. The computer device as claimed in claim 11, further comprising a man / machine interface suitable for proposing to a user a choice list of said candidate words.
13. Dispositif informatique selon la revendication 11, dans lequel, ledit mot courant faisant partie d'une succession de mots, ladite routine informatique est agencée pour : cl) comparer une chaîne de caractères formant ladite succession de mots comportant le mot courant, avec des chaînes de caractères stockées dans une zone mémoire en correspondance de la seconde zone mémoire, pour identifier une pluralité de mots comportant une même chaîne de caractères que ladite succession de mots, et d2) pour ledit mot courant, sélectionner parmi ledit groupe de mots candidats voyelles, au moins un mot voyelle en fonction de la succession de mots identifiés et d'une position du mot courant dans ladite succession de mots identifiés. 13. The computer device as claimed in claim 11, wherein, said current word being part of a succession of words, said computer routine is arranged for: c) comparing a character string forming said succession of words comprising the current word, with character strings stored in a memory zone corresponding to the second memory zone, to identify a plurality of words comprising the same character string as said succession of words, and d2) for said current word, select from said group of candidate words vowels , at least one vowel word as a function of the succession of identified words and of a position of the current word in said succession of identified words.
14. Dispositif informatique selon la revendication 13, dans lequel ladite succession de mots est une phrase complète définie par une chaîne, de caractères entre deux caractères de ponctuation, et' dans lequel ladite routine informatique est agencée pour isoler les caractères de la phrase complète entre les deux signes de ponctuation.14. The computer device as claimed in claim 13, in which said succession of words is a complete sentence defined by a string of characters between two punctuation characters, and in which said computer routine is arranged to isolate the characters of the complete sentence between the two punctuation marks.
15. Dispositif informatique selon la revendication 11, comportant en outre des moyens électroniques d'édition de texte , en' langue arabe, et dans lequel ladite routine informatique est apte à coopérer avec lesdits moyens d'édition de texte.15. A computer device according to claim 11, further comprising electronic text editing means, in ' Arabic language, and wherein said computer routine is able to cooperate with said text editing means.
16. Dispositif informatique selon la revendication 15 et la revendication 13, dans lequel la routine informatique est agencée pour remplacer automatiquement dans un texte édité ledit mot courant par ledit mot voyelle, sélectionné parmi le groupe de mots candidats.16. Computer device according to claim 15 and claim 13, wherein the computer routine is arranged to automatically replace in an edited text said current word by said vowel word, selected from the group of candidate words.
17. Dispositif informatique selon la revendication 12 et la revendication 13, dans lequel l'interface homme/machine est agencée pour proposer une liste de choix comportant des mots sélectionnés parmi lesdits mots candidats.17. A computer device according to claim 12 and claim 13, in which the man / machine interface is arranged to propose a choice list comprising words selected from said candidate words.
18. Dispositif informatique selon la revendication 12, dans lequel, ledit mot courant faisant partie d'une succession courante de mots, la routine informatique comporte en outre des instructions pour mémoriser le mot choisi avec ladite succession de mots, dans une zone mémoire en correspondance de ladite seconde zone mémoire. 18. The computer device as claimed in claim 12, in which, said current word being part of a current succession of words, the computer routine furthermore comprises instructions for storing the word chosen with said succession of words, in a corresponding memory zone. of said second memory area.
19. Dispositif informatique selon la revendication 18 et la revendication 13, dans lequel la routine informatique comporte des instructions pour comparer la succession courante de mots avec des successions de mots mémorisées dans ladite zone mémoire en correspondance de la seconde zone mémoire, et sélectionner, en fonction de cette comparaison, au moins un mot voyelle parmi ledit groupe de mots candidats voyelles.19. The computer device as claimed in claim 18 and claim 13, in which the computer routine comprises instructions for comparing the current succession of words with successions of words stored in said memory zone in correspondence with the second memory zone, and selecting, in based on this comparison, at least one vowel word among said group of vowel candidate words.
20. Dispositif informatique selon la revendication 17, comportant une zone mémoire pour stocker en outre des étiquettes grammaticales en correspondance de chaque mot dans chaque groupe du second dictionnaire, et dans lequel l'interface homme/machine indique en outre à l'utilisateur une étiquette grammaticale de chacun des mots sélectionnés parmi lesdits mots candidats.20. The computer device as claimed in claim 17, comprising a memory area for further storing grammatical labels corresponding to each word in each group of the second dictionary, and in which the man / machine interface further indicates to the user a label grammatical of each of the words selected from said candidate words.
21. Programme d'ordinateur d'aide à la voyellation d'un texte en langue arabe, stocké dans une mémoire d'un dispositif informatique ou sur un support destiné à coopérer avec un lecteur d'un dispositif informatique, comportant :21. Computer program for assisting with the shelling of a text in Arabic language, stored in a memory of a computer device or on a medium intended to cooperate with a reader of a computer device, comprising:
- une première base de données agencée selon un premier dictionnaire comportant des mots non voyelles,a first database arranged according to a first dictionary comprising non-vowel words,
- une seconde base de données agencée selon un second dictionnaire comportant des groupes d'au moins un mot voyelle, chaque groupe de la seconde base étant indexé en correspondance d'un mot non voyelle de la première base, eta second database arranged according to a second dictionary comprising groups of at least one vowel word, each group of the second base being indexed in correspondence with a non-vowel word of the first base, and
- une routine informatique propre à : c) comparer, pour un mot courant, non voyelle, une chaîne de caractères formant au moins ledit mot courant avec des chaînes de caractères stockées dans la première zone mémoire, pour isoler au moins un mot du premier dictionnaire comportant la même chaîne de caractères que le mot courant, et d) extraire du second dictionnaire un groupe de mots candidats, voyelles, correspondant audit mot isolé du premier dictionnaire.- a computer routine specific to: c) comparing, for a current, non-vowel word, a character string forming at least said current word with character strings stored in the first memory area, to isolate at least one word from the first dictionary comprising the same character string as the current word, and d) extract from the second dictionary a group of candidate words, vowels, corresponding to said isolated word from the first dictionary.
22. Programme d'ordinateur selon la revendication 21, destiné à être installé dans • une mémoire d'une machine informatique et comportant un module d'interface homme/machine propre à proposer à un utilisateur une liste de choix desdits mots candidats.22. The computer program as claimed in claim 21, intended to be installed in a memory of a computer machine and comprising a man / machine interface module capable of proposing to a user a choice list of said candidate words.
23. Programme d'ordinateur selon la revendication 21, dans lequel, ledit mot courant faisant partie d'une succession de mots, le programme comprend des instructions pour : cl) comparer une chaîne de caractères formant ladite succession de mots comportant le mot courant, avec des chaînes de caractères stockées dans une zone mémoire en correspondance de la seconde zone mémoire, pour identifier une pluralité de mots comportant une même chaîne de caractères que ladite succession de mots, et d2) pour ledit mot courant, sélectionner parmi ledit groupe de mots candidats voyelles, au moins un mot voyelle en fonction de la succession de mots identifiés et d'une position du mot courant dans ladite succession de mots identifiés. 23. The computer program as claimed in claim 21, wherein, said current word being part of a succession of words, the program comprises instructions for: c) comparing a character string forming said succession of words comprising the current word, with character strings stored in a memory zone corresponding to the second memory zone, to identify a plurality of words comprising the same character string as said succession of words, and d2) for said current word, select from said group of words candidate vowels, at least one vowel word as a function of the succession of identified words and of a position of the current word in said succession of identified words.
24. Programme d'ordinateur selon la revendication 23, dans lequel ladite succession de mots est une phrase complète définie par une chaîne de caractères entre deux caractères de ponctuation, et dans lequel le programme comporte des instructions pour isoler les caractères de la phrase complète entre les deux signes de ponctuation.24. The computer program as claimed in claim 23, in which said succession of words is a complete sentence defined by a character string between two punctuation characters, and in which the program comprises instructions for isolating the characters of the complete sentence between the two punctuation marks.
25. Programme d'ordinateur selon la revendication 21, compatible et apte à coopérer avec un programme d'édition de texte en langue arabe.25. A computer program according to claim 21, compatible and able to cooperate with a text editing program in Arabic.
26. Programme d'ordinateur selon la revendication 25 et la revendication 23, destiné à être installé dans une mémoire d'un dispositif informatique et comportant des instructions pour remplacer automatiquement dans un texte édité ledit mot courant par ledit mot voyelle, sélectionné parmi le groupe de mots candidats.26. The computer program as claimed in claim 25 and claim 23, intended to be installed in a memory of a computer device and comprising instructions for automatically replacing in a edited text said current word by said vowel word, selected from the group. of candidate words.
27. Programme d'ordinateur selon la revendication 22 et la revendication 23, dans lequel le module d'interface homme/machine est agencé pour proposer une liste de choix comportant des mots sélectionnés parmi lesdits mots candidats .27. The computer program as claimed in claim 22 and claim 23, in which the man / machine interface module is arranged to propose a choice list comprising words selected from said candidate words.
28. Programme d'ordinateur selon la revendication 22, dans lequel, ledit mot courant faisant partie d'une succession courante de mots, le programme d'ordinateur comporte en outre des instructions pour mémoriser le mot choisi avec ladite succession de mots, dans une zone mémoire en correspondance de ladite seconde zone mémoire. 28. The computer program according to claim 22, wherein, said current word being part of a current succession of words, the computer program further comprises instructions for storing the word chosen with said succession of words, in a memory area in correspondence of said second memory area.
29. Programme d'ordinateur selon la revendication 28 et la revendication 23, dans lequel le programme informatique comporte des instructions pour comparer la succession courante de mots avec des successions de mots mémorisées dans ladite zone mémoire en correspondance de la seconde zone mémoire, et sélectionner, en fonction de cette comparaison, au moins un mot voyelle parmi ledit groupe de mots candidats voyelles.29. The computer program according to claim 28 and claim 23, wherein the computer program comprises instructions for comparing the current succession of words with successions of words stored in said memory area in correspondence with the second memory area, and selecting , according to this comparison, at least one vowel word from said group of candidate vowels.
30. Programme d'ordinateur selon la revendication 27, comportant une base de données stockées en correspondance de chaque mot du second dictionnaire et comportant des étiquettes grammaticales pour chaque mot dans chaque groupe du second dictionnaire, dans lequel l'interface homme/machine comporte des instructions pour indiquer en outre à l'utilisateur une étiquette grammaticale de chacun des mots sélectionnés parmi lesdits mots candidats. 30. The computer program as claimed in claim 27, comprising a database stored in correspondence of each word of the second dictionary and comprising grammatical labels for each word in each group of the second dictionary, in which the man / machine interface comprises instructions for further indicating to the user a grammatical label for each of the words selected from said candidate words.
PCT/FR2004/001603 2003-06-25 2004-06-24 Method, computer device and computer program for assistance in adding vowels to words in arabic WO2005001711A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR03/07665 2003-06-25
FR0307665A FR2856816B1 (en) 2003-06-25 2003-06-25 METHOD, COMPUTER DEVICE AND COMPUTER PROGRAM FOR AIDING VOYELLATION OF WORDS IN ARABIC LANGUAGE

Publications (2)

Publication Number Publication Date
WO2005001711A2 true WO2005001711A2 (en) 2005-01-06
WO2005001711A3 WO2005001711A3 (en) 2005-05-26

Family

ID=33515391

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/001603 WO2005001711A2 (en) 2003-06-25 2004-06-24 Method, computer device and computer program for assistance in adding vowels to words in arabic

Country Status (2)

Country Link
FR (1) FR2856816B1 (en)
WO (1) WO2005001711A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011135A (en) * 2021-03-03 2021-06-22 科大讯飞股份有限公司 Arabic vowel recovery method, device, equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4760528A (en) * 1985-09-18 1988-07-26 Levin Leonid D Method for entering text using abbreviated word forms
US4858170A (en) * 1986-10-24 1989-08-15 Dewick Sr Robert S Shorthand notation and transcribing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4760528A (en) * 1985-09-18 1988-07-26 Levin Leonid D Method for entering text using abbreviated word forms
US4858170A (en) * 1986-10-24 1989-08-15 Dewick Sr Robert S Shorthand notation and transcribing method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"ABBREVIATED TYPING FOR WORD PROCESSING" IBM TECHNICAL DISCLOSURE BULLETIN, vol. 21, no. 9, février 1979 (1979-02), pages 3796-3797, XP002933207 Armonk, NY, US ISSN: 0018-8689 *
DEBILI ET AL: "Voyellation automatique de l'arabe" COMPUTATIONAL APPROACHES TO SEMITIC LANGUAGES - PROCEEDINGS OF THE WORKSHOP, [Online] 16 août 1998 (1998-08-16), XP002280197 Montreal, Quebec, CA Extrait de l'Internet: URL:http://acl.ldc.upenn.edu/W/W98/W98-100 6.pdf> [extrait le 2004-05-13] *
HOWELL ET AL: "MESSAGE COMPRESSION WITH HUMAN-READABLE ABBREVIATIONS" IBM TECHNICAL DISCLOSURE BULLETIN, vol. 25, no. 2, juillet 1982 (1982-07), pages 678-682, XP000714026 Armonk, NY, US *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011135A (en) * 2021-03-03 2021-06-22 科大讯飞股份有限公司 Arabic vowel recovery method, device, equipment and storage medium

Also Published As

Publication number Publication date
WO2005001711A3 (en) 2005-05-26
FR2856816A1 (en) 2004-12-31
FR2856816B1 (en) 2008-07-04

Similar Documents

Publication Publication Date Title
Simon Corpus building from Old Hungarian codices
Masmoudi et al. Transliteration of Arabizi into Arabic script for Tunisian dialect
FR2876815A1 (en) CRITICAL ANALYSIS OF THE ORDER OF CLIENT PRONTS IN FRENCH
van Heuven et al. Analysis and synthesis of speech: strategic research towards high-quality text-to-speech generation
Schreier /h/insertion as a ‘camouflage archaism’? Dialect contact, colonial lag and the feature pool in South Atlantic English
FR2735268A1 (en) Voice recognition apparatus for speech transcription
Wright Latin and Romance in the medieval period
Turell et al. Transcription
Goddard Philological approaches to the study of North American Indian languages: documents and documentation
WO2005001711A2 (en) Method, computer device and computer program for assistance in adding vowels to words in arabic
US20050015237A1 (en) Process, computerized device and computer program for assisting the vowelization of Arabic language words
Auer et al. 2 English Urban Vernaculars, 1400–1700: Digitizing Text from Manuscript
Serralheiro et al. Towards a repository of digital talking books.
Diller Early Thai orthography: Innovative tone-marking or recent hoax?
Haverals et al. Data-driven syllabification for Middle Dutch
Neme An arabic language resource for computational morphology based on the semitic model
Rhodes The National Bureau of Standards’ Method of Syntactic Integration
CA2654961C (en) Corrector, computer program and method for semantic, syntax and lexical correction of an erroneous expression in a numeric text
Nganga et al. Spoken word corpus and dictionary definition for an African language
Tichý Morphological Analyser of Old English
EP0265573B1 (en) Method for the automatic transcription of french machine stenography
JP3069532B2 (en) Kana-kanji conversion method and device, and computer-readable recording medium storing a program for causing a computer to execute the kana-kanji conversion method
KR20010028946A (en) Morphological analysis method and apparatus used in text-to-speech synthesizer
KR19990001034A (en) Sentence Extraction Method Using Context Information and Local Document Type
Kishore et al. A text to speech interface for Universal Digital Library

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase