WO2008086889A1 - Transcription device for automatic transcription and transphrasing and corresponding methods - Google Patents

Transcription device for automatic transcription and transphrasing and corresponding methods Download PDF

Info

Publication number
WO2008086889A1
WO2008086889A1 PCT/EP2007/050418 EP2007050418W WO2008086889A1 WO 2008086889 A1 WO2008086889 A1 WO 2008086889A1 EP 2007050418 W EP2007050418 W EP 2007050418W WO 2008086889 A1 WO2008086889 A1 WO 2008086889A1
Authority
WO
WIPO (PCT)
Prior art keywords
transcription
module
elements
generated
parameters
Prior art date
Application number
PCT/EP2007/050418
Other languages
German (de)
French (fr)
Inventor
Emil Müller
Francois RÜF
Original Assignee
Netbreeze Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netbreeze Gmbh filed Critical Netbreeze Gmbh
Priority to PCT/EP2007/050418 priority Critical patent/WO2008086889A1/en
Publication of WO2008086889A1 publication Critical patent/WO2008086889A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Definitions

  • the invention relates to a transcription device and a corresponding method for the computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first and second group.
  • the invention relates to transcription devices for transcription and / or transphrasing in automated search engines and conversion devices, wherein first search terms and / or first search sentences can be linked to second search terms and / or search sentences by means of a transcription device.
  • Edition sciences the letter-exact transcription of a text, in film analysis the transfer of a film into a written form, or in business the usual name for the typification of the spoken word by a transcriptionist, the company-internal typing service or an external writing office, etc. etc.
  • Font-based transcription may e.g. the representation of certain terms from a font using a phonetic transcription or adapted to the pronunciation rules of a target language.
  • Each transcription system is geared to users who speak a target language.
  • Transcription can serve as a guideline for the reproduction of Cyrillic written names.
  • the same can apply, for example, to Greek names or phrases.
  • a distinction is usually made in the prior art: a) Transcription as a pronunciation-based representation of speech by means of a phonological notation or a phonetic phonetic transcription, or another basic alphabet as a phonetic substitution. Advantages are that, for example, non-native speakers are allowed a reasonably correct pronunciation of the word; b) Transliteration as a font-based, literal translation that can be reversed if necessary a word from one scripture (eg Cyrillic) to another (eg Latin), often with the help of diacritical marks.
  • Tables of transcription and transliteration systems exist for many languages such as Bulgarian, Ardian, Russian, Serbian, Ukrainian, Belorussian. In Japanese, the transcription of the Japanese into the Latin script P - ⁇ ⁇ ⁇ R ⁇ maji Roman characters). There are several transcription systems. Two well-known and well-recognized are the Hebrews system (in German: Hepburn system) and the Kunreishiki system (in German: Kunrei system). The former was distributed by the American missionary Hepburn; The latter was devised by the then Japanese government and follows the systematics of the Cana table.
  • the rules for transcription from one element to another are usually not unique, but can only be found in the context of language usage. This has made automation of transcription difficult or impossible in most cases. Encoding was difficult to create because languages can typically be very large. At the same time, the codings (one to one assignment of the elements in a lookup table) had to be kept up-to-date permanently and at great expense.
  • the available search engines of the state of the art can roughly be divided into four categories: robots / crawlers, metacrawlers, search catalogs with search options and catalogs or link collections.
  • robots / crawlers ie search robots or crawlers
  • crawler a process that moves through the network, eg the Internet, from network node to network node or from web site Web site, sending the content of every Web document it finds back to its host.
  • the host computer indexes the web documents sent by the crawler and stores the information in a database. Every search
  • the prior art crawlers usually consider every piece of information to be relevant, so any web documents found anywhere are indexed by the host machine. Examples of such robots / crawlers include i.a. Google TM, Altavista TM and Hotbot TM.
  • the so-called metacrawlers differ from the robots / crawlers in being able to search using a single search facility, the answer being additionally generated by a variety of other systems of the network.
  • the Metacrawler thus serves as a front-end to a variety of other systems.
  • the response to a search request from a Metacrawler is typically limited by the number of its other systems. Examples of Metacrawlers include u.a. MetaCrawler TM, LawCrawler TM and LawRunner TM.
  • catalogs with or without search options are characterized by a special selection of links, which are structured and / or organized by hand and stored in a corresponding database.
  • the manually stored information is searched by the system for the desired search term in a search request.
  • the user In the case of a catalog without search options, the user must search for the desired information himself from the list of stored links, for example by manually clicking through the list or scrolling. In the latter case, the user himself decides which information from the list is relevant to him and which is less relevant to him.
  • Catalogs are naturally limited by the volume of performance and the priorities of the editor (s). Examples of such catalogs include Yahoo! TM and FindLaw TM. Catalogs fall under the category of portals and / or vortals.
  • Portals manually attempt to gain an overview of selected computer sites by "surfing" editors through the Internet, ie having the content judged, and compiling relevant data sources or sites.
  • the editors are able to search, read and evaluate an average of about 10-25 sites per day, of which 25 usually only just 1 or 2 sites contain documents with the desired quality or information. It is clear that portals are very inefficient in terms of time, cost and effort for the provider if the goal of a portal is to provide a comprehensive indexing of all available data on a topic on the Internet.
  • Transcription device and a corresponding method for computer-aided transcription and / or transphrasing non-bijectively assignable elements of a first and second group which does not have the above-mentioned disadvantages of the prior art.
  • the invention is intended to make it possible to realize a transcription device which, without any further action, adapts itself dynamically to a new word usage, in particular newly appearing names, and automatically proposes the correct transcription.
  • the transcription device should do without elaborate coding of words, but be producible with minimal effort.
  • Transcriptional parameters are encoded according to their transcription site such that by means of a filter module based on the encoding of the first transcription and the corresponding transcription sites, a plurality of transcription variations are generated by variation with the combinations of indexed fill elements, each
  • Transskritpionsvariation is associated with an incremental stack, that for each transcription variation generates a corresponding search element and accessed by transcription device via a network on decentralized databases, the corresponding incremental stack is incremented by trigger module each time triggering a search element that generated based on the accumulated incremental stack probability parameter and by means of comparison module based on the probability parameters, a specific transcription is uniquely selected.
  • the filling elements may be e.g. include phonetically non-relevant phonograms in the target language.
  • the filling elements may be e.g. include meaningful, affirmative or attenuating filler words.
  • the invention has i.a.
  • the network may e.g. include the international backbone IP network.
  • transcriptions which can be processed only with great effort and time e.g. by means of lookup table, i. a one-to-one encoding of the elements to be assigned can be realized are directly detectable. New names and terms are also detected and used dynamically correctly by the transcription device according to the invention. This was not possible with any prior art.
  • the automated transcription device comprises a control and monitoring module for controlling Web engines and / or conversion devices, wherein inteis the transcription device additionally source databases are accessible.
  • This embodiment variant has the advantage, inter alia, that these systems can automatically access a previously definable entirety of source databases from a network, in particular from the Internet (eg web sites, chat rooms, e-mail forums, etc.), which also have a previously definable Search criteria are scanned, regardless of language, font and spelling.
  • the system not only enables the generation of a "hit list" of web sites with corresponding content found on the Internet, but the system allows the aforementioned screening of predefinable sources and their systematic and thus quantitatively relevant evaluation, according to the desired and defined content criteria independently of speech, writing and writing criteria.
  • the system can actually "monitor" the defined sources for the first time in the art independently and over a longer period of time, even if the language and writing usage change, such as when introducing new spellings such as the Duden or new appearing name.
  • the first group of the second group is assigned by means of the transcription device, wherein the assignment of the first group in the second group is not surjective, while by means of a coding module of the transcription device, the second group of the first group is assigned, the assignment of the second Group is surjective to the first group.
  • the second group may be based, for example, on the Cyrillic alphabet. This has the advantage that transcriptions in languages such as Bulgarian, Ardian, Russian, Serbian, Ukrainian, Belorussian can be easily grasped. Another advantage is that web engines based on the inventive transcription device Web Sides, especially New Groups, etc. can easily detect.
  • the filling elements and / or transcription variations may include not only Cyrillic but also, for example, Hebrew letters. This has the advantage that transcription terms are captured in the appropriate languages such as old / new Hebrew.
  • the scorecard with the found records and / or references to the found records is stored in a content module of a central unit accessible to a user.
  • This variant has u.a. the advantage that the system e.g. can be used as a monitoring, monitoring and / or warning system for the user.
  • a user profile is created on the basis of user information, wherein user-specific optimized data is generated based on the data records stored in the content module, found and / or references to data records found by means of a repackaging module taking into account the data of the user profile, which user-specifically optimized data the user stored in the content module of the central unit provides.
  • the user can be stored as a variant variant different user profiles for different communication devices of the user assigned. Further, e.g. Also, data on user behavior is automatically recorded by the central unit and stored in association with the user profile.
  • This variant has u.a. the advantage that different access options of the user can be considered user-specific and the system can be optimized user-specific.
  • Transcription device for carrying out this method relates. Furthermore, it is not limited to the said triggering device and a corresponding method, but also relates to a computer program product for implementing the method according to the invention.
  • a computer program product for implementing the method according to the invention.
  • FIG. 1 schematically shows the mode of operation of a transcription device 10 according to the invention for computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first 20 and second 50 groups by means of the automated transcription device 10.
  • FIG. 2 likewise schematically illustrates the mode of operation of a transcription device 10 according to the invention for computer-assisted transcription and / or transphrasing of non-bijectively assignable elements of a first 20 and second 50 groups by means of the automated transcription device 10. The method is shown schematically in more detail.
  • FIG. 3 likewise illustrates a schematic representation of a
  • Figure 1 schematically illustrates an architecture that may be used to implement the invention.
  • FIG. 1 for computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first 20 and second 50 groups by automated transcription device 10 with a Monte Carlo module 112 of the transcription device 10, different combinations of indexed fill elements are generated and stored in a database 115 based on the stored index parameter stored.
  • the filling elements may include, for example, phonetically irrelevant phonograms. However, the filling elements may also include, for example, meaningful, affirmative or attenuating filling words.
  • the Monte Carlo module 112 can probabilistically generate transcriptions (eg purely randomly or according to a probability distribution), which are then used for further processing / analysis.
  • Transcription device or the corresponding method is based as a whole on the probability distribution of all possible generated transcriptions and triggers accordingly.
  • the transcriptions themselves become i.N. concerning the filling elements is not probabilistically generated, since, as stated, the insertion of the filling elements can follow predefined rules, but only with respect to the application of a filling rule or the non-application.
  • a first transcription 40 is generated for a selected element of the first group 20, wherein the respective transcription parameters used are encoded according to their transcription site.
  • a filter module 113 based on the coding of the first transcription 40 and the corresponding transcription sites, a plurality of transcription variations are generated by variation with the combinations of indexed fill elements, each transskritization variation being associated with an increment stack 116.
  • a corresponding search element is generated and by means of transcription device 10 is accessed via a network 70 on decentralized databases 71, ..., 74, wherein the corresponding incrementation stack 117 by means of trigger module 111 on each triggering of a search element 1211, ..., 1212 is incremented.
  • the network 70 may include, for example, the international backbone IP network.
  • the network 70 can also include, for example, communication networks, such as a GSM or UMTS network, or a satellite-based mobile radio network, and / or one or more fixed networks, for example the public switched telephone network, the worldwide Internet or a suitable LAN (Local Area Network) or WAN (Wide Area Network). In particular, it also includes ISDN and XDSL connections.
  • a transcription device 10 thus accesses network nodes connected to source databases 71, ..., 74 via the network 70, and data of the source databases 71, ..., 74 are selected or triggered based on the transscripts variations.
  • the transcription device 10 is bidirectionally connected to the network nodes or source databases 71,..., 74 via the communication network 70.
  • the data to be triggered based on the search terms can, as shown, be stored at different locations in different networks or locally accessible to the transcription device 10.
  • the network nodes with the databases 71,..., 74 may include WWW (Hyper Text Transfer Protocol / WAP: Wireless Application Protocol etc.) servers, chat servers, email servers (MIME), news servers, E-journal servers, group servers or any other file servers, such as FTP (File Transfer Protocol) servers, ASD (Active Server Pages) based servers, or SQL-based servers (SQL: Structured Query Language), etc. include.
  • elements of the first group 20 can be assigned to elements of the second group 50, wherein the assignment of the first group 20 into the second group 50 is not surjective, while the second group is assigned to the first group by means of a coding module 11 of the transcription device , where the assignment of the second group to the first group is surjective.
  • the elements of the first group 20 and / or the second group 50 may include multimedia data such as digital data such as text, graphics, images, maps, animations, moving images, video, quicktime, sound recordings, programs (software), program accompanying data and hyperlinks or References to multimedia data. These include, for example, MPx (MP3) or MPEGx (MPEG4 or 7) standards, as defined by the Moving Picture Experts Group.
  • elements of the first 20 and / or second 50 groups may include data in HTML (Hyper Text Markup Language), HDML (Handheld Device Markup Language), WMD (Wireless Markup Language), VRML (Virtual Reality Modeling Language), or XML (Extensible Markup Language) format include.
  • the second group may for example be based on Cyrillic and / or Hebrew alphabet.
  • the filling elements and / or transcription variations may include, for example, Cyrillic or Hebrew letters.
  • the abovementioned standards (ALA-LC, BGN / PCGN, etc.) can be reversed by means of the transcription device 10 according to the invention, and finally the transliterated names can be reversed by means of databases 71,... 74, in particular Google, for example. checked for their correctness.
  • the transcription device may use one of the standard methods mentioned above.
  • the transcription device 10 makes a transliterating proposal based on the method according to the invention by means of the databases 71, ..., 74, this is certainly the right one.
  • the transcription device can use, for example, a combination of the two standards ALA-LC and BGN / PCGN. It is peculiar to both norms that the corresponding illustrations of the Cyrillic narrative are not injective in Latin. This means that two different Cyrillic characters can be mapped to the same Latin character. For the reversal of the figure, this means that a Latin character can produce two different cyrillic variants. Also exist in the Russian silent character (similar to the N r T in error), the cause consonants are pronounced softer or harder. The two silent characters V, the softer the previous constants, and "V, which makes the preceding consonant harder.
  • the text written in Latin can be translated character by character into Cyrillic characters. In doing so, a copy of the result is created for each possible branch. At the end of this process there is a notation for every theoretically possible variant due to the phonetic rules. An example can be found in FIG. 3.
  • the procedure for Cyrillic expressions is a procedure for a wider selection of BGN / PCGN procedures (currently 29 different languages are covered by BGN / PCGN).
  • the BGN / PCGN procedures were developed by the United States Board of Geographical Names and the Permanent Commitee on Geographical Names for British Official Use.
  • the procedures for supporting transliterations in Cyrillic letters, especially Russian expressions, were recorded in 1944 by BGN and in 1947 by PCGN.
  • the transliteration is based solely on the use of the capital letters and punctuation, which are on the English version of standard keyboards and keyboards.
  • BGN / PCGB does not require any special characters, although the use of the character ( ⁇ ) is permitted to avoid ambiguity.
  • BGN / PCGN Many publications use a simplified form of BGN / PCGN, for example, to translate English into Russian terms by typically converting e to yo, simplifying -y and -yy endings to -y, and avoiding apostrophes for t and b , Edward Allworth, for example, uses a BGN / PCGN based methodology in his book "Nationalities of the Soviet East - Publications and Writing Systems.” It always transfers e and e to e and e respectively and substitutes an i for y from M, K> and fi, making the procedure similar to a version of the ALA-LC system without diacritics.
  • the following table illustrates the BGN / PCGN method with example:
  • Taivi ⁇ oB Tambov
  • flyflMHKa Dudinka ⁇ ( ⁇ )
  • ⁇ ypMaH ⁇ B Furmanov
  • the ALA-LC comprises Slavonic alphabet tables and is a set of standards for transliterating text and terms in a variety of spellings and is used primarily in North American libraries and publications. The latest version was published by the American Library Association & Library of Congress in 1997. The non-ambiguous version of the method requires diacritical and connection characters between the individual letters, which are often omitted in practice. ALA-LC also publishes transliteration tables for a wide variety of languages.
  • Taivi ⁇ oB Tambov
  • the automated transcription device 10 may include a control and monitoring module for controlling web engines and / or conversion devices, wherein by means of the transcription device 10 in addition source databases 71, ..., 74 become accessible.
  • additionally accessible is meant that data or databases with data in other types of writing or writing can be captured by the web engines and interpreted uniformly.
  • the selected transcriptions in a content module of the transcription device 10 can be stored accessible to a user. In order to be able to access the content module, it can be useful (for example, to offset the claimed service) to identify a specific user from the transcription device 10 by means of a user database. For example, personal identification numbers (PIN) and / or so-called smart cards can be used for identification.
  • PIN personal identification numbers
  • smart cards can be used for identification.
  • Smart cards normally require a card reader in the communication device. In both cases, the name or other identification of the user as well as the PIN is transmitted to the transcription device 10 or a trusted remote server. An identification module or authentication module decrypts (if necessary) and checks the PIN via the user database. Credit cards can also be used as a variant for the identification of the user. If the user uses his credit card, he can also enter his PIN. Typically, the magnetic stripe of the credit card contains the Account number and the encrypted PIN of the authorized holder, ie in this case the user. The decryption can be done directly in the card reader itself, as is common in the art. Smart cards have the advantage that they allow greater security against fraud by an additional encryption of the PIN.
  • This encryption can be done either by a dynamic number key, which contains eg time, day or month or another algorithm.
  • the decryption and identification does not happen in the device itself, but externally via the identification module.
  • Another option is a smart card inserted directly into the user's communication device.
  • the chip card can be, for example, SIM cards (Subscriber Identification Module) or smart cards, with the chip cards each being assigned a telephone number.
  • the assignment can be made, for example via an HLR (Home Location Register) by the IRLS IMSI (International Mobile Subscriber Identification) of a phone number, for example, a MSISDN (Mobile Subscriber ISDN) is stored. This assignment then enables a unique identification of the user.
  • the user to start the transcription device 10 transmit a transcription request for the corresponding query from a communication device via the network 70 to the transcription device 10 via a front-end.
  • the transcription request data can be input via input elements of the communication device.
  • the input elements may include, for example, keyboards, graphical input means (mouse, trackball, eye tracker with Virtual Retinal Display (VRD) etc.), but also IVR (Interactive Voice Response) etc.
  • the user has the option of determining at least part of the transcription request data himself. This can happen, for example, when the user is requested by the communication device to fill out an appropriate front-end query via an interface.
  • the front-end query may in particular include additional authentication and / or fees for the query.
  • the transcription data request data can be checked and, if they satisfy determinable criteria, the transcription is carried out.
  • a user profile is created based on user information, for example, based on the stored in the content module transcriptions and / or references to performed transcriptions by means of a repackaging module, taking into account the data of the user profile user-optimized data are generated.
  • the user-specific optimized data can then be made available to the user in the content module of the transcription device 10, for example. It may be advantageous for a user to be assigned different user profiles allocated to different communication devices of this user.
  • data on user behavior can also be automatically acquired by the transcription device 10 and stored in association with the user profile.

Abstract

The invention relates to a transcription device and corresponding methods for the computer-aided transcription and/or transphrasing of non bijectively associated elements of a first (20) and second (50) group by means of an automated transcription device (10), wherein by means of a filter module (113) based on a coding of a first transcription (40), a plurality of transcription variations are generated by variation with indexed filler elements. Each transcription variation is associated with an increment stack (116). For each transcription variation, a corresponding search element is generated. By means of the transcription device (10), databases (71, …, 74) that are arranged in a decentralized manner are accessed via a network (70), wherein the corresponding increment stack (117) is incremented accordingly by means of a trigger module (111) with each triggering of a search element (1211,…,1212). Based on the cumulative increment stacks (117), probability parameters are generated, and, by means of a comparison module (114), a certain transcription is clearly selected based on the probability parameter.

Description

Transkriptionsvorrichtung zur automatisierten Transkription und Transphrasierung sowie entsprechendes Verfahren Transcription device for automated transcription and transphrasing and corresponding method
Die Erfindung betrifft eine Transkriptionsvorrichtung und ein entsprechendes Verfahren zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten und zweiten Gruppe. Die Erfindung betrifft insbesondere Transkriptionsvorrichtungen zur Transkription und/oder Transphrasierung bei automatisierten Search-Engines und Konversionsvorrichtungen, wobei erste Suchbegriffe und/oder erste Suchsätze mittels Transkriptionsvorrichtung mit zweiten Suchbegriffen und/oder Suchsätzen verknüpfbar sind.The invention relates to a transcription device and a corresponding method for the computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first and second group. In particular, the invention relates to transcription devices for transcription and / or transphrasing in automated search engines and conversion devices, wherein first search terms and / or first search sentences can be linked to second search terms and / or search sentences by means of a transcription device.
Transkription vom lateinischen "trans" hinüber und "scribere" schreiben, also die Umschrift in einen Begriff in einen anderen oder allgemeiner die Zuordnung eines Elementes einer Gruppe zu einer anderen ist ein in der Technik seit langem bekanntes Problem, das in den unterschiedlichsten Gebieten und Ausprägungen auftaucht. So z.B. in der Biologie dasTranscription from Latin "trans" over and "scribere" writing, ie the transcription into one term into another or more generally the assignment of one element of a group to another is a problem long known in the art, in the most diverse areas and manifestations shows up. For example, in biology that
Umschreiben eines Gens von DNA in RNA, in den Sprachwissenschaften die Übertragung einer Schreibung oder eines Phonems in eine andere als die ursprüngliche bzw. der jeweiligen Sprache entsprechende Schrift (z.B. vom kyrillischen Alphabet in das lateinische Alphabet), in der Musikwissenschaft neben der Umschreibung von einer Notenschrift in die andere (z.B. beiRewriting of a gene from DNA to RNA, in linguistics the transmission of a spelling or a phoneme in a different than the original or the respective language corresponding writing (eg, from the Cyrillic alphabet in the Latin alphabet), in musicology in addition to the transcription of one Notation in the other (eg at
Schlüsselwechsel) aber auch die Übertragung eines klingenden Werkes in eine Notenschrift, in der qualitativen Sozialforschung das Übertragen eines Interviews in eine auswertbare Form, in der Linguistik und insbesondere der Konversationsanalyse das Übertragen von gesprochener Sprache, Gesprächen oder auch Gebärden in eine schriftlich fixierte Form, in derChange of key) but also the transfer of a sounding work into a notation, in the qualitative social research the transfer of an interview into an evaluable form, in linguistics and in particular the conversation analysis the transfer of spoken language, conversations or even gestures in a written fixed form, in of the
Editionswissenschaften die buchstabengenaue Abschrift eines Textes, in der Filmanalyse der Transfer eines Filmes in eine schriftliche Form, oder in der Wirtschaft die übliche Bezeichnung für die Verschriftlichung des gesprochenen Worts durch eine Schreibkraft, den firmeninternen Schreibdienst oder ein externes Schreibbüro, etc. etc.Edition sciences the letter-exact transcription of a text, in film analysis the transfer of a film into a written form, or in business the usual name for the typification of the spoken word by a transcriptionist, the company-internal typing service or an external writing office, etc. etc.
All diesen Problemen liegt technisch schlussendlich ein Zuordnungsoder Abbildungsproblem zugrunde. Können die Elemente bijektiv zugeordnet werden, dass heisst ist die Zuordnung umkehrbar eindeutig, dann ist es häufig ein blosses Codierungsproblem. Bijektivität ist dann vorhanden, wenn jedes Element durch die Transkription auch tatsächlich in ein anderes Element "umgeschrieben" werden kann und zwar nur in ein einziges anderes Element. Die beiden mittels der Transkription verknüpfbaren Elementgruppen sind somit eineindeutig durch die Transkription verbindbar. Bijektive Transkriptionen sind jedoch bei vielen technischen Problemen häufig nicht möglich. Dies ist der Fall, wenn sich z.B. ein Element durch Transkription gleich mehreren anderen zuordnen lässt, z.B. bei der Transkription von Begriffen (z.B. Personen-, Firmen-, Ortsnamen etc.) von einem Alphabet in ein anderes Alphabet (z.B. lateinische Buchstaben in kyrillische). Dieser Art von Transkription kann insbesondere versucht, die phonetischen Regien, die in der einen Sprache (Alphabet) gelten, Lesenden einer anderen Sprache (Alphabet) zugänglich zu machen. Deshalb lassen sich beispielsweise nicht gesprochene Stummzeichen in der Regel nicht kodieren, da sie häufig durch den Sprachgebrauch gegeben sind und mehr oder weniger willkürlich erscheinen können. Ebenfalls ist die Zuordnung meist nicht einfach, wenn die Zuordnung zwar bijektiv möglich ist, aber es zu viele Elemente einer Gruppe gibt und allgemeine Regeln sich nicht aufstellen lassen. Dies kann z.B. bei der Transkription kontinuierlicher Gruppen oder analoger Gruppen (Gruppen mit einer sehr grossen Anzahl von Elementen) in Gruppen mit diskreten Elementen geschehen.All these problems are ultimately based on a mapping or imaging problem. Can the elements be assigned bijectively that is, the assignment is reversibly unique, then it is often a mere coding problem. Bijectivity exists when each element can actually be "transcribed" into another element by transcription, and only into a single other element. The two element groups which can be linked by transcription are thus uniquely connectable by transcription. However, bijective transcriptions are often not possible with many technical problems. This is the case if, for example, one element can be assigned to several others by transcription, eg in the transcription of terms (eg person, company, place name etc.) from one alphabet to another alphabet (eg Latin letters in Cyrillic) , In particular, this type of transcription may attempt to make the phonetic directories, which apply in one language (alphabet), accessible to readers of another language (alphabet). For this reason, for example, non-spoken mutes can not be coded as they are often given by the language and may appear more or less arbitrary. Also, the assignment is usually not easy if the assignment is bijectively possible, but there are too many elements of a group and general rules can not be established. This can be done, for example, in the transcription of continuous groups or analogous groups (groups with a very large number of elements) in groups with discrete elements.
Schriftbasierte Transkription kann z.B. die Darstellung bestimmter Begriffe aus einer Schrift mit Hilfe einer Lautschrift oder angepasst an die Ausspracheregeln einer Zielsprache sein. Jedes Transkriptionssystem ist abgestellt auf Benutzer, die eine Zielsprache sprechen. Die deutscheFont-based transcription may e.g. the representation of certain terms from a font using a phonetic transcription or adapted to the pronunciation rules of a target language. Each transcription system is geared to users who speak a target language. The German
Transkription, wie sie z.B. im Duden verwendet wird, kann als Richtlinie für die Wiedergabe kyrillisch geschriebener Namen dienen. Entsprechendes kann z.B. auch für griechische Namen oder Phrasen gelten. Im Stand der Technik werden üblicherweise unterschieden: a) Transkription als aussprachebasierte Darstellung von Sprache mit Hilfe einer phonologischen Notation oder einer phonetischen Lautschrift, oder eines anderen Basisalphabetes als Lautschriftersatz. Vorteile bestehen darin, dass z.B. Nichtmuttersprachlem eine halbwegs richtige Aussprache des Wortes ermöglicht wird; b) Transliteration als schriftbasierte, buchstabengetreue, bei Bedarf wieder umkehrbare Umsetzung eines Wortes aus einer Schrift (z. B. Kyrillisch) in eine andere (z. B. Lateinisch), oft mit Hilfe von diakritischen Zeichen. Einer der Vorteile davon ist, dass Fachleute die genaue Schreibweise des Wortes in der anderen Schrift darstellen können, die aus bestimmten Gründen nicht direkt abgedruckt werden kann - weil früher keine entsprechenden Typen oder Zeichensätze vorhanden waren oder weil (etwa in Bibliothekskatalogen) ein einheitliches Alphabet zur Sortierung nötig ist; c) Transkription bezeichnet in der Wissenschaft (z.B. Soziologie, Pädagogik, Wirtschaftswissenschaften) auch das Verschriftlichen verbaler Daten (meist Interviews oder Videos). Diese werden in der qualitativen Sozialforschung für die qualitative Datenanalyse benötigt.Transcription, as used for example in the Duden, can serve as a guideline for the reproduction of Cyrillic written names. The same can apply, for example, to Greek names or phrases. A distinction is usually made in the prior art: a) Transcription as a pronunciation-based representation of speech by means of a phonological notation or a phonetic phonetic transcription, or another basic alphabet as a phonetic substitution. Advantages are that, for example, non-native speakers are allowed a reasonably correct pronunciation of the word; b) Transliteration as a font-based, literal translation that can be reversed if necessary a word from one scripture (eg Cyrillic) to another (eg Latin), often with the help of diacritical marks. One of the advantages of this is that professionals can represent the exact spelling of the word in the other font, which for some reason can not be printed directly - because there were no previous types or fonts or because (for example in library catalogs) a single alphabet for Sorting is necessary; c) Transcription in science (eg sociology, education, economics) also means the verbal verbal data (mostly interviews or videos). These are needed in qualitative social research for qualitative data analysis.
Als Beispiel für Transkription kann der Vergleich verschiedener Transkriptionen vom Kyrillischen (am Beispiel der Namen zweier russischer Schriftsteller) in Lateinische Buschstaben genommen werden:As an example of transcription, the comparison of various transcriptions from Cyrillic (using the example of the names of two Russian writers) into Latin bush letters can be taken:
Figure imgf000005_0001
Tabellen von Transkriptions- und Transliterationssystemen existieren für viele Sprachen wie z.B. Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch, Weißrussisch. Auf Japanisch nennt man die Transkription des Japanischen in die lateinische Schrift P — ^ψ {Rδmaji Römerzeichen). Es gibt verschiedene Transkriptionssysteme. Zwei bekannte und auch anerkannte sind das Hebonshiki-System (auf Deutsch: Hepburn-System) und das Kunreishiki-System (auf Deutsch: Kunrei-System). Ersteres wurde durch den amerikanischen Missionar Hepburn verbreitet; letzteres wurde von der damaligen japanischen Regierung erdacht und folgt der Systematik der Kana-Tafel. Transkription z.B. von Japans heiligem Berg, der a ±lll, (wird im Deutschen oft als "Fudschijama" wiedergegeben), schreibt sich nach dem Kunrei-System "Huzisanönach" und nach dem Hepburn-System "Fujisan"
Figure imgf000005_0001
Tables of transcription and transliteration systems exist for many languages such as Bulgarian, Macedonian, Russian, Serbian, Ukrainian, Belorussian. In Japanese, the transcription of the Japanese into the Latin script P - ^ ψ {Rδmaji Roman characters). There are several transcription systems. Two well-known and well-recognized are the Hebrews system (in German: Hepburn system) and the Kunreishiki system (in German: Kunrei system). The former was distributed by the American missionary Hepburn; The latter was devised by the then Japanese government and follows the systematics of the Cana table. Transcription, for example, of Japan's holy mountain, the a ± lll, (often referred to in German as "Fuji"), is written after the Kunrei system "Huzisanönach" and after the Hepburn system "Fujisan"
Figure imgf000006_0001
Figure imgf000006_0001
Für die Stimme in Seh und Vokalen gilt:For the voice in sight and vowels, the following applies:
Figure imgf000006_0002
Figure imgf000006_0002
Beim Hebräischen gibt es die Sonderschwierigkeit, ob man es für eine Sprache hält oder mehrere (biblisches, tiberianisches Hebräisch, Hebräisch der Haskala, Israelisch). Und fürs Israelische gibt es mehrere Aussprachen. Am Hebräisch lässt sich leicht der Unterschied zwischen einer rein phonologischen und einer morpho-phonologischen Transkription zeigen. Als Beispiel kann hier Kibύts - QibbύD genommen werden. Die erste Schreibung ist rein israelisch und gibt die moderne Standardaussprache wieder. Die Zweite notiert die klassische Schreibung mit q weil p und nicht s (dass heute beide Laute von den meisten Israelis gleich gesprochen werden, ist irrelevant, denn diejenigen die sie gleich aussprechen, sprechen sie immer gleich, schreiben sie aber immer korrekt). Das "bb" entsteht, weil ein Dagsch im bet istn und D statt ts. Dadurch wird die Verwandtschaft mit dem arabischen D bewahrt und gleichzeitig entspricht ein hebräisches Zeichen einem Transkriptionszeichen oder Umschriftzeichen. Mischformen wie Kibbuz und Qibutz sind weniger überzeugend. Der Akut als Transkription gibt z.B. beide Male die betonte Silbe an. In anderenIn Hebrew, there is the special difficulty of holding it for one language or more (Biblical, Tiberian Hebrew, Haskala Hebrew, Israeli). And for the Israeli there are several discussions. In Hebrew, the difference between a purely phonological and a morpho-phonological transcription can easily be shown. As an example Kibύts - QibbύD can be taken here. The first Writing is purely Israeli and reflects the modern standard pronunciation. The second notes the classical spelling with q because p and not s (that today both sounds are spoken the same by most Israelis, is irrelevant, because those who pronounce them the same, they always speak the same, but always write them correctly). The "bb" arises because a Dagsch is in the bet and D instead of ts. This preserves the kinship with the Arabic D and at the same time a Hebrew character corresponds to a transcription or transliteration symbol. Mixed forms like Kibbutz and Qibutz are less convincing. For example, the acute transcription indicates the stressed syllable both times. In other
Transkriptionen werden die Nuancen der Vokalzeichen wiedergegeben, die im Israelischen weder geschrieben noch gesprochen werden oder es kann angezeigt werden, ob ein Vokal ungeschrieben bzw. durch Vokalzeichen geschrieben oder (zusätzlich) durch einen Konsonanten notiert wird. Als weiteres Beispiel kann tapuach - tapύaπ, michtav - miotav genommen werden. Die jeweils erste Umschrift macht keinen Unterschied zwischen n und D, weil die meisten Israelis keinen sprechen. Nachrichtensprecher müssen ihn aber machen (er ist offiziell), ebenso sprechen Israelis, die n wie D sprechen, ihn dann häufig "falsch" aus: die genauere Transkription ist auch bei falscher Aussprache eindeutig. Gleiches gilt z.B. für bayäd ba-yäd, kDshetire kD-se-tire. Im ersten Fall wird zusammengeschrieben, was im Hebräischen zusammengeschrieben wird. Auch im zweiten Fall werden Buchstabencluster respektiert (Leerzeichen und Satzzeichen werden als solche wiedergegeben), aber zusätzlich werden Worte bzw. Funktionspartikel durch Bindestrich abgetrennt und verbunden.Transcriptions reproduce the nuances of vowel sounds that are neither written nor spoken in Israel, or indicate whether a vowel is unwritten, written by vowel, or (additionally) noted by a consonant. As another example tapuach - tapύaπ, michtav - miotav can be taken. The first transcription makes no difference between n and D because most Israelis do not speak. Newscasters have to do it (it's official), just as Israelis who speak n like D often say it's "wrong": the more accurate transcription is clear even with the wrong pronunciation. The same applies e.g. for bayäd ba-yäd, kDshetire kD-se-tire. In the first case, we write down what is written in Hebrew. Also in the second case, letter clusters are respected (spaces and punctuation marks are rendered as such), but in addition words or functional particles are separated and linked by hyphen.
Wie gezeigt, sind die Regeln für Transkription von einem Element in ein anderes meist nicht eindeutig, sondern können nur im Zusammenhang mit dem Sprachgebrauch gefunden werden. Dies hat eine Automatisierung der Transkription bis heute in den meisten Fällen erschwert bzw. verunmöglicht. Codierungen waren nur schwer zu erstellen, da Sprachen typischerweise sehr umfangreich sein können. Gleichzeitig mussten die Codierungen (eins zu eins Zuordnung der Elemente in einem Lookup-Table) permanent und unter grossem Aufwand auf dem neusten Stand gehalten werden. Die verfügbaren Search-Engines aus dem Stand der Technik lassen sich grob in vier Kategorien unterteilen: Robots/Crawlers, Metacrawlers, Suchkataloge mit Suchmöglichkeiten und Kataloge oder Linksammlungen. Die Funktionsweise von Robots/Crawlers, d.h. Search-Robots oder Crawlers zeichnen sich durch einen Prozess aus (d.h. den Crawler), welcher sich durch das Netzwerk, z.B. das Internet, von Netzwerk-Node zu Netzwerk-Node bzw. von Web-Site zu Web-Site bewegt und dabei den Inhalt jedes Web- Dokumentes, welches er findet, an seinen Host-Rechner zurückschickt. Der Host-Rechner indexiert die durch den Crawler geschickten Web-Dokumente und speichert die Information in einer Datenbank ab. Jede SuchanfrageAs shown, the rules for transcription from one element to another are usually not unique, but can only be found in the context of language usage. This has made automation of transcription difficult or impossible in most cases. Encoding was difficult to create because languages can typically be very large. At the same time, the codings (one to one assignment of the elements in a lookup table) had to be kept up-to-date permanently and at great expense. The available search engines of the state of the art can roughly be divided into four categories: robots / crawlers, metacrawlers, search catalogs with search options and catalogs or link collections. The functionality of robots / crawlers, ie search robots or crawlers, is characterized by a process (ie the crawler) that moves through the network, eg the Internet, from network node to network node or from web site Web site, sending the content of every Web document it finds back to its host. The host computer indexes the web documents sent by the crawler and stores the information in a database. Every search
(Request) durch einen Benutzer greift auf die Informationen der Datenbank zu. Die Crawlers des Standes der Technik betrachten normalerweise jede Information als relevant, weshalb alle irgendwo gefundenen Web-Dokumente durch den Host-Rechner indexiert werden. Beispiele solcher Robots/Crawlers sind u.a. Google™, Altavista™ und Hotbot™. Die sog. Metacrawlers unterscheiden sich von den Robots/Crawlers durch die Möglichkeit, mittels einer einzigen Sucheinrichtung zu suchen, wobei die Antwort zusätzlich durch eine Vielzahl von weiteren Systemen des Netzes erzeugt wird. Der Metacrawler dient somit als ein Front-End zu einer Vielzahl von weiteren Systemen. Die Antwort auf einen Suchrequest von einem Metacrawler wird typischerweise durch die Anzahl seiner weiteren Systeme begrenzt. Beispiele von Metacrawlers sind u.a. MetaCrawler™, LawCrawler™ und LawRunner™.(Request) by a user accesses the information of the database. The prior art crawlers usually consider every piece of information to be relevant, so any web documents found anywhere are indexed by the host machine. Examples of such robots / crawlers include i.a. Google ™, Altavista ™ and Hotbot ™. The so-called metacrawlers differ from the robots / crawlers in being able to search using a single search facility, the answer being additionally generated by a variety of other systems of the network. The Metacrawler thus serves as a front-end to a variety of other systems. The response to a search request from a Metacrawler is typically limited by the number of its other systems. Examples of Metacrawlers include u.a. MetaCrawler ™, LawCrawler ™ and LawRunner ™.
Eine weitere Möglichkeit sind Kataloge mit oder ohne Suchmöglichkeiten. Sie zeichnen sich durch eine spezielle Auswahl von Links aus, welche von Hand strukturiert und/oder organisiert und in einer entsprechenden Datenbank abgespeichert werden. Im Fall eines Kataloges mit Suchmöglichkeiten wird bei einem Suchrequest die manuell gespeicherte Information durch das System nach den gewünschten Suchtermen abgesucht. Im Fall eines Kataloges ohne Suchmöglichkeiten muss der Benutzer die gewünschte Information selbst aus der Liste der gespeicherten Links suchen, indem er z.B. manuell durch die Liste klickt oder scrollt. Im letzteren Fall entscheidet der Benutzer selbst, welche Information aus der Liste ihm relevant und welche ihm weniger relevant erscheint. Kataloge sind natürlicherweise durch das Leistungsvolumen und die Prioritäten des/der Editor(en) begrenzt. Beispiele solcher Kataloge sind u.a. Yahoo!™ und FindLaw™. Kataloge fallen unter die Kategorie der Portale und/oder Vortale. Portale und bis zu einem gewissen Mass z.B. auch proprietäre Datenbanken, wie FindLaw.com™ oder WestLaw.com™, versuchen das Problem auf unterschiedliche Weise zu lösen. Portale versuchen manuell einen Überblick über ausgewählte Computer-Sites zu erhalten, indem sie Editoren durchs Internet "surfen" lassen, d.h. den Inhalt beurteilen lassen, und relevante Datenquellen oder Sites zusammenstellen lassen. Die Editoren können pro Tag im Schnitt etwa 10-25 Sites durchsuchen, lesen und evaluieren, wobei von 25 meist nur gerade 1 oder 2 Sites Dokumente mit der gewünschten Qualität oder Information enthalten. Es leuchtet ein, dass Portale für den Anbieter (Provider) bezüglich Zeit-, Kosten- und Arbeitsaufwand sehr ineffizient sind, falls das Ziel eines Portals eine umfassende Indexierung aller verfügbaren Daten zu einem Thema im Internet sein soll. Aus diesem Grund ist es meist so, dass Internet-Portale auch nur Links zu den Start- /Hauptseiten der verschiedenen Sites angeben. Da das Datenangebot auf dem Internet einer starken Dynamik unterliegt, darf sogar gesagt werden, dass mit diesem Verfahren eine vollständige und aktuelle Erfassung aller verfügbaren Daten kaum je möglich sein wird. Unter Vertikale Portale, sog. Vortale, versteht man allgemein Portale, welche ihr Angebot/Auswahl an Informationen auf ein bestimmtes Gebiet beschränken. Vortale besitzen deshalb intrinsisch die gleichen Nachteile wie die oben diskutierten Portale. Im Gegenteil treten die genannten Nachteile bei Vortalen noch mehr in den Vordergrund, da durch ihre Themenbeschränkung der Anspruch an die Qualität und Genauigkeit des Indexierens viel höher angesetzt wird. Dies macht die Aufgabe des Suchens, Lesens und Beurteilens eines kritischen Masses an Informationen noch schwieriger und noch zeitaufwendiger. Ein Beispiel eines solchen Vortals ist u.a. FindLaw.com™, das seit 1995 angeboten und entwickelt wird.Another option is catalogs with or without search options. They are characterized by a special selection of links, which are structured and / or organized by hand and stored in a corresponding database. In the case of a catalog with search options, the manually stored information is searched by the system for the desired search term in a search request. In the case of a catalog without search options, the user must search for the desired information himself from the list of stored links, for example by manually clicking through the list or scrolling. In the latter case, the user himself decides which information from the list is relevant to him and which is less relevant to him. Catalogs are naturally limited by the volume of performance and the priorities of the editor (s). Examples of such catalogs include Yahoo! ™ and FindLaw ™. Catalogs fall under the category of portals and / or vortals. Portals and to a certain extent eg proprietary databases like FindLaw.com ™ or WestLaw.com ™ try to solve the problem in different ways. Portals manually attempt to gain an overview of selected computer sites by "surfing" editors through the Internet, ie having the content judged, and compiling relevant data sources or sites. The editors are able to search, read and evaluate an average of about 10-25 sites per day, of which 25 usually only just 1 or 2 sites contain documents with the desired quality or information. It is clear that portals are very inefficient in terms of time, cost and effort for the provider if the goal of a portal is to provide a comprehensive indexing of all available data on a topic on the Internet. For this reason, it is usually the case that Internet portals also only provide links to the start / main pages of the various sites. Since the availability of data on the Internet is subject to strong dynamics, it may even be said that with this procedure a complete and up-to-date collection of all available data will hardly ever be possible. Vertical portals, so-called vortals, are generally portals that restrict their offer / selection of information to a specific area. Therefore, vortals have intrinsically the same disadvantages as the portals discussed above. On the contrary, the above-mentioned disadvantages in vortals come even more into the foreground, because their claim to the quality and accuracy of indexing is set much higher by their subject limitation. This makes the task of searching, reading and assessing a critical amount of information even more difficult and even more time consuming. An example of such a predecessor is FindLaw.com ™, which has been offered and developed since 1995.
Eines der Hauptprobleme vieler Erfassungssysteme, insbesondere Web-Engines, bildet das Sprachenproblem und das Problem der Transkription. Neu erscheinende Namen und Begriffe können kaum je durch ein System in ihrer Transkription in allen Sprachen und Schreibweisen erfasst werden. Mit den Web-Engines werden deshalb viele relevante Daten und Informationen nicht gefunden. Die internationale Patentanmeldung WO 03/065248 A2 zeigt ein System, welches das Sprachen- und Transkriptionsproblem mittels Mehrsprachenindex zu lösen versucht. Dabei können Dokumente nach Sprachen parallel gesucht werden oder entsprechend gewertet. Schlussendlich offenbart die US-Patentanmeldung US2005/0102270A1 ein System, welches zusätzlich zur Indexierung versucht, die Dokumente mittels eines Tabellierung basierend auf hierarchischen Indexparameter (Index, Subindex, etc.) für den Benutzer so zu Gliedern, dass er bei einer Vielzahl von gefundenen Dokumenten einen thematisch gegliederten Zugriff zu den Dokumenten bekommt. Das rein tabellarische Aufgliedern der Dokumente kann dem Benutzer jedoch keine Information geben, wie die Themengebiete miteinander verknüpft sind und wie sie sich bezüglich ihrer Relevanz zueinander verhalten. Bei einer grossen Menge von gefundenen Dokumenten ist der Benutzer ebenso verloren, wie bei dem herkömmlichen Relevanzlisting. Mit anderen Worten beruhen beide Anmeldungen auf einer Codierung, in welcher Art auch immer und lassen sich basierend auf diesem Ansatz kaum je automatisieren.One of the main problems of many capture systems, especially web engines, is the language problem and the problem of transcription. New appearing names and terms can hardly ever be captured by a system in their transcription in all languages and spellings. With the web engines, therefore, many relevant data and information are not found. International Patent Application WO 03/065248 A2 shows a system which solves the language and transcription problem by means of Tried to solve multi-language index. Documents can be searched for languages in parallel or evaluated accordingly. Finally, US Patent Application US2005 / 0102270A1 discloses a system which, in addition to indexing, attempts to organize the documents into a plurality of found documents by means of tabulation based on hierarchical index parameters (index, subindex, etc.) for the user gets a thematically structured access to the documents. However, the purely tabular breakdown of the documents can not give the user any information about how the subject areas are linked to each other and how they relate to each other in terms of their relevance. With a large amount of found documents, the user is just as lost as in the conventional relevance listing. In other words, both applications are based on coding, of whatever nature, and can hardly ever be automated based on this approach.
Es ist eine Aufgabe dieser Erfindung, eine neueIt is an object of this invention to provide a new one
Transkriptionsvorrichtung und ein entsprechendes Verfahren zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordenbarer Elemente einer ersten und zweiten Gruppe vorzuschlagen, welches die oben genannten Nachteile des Standes der Technik nicht aufweist. Insbesondere soll die Erfindung ermöglichen, eine Transkriptionsvorrichtung zu realisieren, die sich ohne weiteres Zutun dynamisch an einen neuen Wortgebrauch, insbesondere neu erscheinende Namen, anpasst und automatisiert die richtige Transkription vorschlägt. Ebenso soll die Transkriptionsvorrichtung ohne aufwendige Codierung von Worten auskommen, sondern mit einem minimalen Aufwand erstellbar sein.Transcription device and a corresponding method for computer-aided transcription and / or transphrasing non-bijectively assignable elements of a first and second group, which does not have the above-mentioned disadvantages of the prior art. In particular, the invention is intended to make it possible to realize a transcription device which, without any further action, adapts itself dynamically to a new word usage, in particular newly appearing names, and automatically proposes the correct transcription. Likewise, the transcription device should do without elaborate coding of words, but be producible with minimal effort.
Gemäss der vorliegenden Erfindung wird dieses Ziel insbesondere durch die Elemente der unabhängigen Ansprüche erreicht. Weitere vorteilhafte Ausführungsformen gehen zudem aus den abhängigen Ansprüchen und der Beschreibung hervor.According to the present invention, this object is achieved in particular by the elements of the independent claims. Further advantageous embodiments also emerge from the dependent claims and the description.
Insbesondere werden diese Ziele durch die Erfindung dadurch erreicht, dass zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten und zweiten Gruppen mittels automatisierter Transkriptionsvorrichtung mit einem MonteCarlo-Modul unterschiedliche Kombinationen von indexierten Füllelementen generiert und in einer Datenbank, basierend auf den zugeordneten Indexparametern, abgespeichert werden, so dass mittels definierbaren Transkriptionsparametem eine erste Transkription generiert wird, wobei die jeweiligen verwendetenIn particular, these objects are achieved by the invention in that for computer-aided transcription and / or transphrasing non-bijectively assignable elements of a first and second groups means automated transcription device with a Monte Carlo module different combinations of indexed filling elements are generated and stored in a database, based on the associated index parameters, so that by means of definable transcription parameters a first transcription is generated, the respective used
Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codiert werden, dass mittels eines Filtermoduls basierend auf der Codierung der ersten Transkription und den entsprechenden Transkriptionsstellen, eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generiert werden, wobei jedeTranscriptional parameters are encoded according to their transcription site such that by means of a filter module based on the encoding of the first transcription and the corresponding transcription sites, a plurality of transcription variations are generated by variation with the combinations of indexed fill elements, each
Transskritpionsvariation einem Inkrementationsstack zugeordnet ist, dass für jede Transkriptionsvariation ein entsprechendes Suchelement generiert und mittels Transkriptionsvorrichtung über ein Netzwerk auf dezentralisiert angeordnete Datenbanken zugegriffen wird, wobei der entsprechende Inkrementationsstack mittels Triggermodul bei jedem Triggern eines Suchelementes entsprechend inkrementiert wird, dass basierend auf den kumulierten Inkrementationsstacks Wahrscheinlichkeitsparameter generiert und mittels Vergleichsmodul basierend auf den Wahrscheinlichkeitsparametern eine bestimmte Transkription eindeutig selektiert wird. Insbesondere können die Füllelemente z.B. in der Zielsprache phonetisch nicht relevante Lautzeichen umfassen. Ebenso können die Füllelemente z.B. sinnerhaltende, bekräftigende oder abschwächende Füllworte umfassen. Die Erfindung hat u.a. den Vorteil, dass Transkriptionsvorrichtungen erstmals vollständig automatisiert werden können, auch für Transkriptionsprobleme, die sich nicht vollständig durch definierbare Transkriptionsverfahren erfassen lassen. Das Netzwerk kann z.B. das internationale Backbone IP-Netzwerk umfassen. Weiter hat es den Vorteil, dass Transkriptionen, die nur mit grossem Arbeits- und Zeitaufwand z.B. mittels Lookup-Table, d.h. einer eins-zu-eins Codierung der zu zuordnenden Elemente, realisiert werden können, direkt erfassbar sind. Auch neue Namen und Begriffe werden durch die erfindungsgemässe Transkriptionsvorrichtung dynamisch richtig erfasst und verwendet. Dies war mit keinem Stand der Technik bis anhin möglich.Transskritpionsvariation is associated with an incremental stack, that for each transcription variation generates a corresponding search element and accessed by transcription device via a network on decentralized databases, the corresponding incremental stack is incremented by trigger module each time triggering a search element that generated based on the accumulated incremental stack probability parameter and by means of comparison module based on the probability parameters, a specific transcription is uniquely selected. In particular, the filling elements may be e.g. include phonetically non-relevant phonograms in the target language. Likewise, the filling elements may be e.g. include meaningful, affirmative or attenuating filler words. The invention has i.a. the advantage that transcription devices can be fully automated for the first time, even for transcription problems that can not be fully captured by definable transcription methods. The network may e.g. include the international backbone IP network. Furthermore, it has the advantage that transcriptions which can be processed only with great effort and time, e.g. by means of lookup table, i. a one-to-one encoding of the elements to be assigned can be realized are directly detectable. New names and terms are also detected and used dynamically correctly by the transcription device according to the invention. This was not possible with any prior art.
In einer Ausführungsvariante umfasst die automatisierte Transkriptionsvorrichtung ein Steuerungs- und Kontrollmodul zum Steuern von Web-Engines und/oder Konvertierungsvorrichtungen, wobei mitteis der Transkriptionsvorrichtung zusätzlich Quelldatenbanken zugreifbar werden. Diese Ausführungsvariante hat u.a. den Vorteil, dass diese Systeme auf einer vorgängig definierbaren Gesamtheit an Quellendatenbanken aus einem Netzwerk, insbesondere aus dem Internet (z.B. Web-Sites, Chat Rooms, E-mail Foren etc.) automatisiert zugreifen können, welche ebenfalls nach vorgängig definierbaren Suchkriterien gescannt werden, unabhängig von Sprache, Schrift und Schreibweise. Das System ermöglicht also nicht nur die Generierung einer "Trefferliste" von im Internet gefundenen Web-Sites mit entsprechendem Inhalt, sondern das System ermöglicht das erwähnte Screening von vordefinierbaren Quellen und deren systematische und dadurch quantitativ relevante Auswertung, entsprechend den gewünschten und definierten inhaltlichen Kriterien unabhängig von Sprach- Schreib- und Schriftkriterien. Durch das dynamische Aktualisieren der Transkriptionsvorrichtung kann das System die definierten Quellen zum ersten Mal im Stand der Technik tatsächlich selbständig und über einen grosseren Zeitraum 'monitoren', selbst wenn sich Sprach- und Schreibgebrauch ändern, wie z.B. bei der Einführung neuer Rechtschreibungen z.B. des Dudens oder neu erscheinenden Namen.In an embodiment variant, the automated transcription device comprises a control and monitoring module for controlling Web engines and / or conversion devices, wherein inteis the transcription device additionally source databases are accessible. This embodiment variant has the advantage, inter alia, that these systems can automatically access a previously definable entirety of source databases from a network, in particular from the Internet (eg web sites, chat rooms, e-mail forums, etc.), which also have a previously definable Search criteria are scanned, regardless of language, font and spelling. Thus, the system not only enables the generation of a "hit list" of web sites with corresponding content found on the Internet, but the system allows the aforementioned screening of predefinable sources and their systematic and thus quantitatively relevant evaluation, according to the desired and defined content criteria independently of speech, writing and writing criteria. By dynamically updating the transcription device, the system can actually "monitor" the defined sources for the first time in the art independently and over a longer period of time, even if the language and writing usage change, such as when introducing new spellings such as the Duden or new appearing name.
In einer anderen Ausführungsvariante wird mittels der Transkriptionsvorrichtung die erste Gruppe der zweiten Gruppe zugeordnet, wobei die Zuordnung der ersten Gruppe in die zweite Gruppe nicht surjektiv ist, während mittels eines Codierungsmoduls der Transkriptionsvorrichtung die zweite Gruppe der ersten Gruppe zugeordnet wird, wobei die Zuordnung der zweiten Gruppe zur ersten Gruppe surjektiv ist. Diese Ausführungsvariante hat u.a. die gleichen Vorteile wie die vorhergehenden Ausführungsvarianten. Insbesondere kann die zweite Gruppe z.B. auf dem kyrillischen Alphabet beruhen. Dies hat den Vorteil, dass sich Transkriptionen in Sprachen wie Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch, Weißrussisch ohne weiteres erfassen lassen. Ein weiterer Vorteil besteht darin, dass Web-Engines basierend auf der erfindungsgemässen Transkriptionsvorrichtung Web-Sides, insbesondere auch New-Groups etc. ohne weiteres erfassen können. Insbesondere können die Füllelemente und/oder Transkriptionsvariationen nicht nur kyrillisch sondern z.B. auch hebräische Buchstaben umfassen. Dies hat den Vorteil, dass Transkriptionsbegriffe in die entsprechenden Sprachen wie alt/neu Hebräisch erfasst werden.In another embodiment, the first group of the second group is assigned by means of the transcription device, wherein the assignment of the first group in the second group is not surjective, while by means of a coding module of the transcription device, the second group of the first group is assigned, the assignment of the second Group is surjective to the first group. This variant has, inter alia, the same advantages as the previous embodiments. In particular, the second group may be based, for example, on the Cyrillic alphabet. This has the advantage that transcriptions in languages such as Bulgarian, Macedonian, Russian, Serbian, Ukrainian, Belorussian can be easily grasped. Another advantage is that web engines based on the inventive transcription device Web Sides, especially New Groups, etc. can easily detect. In particular, the filling elements and / or transcription variations may include not only Cyrillic but also, for example, Hebrew letters. This has the advantage that transcription terms are captured in the appropriate languages such as old / new Hebrew.
In einer weiteren Ausführungsvariante wird die Wertungsliste mit den gefundenen Datensätzen und/oder Verweisen auf die gefundenen Datensätze in einem Contentmodul einer Zentraleinheit für einen Benutzer zugreifbar abgespeichert. Diese Ausführungsvariante hat u.a. den Vorteil, dass das System z.B. als Monitor-, Überwachungs- und/oder Warnsystem für den Benutzer eingesetzt werden kann.In a further embodiment, the scorecard with the found records and / or references to the found records is stored in a content module of a central unit accessible to a user. This variant has u.a. the advantage that the system e.g. can be used as a monitoring, monitoring and / or warning system for the user.
In einer anderen Ausführungsvariante wird ein Benutzerprofil anhand von Benutzerinformationen erstellt, wobei basierend auf den im Contentmodul abgespeicherten, gefundenen Datensätzen, und/oder Verweisen auf gefundene Datensätze mittels eines Repackagingmoduls unter Berücksichtigung der Daten des Benutzerprofils, benutzerspezifisch optimierte Daten erzeugt werden, welche benutzerspezifisch optimierte Daten dem Benutzer im Contentmodul der Zentraleinheit abgespeichert zur Verfügung stellt. Dem Benutzer können als Ausführungsvariante verschiedene Benutzerprofile für unterschiedliche Kommunikationsvorrichtungen des Benutzers zugeordnet abgespeichert werden. Weiter können z.B. auch Daten zum Benutzerverhalten von der Zentraleinheit automatisch erfasst und dem Benutzerprofil zugeordnet abgespeichert werden. Diese Ausführungsvariante hat u.a. den Vorteil, dass unterschiedliche Accessmöglichkeiten des Benutzers benutzerspezifisch berücksichtigt werden können und das System so benutzerspezifisch optimiert werden kann.In another embodiment variant, a user profile is created on the basis of user information, wherein user-specific optimized data is generated based on the data records stored in the content module, found and / or references to data records found by means of a repackaging module taking into account the data of the user profile, which user-specifically optimized data the user stored in the content module of the central unit provides. The user can be stored as a variant variant different user profiles for different communication devices of the user assigned. Further, e.g. Also, data on user behavior is automatically recorded by the central unit and stored in association with the user profile. This variant has u.a. the advantage that different access options of the user can be considered user-specific and the system can be optimized user-specific.
An dieser Stelle soll festgehalten werden, dass sich die vorliegende Erfindung neben dem erfindungsgemässen Verfahren auch auf eineAt this point, it should be noted that the present invention, in addition to the inventive method on a
Transkriptionsvorrichtung zur Ausführung dieses Verfahrens bezieht. Ferner beschränkt es sich nicht auf die genannte Triggervorrichtung und ein entsprechendes Verfahren, sondern bezieht sich ebenso auf ein Computerprogrammprodukt zur Realisierung des erfindungsgemässen Verfahrens. Nachfolgend werden Ausführungsvarianten der vorliegenden Erfindung anhand von Beispielen beschrieben. Die Beispiele der Ausführungen werden durch folgende Figuren illustriert:Transcription device for carrying out this method relates. Furthermore, it is not limited to the said triggering device and a corresponding method, but also relates to a computer program product for implementing the method according to the invention. Hereinafter, embodiments of the present invention will be described by way of examples. The examples of the embodiments are illustrated by the following figures:
Figur 1 zeigt schematisch die Funktionsweise einer erfindungsgemässen Transkriptionsvorrichtung 10 zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten 20 und zweiten 50 Gruppe mittels der automatisierten Transkriptionsvorrichtung 10.FIG. 1 schematically shows the mode of operation of a transcription device 10 according to the invention for computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first 20 and second 50 groups by means of the automated transcription device 10.
Figur 2 illustriert schematisch ebenfalls die Funktionsweise einer erfindungsgemässen Transkriptionsvorrichtung 10 zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten 20 und zweiten 50 Gruppe mittels der automatisierten Transkriptionsvorrichtung 10. Dabei wird schematisch genauer das Verfahren gezeigt.FIG. 2 likewise schematically illustrates the mode of operation of a transcription device 10 according to the invention for computer-assisted transcription and / or transphrasing of non-bijectively assignable elements of a first 20 and second 50 groups by means of the automated transcription device 10. The method is shown schematically in more detail.
Figur 3 illustriert ebenfalls eine schematische Darstellung einerFIG. 3 likewise illustrates a schematic representation of a
Ausführungsvariante des Transkriptionsverfahrens mittels der Transkriptionsvorrichtung 10.Embodiment of the transcription method by means of the transcription device 10.
Figur 1 illustriert schematisch eine Architektur, die zur Realisierung der Erfindung verwendet werden kann. In diesem Ausführungsbeispiel werden zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten 20 und zweiten 50 Gruppen mittels automatisierter Transkriptionsvorrichtung 10 mit einem MonteCarlo-Modul 112 der Transkriptionsvorrichtung 10, unterschiedliche Kombinationen von indexierten Füllelementen generiert und in einer Datenbank 115 basierend auf den zugeordneten Indexparameter abgespeichert. Die Füllelemente können z.B. phonetisch nicht relevante Lautzeichen umfassen. Die Füllelemente können z.B. aber auch sinnerhaltende, bekräftigende oder abschwächende Füllworte umfassen. Das Monte-Carlo-Modul 112 kann z.B. probabilistisch Transkriptionen (z.B. rein zufällig oder gemäss einer Wahrscheinlichkeits- Verteilung) generieren, die hernach zur Weiterverarbeitung/Analyse benützt werden. Es ist jedoch wichtig darauf hinzuweisen, dass das Einsetzen der Füllelemente im Normalfall wie unten beschrieben nach vordefinierbaren Regeln erfolgt. Ob ein Regel zum Einsetzen eines Füllelementes bei der Generierung der unterschiedlichen Transkriptionen jedoch angewandt wird oder nicht, erfolgt dann z.B. probabilistisch mittels des Monte Calro Moduls. Ebenso ist es auch hier bereits wichtig darauf hinzuweisen, dass dieFigure 1 schematically illustrates an architecture that may be used to implement the invention. In this embodiment, for computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first 20 and second 50 groups by automated transcription device 10 with a Monte Carlo module 112 of the transcription device 10, different combinations of indexed fill elements are generated and stored in a database 115 based on the stored index parameter stored. The filling elements may include, for example, phonetically irrelevant phonograms. However, the filling elements may also include, for example, meaningful, affirmative or attenuating filling words. For example, the Monte Carlo module 112 can probabilistically generate transcriptions (eg purely randomly or according to a probability distribution), which are then used for further processing / analysis. However, it is important to note that the onset of the Normally, fill elements follow predefined rules as described below. However, whether a rule for inserting a filling element in the generation of the different transcriptions is applied or not, is then probabilistic, for example, by means of the Monte Calro module. Likewise, it is important to point out that the
Transkriptionsvorrichtung bzw. das entsprechende Verfahren als Ganzes auf der Wahrscheinlichkeitsverteilung aller möglicher generierbarer Transkriptionen basiert und entsprechend triggert. Mit anderen Worten werden die Transkriptionen selbst i.N. betreffend der Füllelemente nicht probabilistisch generiert, da wie gesagt das Einsetzen der Füllelemente vordefinerten Regeln folgen kann, sondern nur betreffend des Anwendens einer Füllregel bzw. des Nichtanwendens.Transcription device or the corresponding method is based as a whole on the probability distribution of all possible generated transcriptions and triggers accordingly. In other words, the transcriptions themselves become i.N. concerning the filling elements is not probabilistically generated, since, as stated, the insertion of the filling elements can follow predefined rules, but only with respect to the application of a filling rule or the non-application.
Mittels definierbaren Transkriptionsparametern eines Basismoduls wird für ein selektiertes Element der ersten Gruppe 20 eine erste Transkription 40 generiert, wobei die jeweiligen, verwendeten Transkriptionsparameter entsprechend ihrer Transkriptionsstelle codiert werden. Mittels eines Filtermoduls 113, basierend auf der Codierung der ersten Transkription 40 und den entsprechenden Transkriptionsstellen, werden eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generiert, wobei jede Transskritpionsvariation einem Inkrementationsstack 116 zugeordnet ist. Für jede Transkriptionsvariation wird ein entsprechendes Suchelement generiert und mittels Transkriptionsvorrichtung 10 wird über ein Netzwerk 70 auf dezentralisiert angeordnete Datenbanken 71 ,...,74 zugegriffen, wobei der entsprechende Inkrementationsstack 117 mittels Triggermodul 111 bei jedem Triggern eines Suchelementes 1211 , ...,1212 inkrementiert wird. Basierend auf den kumulierten Inkrementationsstacks 117 werden Wahrscheinlichkeitsparameter generiert und mittels Vergleichsmodul 114 basierend auf den Wahrscheinlichkeitsparameter wird eine bestimmte Transkription eindeutig selektiert. Das Netzwerk 70 kann z.B. das internationale Backbone IP-Netzwerk umfassen. Das Netzwerk 70 kann aber auch z.B. Kommunikationsnetze umfassen wie beispielsweise ein GSM- oder ein UMTS-Netz, oder ein satellitenbasiertes Mobilfunknetz, und/oder ein oder mehrere Festnetze, beispielsweise das öffentlich geschaltete Telefonnetz, das weltweite Internet oder ein geeignetes LAN (Local Area Network) oder WAN (Wide Area Network). Insbesondere umfasst es auch ISDN- und XDSL-Verbindungen. Eine Transkriptionsvorrichtung 10 greift folglich über das Netzwerk 70 auf mit Quelldatenbanken 71 ,...,74 verbundene Netzwerknodes zu und Daten der Quelldatenbanken 71 ,...,74 werden basierend auf den Transskritpions- variationen selektiert bzw. getriggert. Gemäss der vorliegenden Erfindung ist die Transkriptionsvorrichtung 10 mit den Netzwerknodes bzw. Quelldatenbanken 71 , ...,74 über das Kommunikationsnetz 70 bidirektional verbunden.By means of definable transcription parameters of a base module, a first transcription 40 is generated for a selected element of the first group 20, wherein the respective transcription parameters used are encoded according to their transcription site. By means of a filter module 113, based on the coding of the first transcription 40 and the corresponding transcription sites, a plurality of transcription variations are generated by variation with the combinations of indexed fill elements, each transskritization variation being associated with an increment stack 116. For each transcription variation, a corresponding search element is generated and by means of transcription device 10 is accessed via a network 70 on decentralized databases 71, ..., 74, wherein the corresponding incrementation stack 117 by means of trigger module 111 on each triggering of a search element 1211, ..., 1212 is incremented. Based on the accumulated incrementation stacks 117, probability parameters are generated and, using comparison module 114, a specific transcription is uniquely selected based on the probability parameters. The network 70 may include, for example, the international backbone IP network. However, the network 70 can also include, for example, communication networks, such as a GSM or UMTS network, or a satellite-based mobile radio network, and / or one or more fixed networks, for example the public switched telephone network, the worldwide Internet or a suitable LAN (Local Area Network) or WAN (Wide Area Network). In particular, it also includes ISDN and XDSL connections. A transcription device 10 thus accesses network nodes connected to source databases 71, ..., 74 via the network 70, and data of the source databases 71, ..., 74 are selected or triggered based on the transscripts variations. According to the present invention, the transcription device 10 is bidirectionally connected to the network nodes or source databases 71,..., 74 via the communication network 70.
Die basierend auf den Suchbegriffen zu triggernden Daten können, wie dargestellt, an unterschiedlichen Orten in unterschiedlichen Netzen oder lokal für die Transkriptionsvorrichtung 10 zugreifbar abgespeichert sein. Die Netzwerknodes mit den Datenbanken 71 ,...,74 können WWW-Server (HTTP: Hyper Text Transfer Protocol / WAP: Wireless Application Protocol etc.), Chat- Server, E-Mail-Server (MIME), News-Server, E-Journal-Server, Group-Server oder beliebige andere File-Server, wie z.B. FTP-Server (FTP: File Transfer Protocol), ASD (Active Server Pages) basierende Server oder SQL basierende Server (SQL: Structured Query Language) etc. umfassen. Mittels der Transkriptionsvorrichtung können z.B. Elemente der ersten Gruppe 20 Elementen der zweiten Gruppe 50 zugeordnet werden, wobei die Zuordnung der ersten Gruppe 20 in die zweite Gruppe 50 nicht surjektiv ist, während mittels eines Codierungsmoduls 11 der Transkriptionsvorrichtung die zweite Gruppe in die erste Gruppe zugeordnet wird, wobei die Zuordnung der zweiten Gruppe zur ersten Gruppe surjektiv ist. Die Elemente der ersten Gruppe 20 und/oder der zweiten Gruppe 50 können z.B. Multimediadaten umfassen u.a. digitale Daten wie Texte, Graphiken, Bilder, Karten, Animationen, bewegte Bilder, Video, Quicktime, Tonaufnahmen, Programme (Software), programmbegleitende Daten und Hyperlinks oder Verweise auf Multimediadaten. Dazu gehören z.B. auch MPx (MP3) oder MPEGx (MPEG4 oder 7) Standards, wie sie durch die Moving Picture Experts Group definiert werden. Insbesondere können die Elemente der ersten 20 und/oder zweiten 50 Gruppe Daten im HTML- (Hyper Text Markup Language), HDML- (Handheld Device Markup Language), WMD- (Wireless Markup Language), VRML- (Virtual Reality Modeling Language) oder XML- (Extensible Markup Language) Format umfassen. Die zweite Gruppe kann z.B. auf kyrillischem und/oder hebräischem Alphabet beruhen. Die Füllelemente und/oder Transkriptionsvariationen können z.B. kyrillische oder hebräische Buchstaben umfassen.The data to be triggered based on the search terms can, as shown, be stored at different locations in different networks or locally accessible to the transcription device 10. The network nodes with the databases 71,..., 74 may include WWW (Hyper Text Transfer Protocol / WAP: Wireless Application Protocol etc.) servers, chat servers, email servers (MIME), news servers, E-journal servers, group servers or any other file servers, such as FTP (File Transfer Protocol) servers, ASD (Active Server Pages) based servers, or SQL-based servers (SQL: Structured Query Language), etc. include. By means of the transcription device, for example, elements of the first group 20 can be assigned to elements of the second group 50, wherein the assignment of the first group 20 into the second group 50 is not surjective, while the second group is assigned to the first group by means of a coding module 11 of the transcription device , where the assignment of the second group to the first group is surjective. The elements of the first group 20 and / or the second group 50 may include multimedia data such as digital data such as text, graphics, images, maps, animations, moving images, video, quicktime, sound recordings, programs (software), program accompanying data and hyperlinks or References to multimedia data. These include, for example, MPx (MP3) or MPEGx (MPEG4 or 7) standards, as defined by the Moving Picture Experts Group. In particular, elements of the first 20 and / or second 50 groups may include data in HTML (Hyper Text Markup Language), HDML (Handheld Device Markup Language), WMD (Wireless Markup Language), VRML (Virtual Reality Modeling Language), or XML (Extensible Markup Language) format include. The second group may for example be based on Cyrillic and / or Hebrew alphabet. The filling elements and / or transcription variations may include, for example, Cyrillic or Hebrew letters.
Für Transkriptionen zwischen kyrillisch und lateinisch geschriebenen Elementen ist die gängige Richtung der Transliteration die Verwandlung von kyrillischen Bezeichnungen und Begriffen, für die es keine Übersetzung gibt (also Personen- und Ortsnamen etc.), in Begriffe in lateinischer Schrift. Ziel dieser Transliteration ist es, z.B. russische Begriffe so in lateinische Zeichen zu überführen, dass die Lesenden diese phonetisch richtig aussprechen. Für diese Richtung sind im Stand der Technik zahlreiche Standards bekannt. So z.B. (i) ALA-LC (American Library Association & Library of Congress): Wird in Nordamerikanischen Publikationen oft verwendet; (ii) BGN/PCGN: Ist die gängigste Norm, die für anglophone Menschen relativ intuitiv zu phonetisch guten Resultaten führt; (iii) GOST: Wurde 1971 in der UdSSR entwickelt und wird bis heute weiterentwickelt. Die neuste Version dieses Standards (GOST 7.79) ist die offizielle Norm, die in Russland und den anderen Ex-UdSSR- Staaten angewandt wird.For transcriptions between Cyrillic and Latin written elements, the common direction of transliteration is the transformation of Cyrillic terms and terms for which there is no translation (ie, person and place names, etc.) into terms in Latin script. The aim of this transliteration is, e.g. To translate Russian terms into Latin characters so that the readers pronounce them phonetically correct. For this direction, numerous standards are known in the art. For example, (i) ALA-LC (American Library Association & Library of Congress): Widely used in North American publications; (ii) BGN / PCGN: Is the most common standard that leads to relatively phonetically good results for anglophone people; (iii) GOST: Developed in 1971 in the USSR and continues to evolve today. The latest version of this standard (GOST 7.79) is the official standard used in Russia and the other ex-USSR states.
Bei der Transliteration von kyrillisch in lateinisch gibt es üblicherweise kein richtig oder falsch, was sich schon aus den unterschiedlichen Standards ergibt. So kann etwa Muxami TopöaneB alsIn the transliteration of Cyrillic in Latin, there is usually no right or wrong, which results from the different standards. For example, Muxami TopaneB can be considered
Michail Gorbatschov, Mikhail Gorbachev, Michail Gorbatschev etc. geschrieben werden. Anders verhält es sich bei der Transkription von lateinisch in kyrillisch. Diese Richtung kann z.B. benützt werden, um englische, französische, deutsche etc. Namen in kyrillische zu verwandeln. Auch dies ist relativ einfach, da es kein richtig oder falsch gibt. Sollen jedoch ursprünglich russiche Namen, die nur in der lateinisch geschriebenen Form vorliegen, wieder in Kyrillisch transformiert werden, wird die Sache schwieriger. Denn von russischen Namen gibt es auf kyrillisch nur eine richtige Schreibweise. Es ist ein Vorteil der Erfindung, dass sich mittels der erfindungsgemässen Transkriptionsvorrichtung 10 die oben erwähnten Standards (ALA-LC, BGN/PCGN etc.) umkehren und schliesslich die transliterierten Namen mittels Datenbanken 71 ,...,74, wie insbesondere z.B. Google, auf ihre Richtigkeit überprüfen lassen. Für Begriffe, die nicht in den Datenbanken 71 ,...,74, insbesondere dem Internet existieren, kann die Transkriptionsvorrichtung z.B. eines der oben erwähnten Standardverfahren verwenden. Es ist jedoch ein klarer Vorteil, dass wenn die Transkriptionsvorrichung 10 einen Transliterierungsvorschlag basierend auf dem erfindungsgemässen Verfahren mittels der Datenbanken 71 ,...,74 macht, dieser mit Sicherheit der Richtige ist.Mikhail Gorbachev, Mikhail Gorbachev, Mikhail Gorbachev, etc. will be written. The situation is different with the transcription from Latin to Cyrillic. This direction can be used, for example, to turn English, French, German etc. names into Cyrillic. Again, this is relatively easy as there is no right or wrong. However, if originally Russian names, which are only available in the Latin form, are to be transformed back into Cyrillic, things get more difficult. Because of Russian names, there is only one correct spelling in Cyrillic. It is an advantage of the invention that the abovementioned standards (ALA-LC, BGN / PCGN, etc.) can be reversed by means of the transcription device 10 according to the invention, and finally the transliterated names can be reversed by means of databases 71,... 74, in particular Google, for example. checked for their correctness. For terms that do not exist in the databases 71, ..., 74, especially the Internet, For example, the transcription device may use one of the standard methods mentioned above. However, it is a clear advantage that if the transcription device 10 makes a transliterating proposal based on the method according to the invention by means of the databases 71, ..., 74, this is certainly the right one.
Zur Generierung der ersten Transkription mittels definierbaren Transkriptionsparametern des Basismoduls für ein selektiertes Element der ersten Gruppe 20 kann die Transkriptionsvorrichtung z.B. einen Zusammenzug der beiden Standards ALA-LC und BGN/PCGN benutzen. Beiden Normen ist eigen, dass die entsprechenden Abbildungen des kyrllischen Schriftsatzes auf den Lateinischen nicht injektiv sind. Das bedeutet, dass zwei verschiedene kyrillische Zeichen auf das gleiche lateinischen Zeichen abgebildet werden können. Für die Umkehrung der Abbildung heisst dies, dass ein lateinisches Zeichen zwei unterschiedliche kyrllische Varianten erzeugen kann. Zudem existieren im Russischen stumme Zeichen (vergleichbar mit dem NrT in Fehler), die dazu führen, dass Konsonanten weicher oder härter ausgesprochen werden. Die beiden stummen Zeichen sind V , das den vorhergehenden Konstanten weicher, und "V, das den vorhergehenden Konsonanten härter macht. Diese beiden Zeichen können von keinem der Transliteratoren und Transkriptionsvorrichtungen des Standes der Technik berücksichtigt werden. Erst durch die erfindungsgemässe Transkriptionsvorrichtung 10 können z.B. russische Namen korrekt von ihrem lateinischen in das kyrillische Pendant verwandelt werden. Prominentestes Beispiel, bei dem alle Transliteratoren des Standes der Technik versagen, ist Boris Yeltsin noch Bopnc Eπbu,w-i. Der dritte Buchstabe im Nachnamen ist der „Weichmacher" V.To generate the first transcription by means of definable transcription parameters of the base module for a selected element of the first group 20, the transcription device can use, for example, a combination of the two standards ALA-LC and BGN / PCGN. It is peculiar to both norms that the corresponding illustrations of the Cyrillic narrative are not injective in Latin. This means that two different Cyrillic characters can be mapped to the same Latin character. For the reversal of the figure, this means that a Latin character can produce two different cyrillic variants. Also exist in the Russian silent character (similar to the N r T in error), the cause consonants are pronounced softer or harder. The two silent characters V, the softer the previous constants, and "V, which makes the preceding consonant harder. These two characters can be taken into account by any of the Transliteratoren and transcription devices of the prior art. Only through the inventive transcription apparatus 10, for example, can Russian The most prominent example, in which all the prior art transliterators fail, is Boris Yeltsin's still Bopnc Eπbu, wi. The third letter in the surname is the "plasticizer" V.
In der Transkriptionsvorrichtung 10 kann in einem ersten Schritt z.B. der lateinisch geschriebene Text Zeichen für Zeichen in kyrillische Zeichen übersetzt werden. Dabei wird für jede mögliche Verzweigung eine Kopie des Resultats erstellt. Am Schluss dieses Prozesses gibt es für jede theoretisch, aufgrund der phonetischen Regeln möglichen Variante eine Schreibweise. Ein Beispiel findet sich in Fig. 3. Bei der Verwandlung einzelner Buchstaben können folgende Kriterien berückstichtig: (i) Ist der Buchstabe ein Konsonant oder ein Vokal; (ii) Ist der Zielbuchstabe jotiert (ju statt u); (iii) Folgt als nächstes ein Konsonant oder ein Vokal; (iv) Steht der Buchstabe am Schluss oder am Anfang eines Wortes; (v) Ist der Buchstabe teil einer Buchstabenkombination, die immer gleich transliteriert wird. Diese fünf Kriterien bestimmen die möglichen Transliterierungen. Sie können z.B. aus den Normen ALA-LC und BGN/PCGN abgeleitet. BGN/PCGN ist ein Verfahren, mittels welchem kyrillische Begriffe, insbesondere russische Ausdrücke, in lateinische Ausdrücke übertragen werden können. Das Verfahren für kyrillische Ausdrücke ist ein Verfahren einer grosseren Auswahl von BGN/PCGN Verfahren (zurzeit werden 29 verschiedenen Sprachen durch BGN/PCGN erfasst). Die BGN/PCGN Verfahren wurden durch das United States Board on Geographical Names und durch das Permanent Commitee on Geographical Names for British Official Use entwickelt. Die Verfahren zur Unterstützung von Transliterationen in kyrillischen Buchstaben, insbesondere russischen Ausdrücken, wurde 1944 durch BGN und 1947 durch PCGN aufgenommen. Die Transliteration basiert dabei ausschliesslich auf der Verwendung der Grundbuchstaben und Punktuationen, welche sich auf der Englischen Ausführung von Standard-Tastaturen und Keyboards befinden. Damit werden für BGN/PCGB keine Sonderzeichen benötigt, obwohl zur Vermeidung von Doppeldeutigkeiten die Verwendung des Zeichens () zugelassen wird. In vielen Publikationen wird eine vereinfachte Form des BGN/PCGN verwendet, z.B. zur Transkription von Englischen in Russische Ausdrücke, indem typischerweise e zu yo konvertiert wird, -iy und -yy Endungen zu -y vereinfacht werden, und Apostrophe für t und b vermieden werden. Edward Allworth, als Beispiel, verwendet ein BGN/PCGN basierendes Verfahren in seinem Buch "Nationalities of the Soviet East - Publications and Writing Systems". Er überträgt e und e immer zu e bzw. e und substituiert ein i für y von M, K> und fi, was das Verfahren ähnlich zu eine Version des ALA-LC Systems ohne diakritische Zeichen macht. Die folgende Tabelle illustriert das BGN/PCGN Verfahren mit Beispiel:In the transcription device 10, in a first step, for example, the text written in Latin can be translated character by character into Cyrillic characters. In doing so, a copy of the result is created for each possible branch. At the end of this process there is a notation for every theoretically possible variant due to the phonetic rules. An example can be found in FIG. 3. In the transformation of individual letters, the following criteria can be taken into account: (i) If the letter is a consonant or a vowel; (ii) If the target letter is joted (ju instead of u); (iii) Next a consonant or a vowel; (iv) If the letter is at the end or the beginning of a word; (v) If the letter is part of a letter combination that always transliterates immediately. These five criteria determine the possible transliterations. For example, they can be derived from the standards ALA-LC and BGN / PCGN. BGN / PCGN is a method by which Cyrillic terms, especially Russian expressions, can be translated into Latin terms. The procedure for Cyrillic expressions is a procedure for a wider selection of BGN / PCGN procedures (currently 29 different languages are covered by BGN / PCGN). The BGN / PCGN procedures were developed by the United States Board of Geographical Names and the Permanent Commitee on Geographical Names for British Official Use. The procedures for supporting transliterations in Cyrillic letters, especially Russian expressions, were recorded in 1944 by BGN and in 1947 by PCGN. The transliteration is based solely on the use of the capital letters and punctuation, which are on the English version of standard keyboards and keyboards. BGN / PCGB does not require any special characters, although the use of the character ( ) is permitted to avoid ambiguity. Many publications use a simplified form of BGN / PCGN, for example, to translate English into Russian terms by typically converting e to yo, simplifying -y and -yy endings to -y, and avoiding apostrophes for t and b , Edward Allworth, for example, uses a BGN / PCGN based methodology in his book "Nationalities of the Soviet East - Publications and Writing Systems." It always transfers e and e to e and e respectively and substitutes an i for y from M, K> and fi, making the procedure similar to a version of the ALA-LC system without diacritics. The following table illustrates the BGN / PCGN method with example:
Z " hen Spezieile Bestimmungen [ BeispieleThere are special species regulations [examples
(russisch) ,Ä3OB = ÄZOV(Russian) , Ä3OB = ÄZOV
(A (a) :A(a) Keine(A (a): A (a) None
TaiviδoB = TambovTaiviδoB = Tambov
' BapHayn = Barnaul ' BapHayn = Barnaul
•B(6) ;B(b) Keine KyOaHb = Kuban'• B (6) ; B (b) No KyOaHb = Kuban '
BπaßMMMp = VladimirBπassMMMp = Vladimir
I B (B) V(V) «Keine YjibfiHOBCK = Ul'yanovskIB (B) V (V) « No YjibfiHOBCK = Ul'yanovsk
!r(r) ' rpo3HbiPi = Groznyy! r (r) 'rpo3HbiPi = Groznyy
G(g) Keine G (g) None
, BoπroflOHCK = Volgodonsk, BoπroflOHCK = Volgodonsk
jfl3ep>KMHCKMM = Dzerzhinskiy ifl(fl) D(d) Keine HennflOBo = Nelidovojfl3ep> KMHCKMM = Dzerzhinskiy ifl (fl) D (d) No HennflOBo = Nelidovo
1. EΠM3OBO = Yelizovo1. EΠM3OBO = Yelizovo
1. Wort (anfänglich);1st word (initial);
2. nach Vokalen; 2. HaπaβBCK = Chapayevsk;2. after vowels; 2. HaπaβBCK = Chapayevsk;
:γe (ye) 3. nach M;: γe (ye) 3. after M;
!E(e) 3. Ma^ep = May_yer;! E (e) 3. Ma ^ ep = May_yer;
4. nach b;4. to b;
5. nach t.
Figure imgf000020_0001
5. after t.
Figure imgf000020_0001
Figure imgf000020_0002
Ba3bMa = Vyaz'ma
Figure imgf000020_0002
Ba3bMa = Vyaz'ma
_ MpKyrcK = Irkutsk_MpKyrcK = Irkutsk
[H(M) (i) Keine AπaTMTbi = Apatity jVora, y, bi, odera. Hauptsächlich verwendet I zur Transliteration von Namen aus nichtrussischen Sprachen non-[H (M) (i) None AπaTMTbi = Apatity jVora, y, bi, ora. Mainly, I uses non-Russian language non-Russian transliteration.
Y- (y) Kaήaφa = Kay-afa ■ Russian-Ianguage names Y- (y) Kaήaφa = Kay-afa ■ Russian-Ianguage names
\A (M) .von der Russischen «Schreibweise. Die I Verwendung des Digraph ; ist optional.\ A (M) .from the Russian «spelling. The I use of the Digraph; is optional.
Λoujκap-Oπa = Yoshkar-OlaΛoujκap-Oπa = Yoshkar-Ola
»Y (y) ■ Alle anderen Fälle : EMMCK = Biysk»Y (y) ■ All other cases: EMMCK = Biysk
KnpoB = Kirov KnpoB = Kirov
K(κ) ;K(k) KeineK (κ); K (k) None
! EHHcekicK = Yeniseysk iJloMOHocoB = Lomonosov JI(Ji) L(I) [Keine! EHHcekicK = Yeniseysk iJloMOHocoB = Lomonosov JI (Ji) L (I) [None
I !HennflθBθ = NelidovoI ! HennflθBθ = Nelidovo
! MeHfleπeeB = Mendeleyev! MeHfleπeeB = Mendeleyev
M (M) M(m) ] Keine ! KawieHKa = Kamenka jHoßocHÖMpcK = NovosibirskM (M) M (m)] None! KawieHKa = Kamenka jHossocHÖMpcK = Novosibirsk
I H (H) N(n) Keine i KaHflaπaKiua = Kandalaksha jI H (H) N (n) None i KaHflaπaKiua = Kandalaksha j
,OMCK = Omsk, OMCK = Omsk
O (o) O(o) [Keine KpacHOfipcK = Krasnoyarsk ,π(π) πeτpo3aßθflcκ = PetrozavodskO (o) O (o) [No KpacHOfipcK = Krasnoyarsk, π (π) πeτpo3aßθflcκ = Petrozavodsk
P(P) i Keine CepπyxoB = Serpukhov j POCTOB = RostovP (P) i None CepπyxoB = Serpukhov j POCTOB = Rostov
I P (P) R(r) Keine jCeBepo6aMκaπbcκ = ! Severobaykal'skIP (P) R (r) None j CeBepo6aMκaπbcκ =! Severobaykal'sk
C(c) CκoBopoflHHθ = SkovorodinoC (c) CκoBopoflHHθ = Skovorodino
S(s) I Keine MaPiKOBCKMM = ChaykovskiyS (s) I No MaPiKOBCKMM = Chaykovskiy
TaiviδoB = Tambov T(τ) τ(t) j Keine I MbITMIi(M = Mytishchi TaiviδoB = Tambov T (τ) τ (t) j None I MbITMIi (M = Mytishchi
[YmMH = Uglich v(y) U(U) Keine[YmMH = Possible v (y) U (U) None
; flyflMHKa = Dudinka φ(φ) |ΦypMaHθB = Furmanov; flyflMHKa = Dudinka φ (φ) | ΦypMaHθB = Furmanov
F(f) (Keine "Yφa = UfaF (f) (No "Yφa = Ufa
[XaβapoBCK = Khabarovsk iX(x) Kh (kh) j Keine ■ npoxnaflHbiM = Prokhladnyy[XaβapoBCK = Khabarovsk iX ( x ) Kh (kh) j None ■ npoxnaflHbiM = Prokhladnyy
U404) Ts (ts) : Keine i
Figure imgf000021_0001
= TSimlyansk EπbuiHH = Yel'tsin
U404) Ts (ts): None i
Figure imgf000021_0001
= TSimlyansk EπbuiHH = Yel'tsin
He6oκcapbi = CheboksaryHe6oκcapbi = Cheboksary
M (H) ,Ch (Ch) Keine rienopa = PechoraM (H), Ch (Ch) No rienopa = Pechora
UJaxrepcK = ShakhterskUJaxrepcK = Shakhtersk
LU (LU) «Sh (Sh) Keine MbiujKMH = MyshkinLU (LU) «Sh (Sh) None MbiujKMH = Myshkin
L14enκoBθ = ShchelkovoL14enκoBθ = Shchelkovo
LH (U-O ΪShch (shch) Keine PTMLμeBo = RtishchevoLH (U-O ΪShch (shch) No PTMLμeBo = Rtishchevo
Diese Zeichen kommt amThis sign comes on
"b " " Anfang eines Wortes nicht πofli3e3flHθki = Pod"yezndoy ivor. " b " " Beginning of a word not πofli3e3flHθki = pod" yezndoy ivor.
Vor a, y, bi, oder a Hauptsächlich verwendet zur Transliteration von Namen aus nichtrussischen Sprachen non-Before a, y, bi, or a Mainly used for transliteration of non-Russian language names.
1Y- (y) BbiyflMTb = Vy-udit' ; Russian-language names ' von der Russischen [Schreibweise. Die Verwendung des Digraph ■ ist optional. 1 Y- (y) BbiyflMTb = Vy-udit '; Russian-language names' from Russian [spelling. The use of the Digraph ■ is optional.
. Nach jedem Vokal. ( Hauptsächlich verwendet, After every vowel. (Mainly used
I bI (bi) jzur Transliteration von ; Namen aus nichtrussischen Sprachen non-I bI (bi) j for transliteration of; Names from non-Russian languages non-Russian
IΎ Russian-Ianguage names von der Russischen [ Schreibweise. Die j Verwendung des Digraph , ist optional.IΎ Russian-Ianguage names from the Russian [spelling. The use of the Digraph is optional.
; Für alle anderen Fälle. ! Diese Zeichen kommt am blTTbiK-Kenb = Yttyk-KeT; For all other cases. ! These signs come at blTTbiK-Kenb = Yttyk-KeT
Y (y) {Anfang eines Wortes mit TbiHfla = Tynda i Ursprung im Russischen i nicht vor.Y (y) {beginning of a word with TbiHfla = Tynda i origin in Russian i not present.
Diese Zeichen kommt am b (b) ] Anfang eines Wortes nicht TKDMeHb = Tyumen' !vor.These signs do not appear on the b (b)] beginning of a word TKDMeHb = Tyumen '!
3 (3)3 (3)
[ Nach jedem Konsonanten flßyxaneivieHTHbiM = ^ausser M. Hauptsächlich Dvukh-elementnyy verwendet zur aus nicht-russischen Sprachen non-Russian- language names von der Russischen Schreibweise. Die Verwendugn dieses Digraph ist optional.[After each consonant flssyxaneivieHTHbiM = ^ except M. Mainly Dvukh-elementnyy uses non-Russian-language names from non-Russian languages Russian spelling. The use of this digraph is optional.
, 3πeκτporopcκ = Elektrogorsk, 3πeκτporopcκ = Elektrogorsk
E (e) Alle anderen Fälle Paflno3πeκτpoHHκa = RadioelektronikaE (e) All other cases Paflno3πeκτpoHHκa = Radioelectrons
K36nπefiHbiM = yubileynyyK36nπefiHbiM = yubileynyy
KD (K)) I Yu (yu) Keine ; Knκ)HeBcκaa = KlyuchevskayaKD (K)) I Yu (yu) None; Knκ) HeBcκaa = Klyuchevskaya
"5lκyτcκ = Yakutsk ifl (*) Ya (ya) Keine 1 Epymc« = Bryansk " 5lκyτcκ = Yakutsk ifl (*) Ya (ya) No 1 Epymc" = Bryansk
Hauptsächlich verwendet zur Transliteration von . Namen aus nichtrussischen Sprachen non-Mainly used for transliteration of. Names from non-Russian languages non-Russian
ITc (TC) iT-s (t-s) i Russian-language names CooτBeτcτBne = Sootvet-stviye ;von der Russischen Schreibweise. Die Verwendugn dieses ; Digraph ist optional.ITc (TC) iT-s (ts) i Russian-language names CooτBeτcτBne = Sootvet-stviye; from Russian spelling. The uses of this; Digraph is optional.
. Hauptsächlich verwendet ,zur Transliteration von I Namen aus nichtrussischen Sprachen non-, Mainly used for transliteration of I names from non-Russian languages non-
' Sh-ch : BecHyujHaτbiM ='Sh-ch: BecHyujHaτbiM =
LUM (LJJM) j Russian-Ianguage names i (sh-ch) von der Russischen iVesnush-chatyy 'Schreibweise. Die ! Verwendugn dieses Digraph ist optional.LUM (LJJM) j Russian-Ianguage names i (sh-ch) from the Russian iVesnush-chatyy 'spelling. The ! Use of this digraph is optional.
Als Referenz siehe z.B. U.S. Board on Geographie Names Foreign Names Committee Staff, 1994. Romanization Systems and Roman-Script Spelling Conventions, Seite 84- 85ff .For reference, see, e.g. U.S. Board on Geography Names Foreign Names Committee Staff, 1994. Romanization Systems and Roman-Script Spelling Conventions, pages 84-85ff.
Das ALA-LC umfasst Tabellen des Slawischen Alphabets und ist eine Gruppe von Standards für Transliterationsverfahren von Texten und Begriffen in den unterschiedlichsten Schreibweisen und wird vor allem in Nordamerikanischen Bibliotheken und Publikationen verwendet. Die neuste Version wurde durch die American Library Association & Library of Congress 1997 veröffentlicht. Die nicht zweideutige Version des Verfahrens benötigt diakritische Zeichen und Verbindungszeichen zwischen den einzelnen Buchstaben, welche in der Praxis jedoch häufig weggelassen werden. ALA-LC publiziert ebenfalls Transliterationstabellen für die unterschiedlichsten Sprachen.The ALA-LC comprises Slavonic alphabet tables and is a set of standards for transliterating text and terms in a variety of spellings and is used primarily in North American libraries and publications. The latest version was published by the American Library Association & Library of Congress in 1997. The non-ambiguous version of the method requires diacritical and connection characters between the individual letters, which are often omitted in practice. ALA-LC also publishes transliteration tables for a wide variety of languages.
KyrillicheKyrilliche
Zeichen LateinischSign Latin
Spezielle Bestimmungen Beispiele (russisch i e ZeichenSpecial provisions Examples (Russian i e sign
) II
Ä3OB = ÄZOVÄ3OB = ÄZOV
!A(a) !A(a) ! Keine fTaMβoB = Tambov! A (a)! A (a)! No fTaMβoB = Tambov
BapHayn = BarnaulBapHayn = Barnaul
3(6) |B(b) Keine KyOaHb = Kuban C3 (6) | B (b) No KyOaHb = Kuban C
BπaflwviMp = VladimirBπaflwviMp = Vladimir
;B(B) ■V(v) Keine yjibfiHOBCK = Ulciahovsk; B (B) ■ V (v) No yjibfiHOBCK = Ulciahovsk
ir(r) fpo3Hbiki = Groznyϊir (r) fpo3Hbiki = Groznyϊ
G(g) (Keine BonroflOHCK = VolgodonskG (g) (No BonroflOHCK = Volgodonsk
fl3ep>KMHCKMM = Dzerzhinskiϊ ifl(fl) iD(d) Keine HennflOBO = Nelidovofl3ep> KMHCKMM = Dzerzhinskiϊ ifl (fl) iD (d) No HennflOBO = Nelidovo
jEnn3OBO = ElizovojEnn3OBO = Elizovo
E (e) |E(e) Keine jMe6oκcapbi = Cheboksary E (e) | E (e) No jMe6oκcapbi = Cheboksary
iE(e) EΠKMH = ElkiniE (e) EΠKMH = Elkin
E(e) (Keine 03βpHbiPi = OzernyϊE (e) (No 03βpHbiPi = Ozernyϊ
>KyκoB = Zhukov> KyκoB = Zhukov
>K(>κ) I Zh (zh) I Keine ifly>KHMKM = Luzhniki> K (> κ) I Zh (zh) I None ifly> KHMKM = Luzhniki
3ßeHMropofl = Zvenigorod3HMropofl = Zvenigorod
|3(3) Z(z) Keine Bfl3bMa = Viazüma MpKyTCK = Irkutsk| 3 (3) Z (z) No Bfl3bMa = Viazüma MpKyTCK = Irkutsk
H(M) ;l(i) Keine Ana™™ = ApatityH (M); l (i) No Ana ™™ = Apatity
MoiüKap-Oπa = Ϊoshkar-Ola ß (M) ϊ(ϊ) Keine i BMMCK = BiϊskMoiüKap-Oπa = Ϊoshkar-Ola ß (M) ϊ (ϊ) None i BMMCK = Biϊsk
KnpoB = KirovKnpoB = Kirov
,K(κ) K(k) Keine EHncePicK = Eniseϊsk, K (κ) K (k) No EHncePicK = Eniseϊsk
JΓIOMOHOCOB = LomonosovJΓIOMOHOCOB = Lomonosov
Jl(Ji) L(I) Keine HejiMflOBo = NelidovoJl (Ji) L (I) No HejiMflOBo = Nelidovo
MeHfleneβB = MendeleevMeHfleneβB = Mendeleev
M(M) M (m) Keine KawieHKa = KamenkaM (M) M (m) No KawieHKa = Kamenka
HOBOCM6MPCK = NovosibirskHOBOCM6MPCK = Novosibirsk
,H(H) IN(n) Keine KaHflanaκtiia = Kandalaksha , H (H) IN (n) No KaHflanaκtiia = Kandalaksha
OMCK = OmskOMCK = Omsk
!θ(o) .0(0) Keine KpacHoapcκ = Krasnoiarsk! θ (o) .0 (0) No KpacHoapcκ = Krasnoiarsk
πeτpo3aßθflcκ = π (π) P(p) i Keine ι Petrozavodsk CepπyxoB = Serpukhovπeτpo3aßθflcκ = π (π) P (p) i None ι Petrozavodsk CepπyxoB = Serpukhov
POCTOB = RostovPOCTOB = Rostov
P(p) [R (r) (Keine CeBepo6aMκanbcκP (p) [R (r) (no CeBepo6aMκanbcκ
SeverobaϊkalπskSeverobaϊkalπsk
CκoBopoflMHθ = SkovorodinoCκoBopoflMHθ = Skovorodino
C(c) :S(s) i Keine HaMKOBCKMM = ChaϊkovskiϊC (c): S (s) i No HaMKOBCKMM = Chaϊkovskiϊ
TaiviδoB = TambovTaiviδoB = Tambov
T(τ) iT (t) (Keine MbiTMLMM = Mytishchi
Figure imgf000026_0001
; 3neκτporopcκ = Elektrogorsk
T (τ) iT (t) (No MbiTMLMM = Mytishchi
Figure imgf000026_0001
; 3neκτporopcκ = Elektrogorsk
3 (3) 'E (e) Keine ;PaflMθ3neκτpoHnκa = i Radioelektronika3 (3) 'E (e) None; PaflMθ3neκτpoHnκa = i Radioelectrons
[K)6nneiiHbiPi = lübileϊnyϊ[K) 6nneiiHbiPi = lübileϊnyϊ
K) (K)) lO (iu) KeineK) (K)) 10 (iu) None
1 Knκ)HeBcκaa = Kliuchevskaial 1 Knκ) HeBcκaa = Kliuchevskaial
ϊ fl KyTCK = Kkutsk fl (a) l lÄ (ia) ' Keine < BpHHCK = BriahskKy fl KyTCK = Kkutsk fl ( a ) l IA (ia) 'None <BpHHCK = Briahsk
Es ist darauf hinzuweisen, dass in einer Ausführungsvariante die automatisierte Transkriptionsvorrichtung 10 ein Steuerungs- und Kontrollmodul zum Steuern von Web-Engines und/oder Konvertierungsvorrichtungen umfassen kann, wobei mittels der Transkriptionsvorrichtung 10 zusätzlich Quelldatenbanken 71 , ...,74 zugreifbar werden. Mit "zusätzlich zugreifbar" ist hier gemeint, dass Daten bzw. Datenbanken mit Daten in anderen Schrift- oder Schreibarten von den Web-Engines erfasst und einheitlich interpretiert werden können. Als Ausführungsbeispiel könne die selektierten Transkriptionen in einem Contentmodul der Transkriptionsvorrichtung 10 für einen Benutzer zugreifbar abgespeichert werden. Um auf das Contentmodul zugreifen zu können, kann es sinnvoll sein (z.B. zum Verrechen der beanspruchten Dienstleistung) einen bestimmten Benutzer von der Transkriptionsvorrichtung 10 mittels einer Benutzerdatenbank zu identifizieren. Zur Identifikation können z.B. Personal Identification Numbers (PIN) und/oder so genannte Smartcards verwendet werden. Smartcards setzen im Normalfall ein Karten lesegerät bei der Kommunikationsvorrichtung voraus. In beiden Fällen wird der Name oder eine andere Identifikation des Benutzers sowie die PIN zur Transkriptionsvorrichtung 10 oder einem trusted Remote-Server übermittelt. Ein Identifikationsmodul bzw. Authentifikationsmodul entschlüsselt (falls notwendig) und überprüft die PIN über die Benutzerdatenbank. Kreditkarten können als Ausführungsvariante ebenfalls zur Identifikation des Benutzers verwendet werden. Verwendet der Benutzer seine Kreditkarte, kann er ebenfalls seinen PIN eingeben. Typischerweise enthält der Magnetstreifen der Kreditkarte die Kontonummer und die verschlüsselte PIN des autorisierten Inhabers, d.h. in diesem Fall des Benutzers. Die Entschlüsselung kann direkt im Kartenlesegerät selbst erfolgen, wie im Stand der Technik üblich. Smartcards haben den Vorteil, dass sie eine grossere Sicherheit vor Betrug durch eine zusätzliche Verschlüsselung der PIN erlauben. Diese Verschlüsselung kann entweder durch einen dynamischen Zahlenschlüssel, welcher z.B. Zeit, Tag oder Monat enthält oder einen anderen Algorithmus erfolgen. Die Entschlüsselung und Identifikation geschieht nicht im Gerät selbst, sondern extern über das Identifikationsmodul. Eine weitere Möglichkeit bildet eine direkt in die Kommunikationsvorrichtung des Benutzers eingeführte Chipkarte. Bei der Chipkarte kann es sich z.B. um SIM-Karten (Subscriber Identification Module) oder Smart-Cards handeln, wobei den Chipkarten jeweils eine Rufnummer zugeordnet ist. Die Zuordnung kann z.B. über ein HLR (Home Location Register) erfolgen, indem im HRL die IMSI (International Mobile Subscriber Identification) einer Rufnummer z.B. einer MSISDN (Mobile Subscriber ISDN) zugeordnet abgespeichert ist. Über diese Zuordnung ist dann eine eindeutige Identifikation des Benutzers möglich.It should be noted that in one embodiment, the automated transcription device 10 may include a control and monitoring module for controlling web engines and / or conversion devices, wherein by means of the transcription device 10 in addition source databases 71, ..., 74 become accessible. By "additionally accessible" is meant that data or databases with data in other types of writing or writing can be captured by the web engines and interpreted uniformly. As an exemplary embodiment, the selected transcriptions in a content module of the transcription device 10 can be stored accessible to a user. In order to be able to access the content module, it can be useful (for example, to offset the claimed service) to identify a specific user from the transcription device 10 by means of a user database. For example, personal identification numbers (PIN) and / or so-called smart cards can be used for identification. Smart cards normally require a card reader in the communication device. In both cases, the name or other identification of the user as well as the PIN is transmitted to the transcription device 10 or a trusted remote server. An identification module or authentication module decrypts (if necessary) and checks the PIN via the user database. Credit cards can also be used as a variant for the identification of the user. If the user uses his credit card, he can also enter his PIN. Typically, the magnetic stripe of the credit card contains the Account number and the encrypted PIN of the authorized holder, ie in this case the user. The decryption can be done directly in the card reader itself, as is common in the art. Smart cards have the advantage that they allow greater security against fraud by an additional encryption of the PIN. This encryption can be done either by a dynamic number key, which contains eg time, day or month or another algorithm. The decryption and identification does not happen in the device itself, but externally via the identification module. Another option is a smart card inserted directly into the user's communication device. The chip card can be, for example, SIM cards (Subscriber Identification Module) or smart cards, with the chip cards each being assigned a telephone number. The assignment can be made, for example via an HLR (Home Location Register) by the IRLS IMSI (International Mobile Subscriber Identification) of a phone number, for example, a MSISDN (Mobile Subscriber ISDN) is stored. This assignment then enables a unique identification of the user.
Als Ausführungsbeilspiel kann beispielsweise der Benutzer um die Transkriptionsvorrichtung 10 zu starten, über ein Front-End ein Transkriptions- Request für die entsprechende Abfrage von einer Kommunikationsvorrichtung über das Netzwerk 70 an die Transkriptionsvorrichtung 10 übermitteln. Die Transkriptions-Request-Daten können über Eingabeelemente der Kommunikationsvorrichtung eingegeben werden. Die Eingabeelemente können z.B. Tastaturen, graphische Eingabemittel (Maus, Trackball, Eyetracker bei Virtual Retinal Display (VRD) etc.), aber auch IVR (Interactive Voice Response) etc. umfassen. Der Benutzer hat die Möglichkeit, mindestens einen Teil der Transkriptions-Request-Daten selber zu bestimmen. Dies kann z.B. dadurch geschehen, dass der Benutzer durch die Kommunikationsvorrichtung aufgefordert wird, ein entsprechendes Front-End-Query über ein Interface auszufüllen. Das Front-End-Query kann insbesondere eine zusätzliche Authentifikation und/oder Gebühren für die Abfrage umfassen. In der Transkriptionsvorrichtung 10 können die Transkriptionsdaten-Request-Daten z.B. überprüft werden und, falls sie bestimmbaren Kriterien genügen, wird die Transkription ausgeführt. Für benutzerspezifische Anforderungen kann es sinnvoll sein, dass z.B. ein Benutzerprofil anhand von Benutzerinformationen erstellt wird, wobei z.B. basierend auf den im Contentmodul abgespeicherten Transkriptionen und/oder Verweisen auf durchgeführte Transkriptionen mittels eines Repackagingmoduls unter Berücksichtigung der Daten des Benutzerprofils benutzerspezifisch optimierte Daten erzeugt werden. Die benutzerspezifisch optimierten Daten können dann z.B. dem Benutzer im Contentmodul der Transkriptionsvorrichtung 10 abgespeichert zur Verfügung gestellt werden. Es kann vorteilhaft sein, dass einem Benutzer verschiedene Benutzerprofile für unterschiedliche Kommunikationsvorrichtungen dieses Benutzers zugeordnet abgespeichert werden. Für das Benutzerprofil können z.B. auch Daten zum Benutzerverhalten von der Transkriptionsvorrichtung 10 automatisch erfasst und dem Benutzerprofil zugeordnet abgespeichert werden. As Ausführungsbeilspiel example, the user to start the transcription device 10, transmit a transcription request for the corresponding query from a communication device via the network 70 to the transcription device 10 via a front-end. The transcription request data can be input via input elements of the communication device. The input elements may include, for example, keyboards, graphical input means (mouse, trackball, eye tracker with Virtual Retinal Display (VRD) etc.), but also IVR (Interactive Voice Response) etc. The user has the option of determining at least part of the transcription request data himself. This can happen, for example, when the user is requested by the communication device to fill out an appropriate front-end query via an interface. The front-end query may in particular include additional authentication and / or fees for the query. In the transcription device 10, for example, the transcription data request data can be checked and, if they satisfy determinable criteria, the transcription is carried out. For user-specific requirements it can make sense that, for example, a user profile is created based on user information, for example, based on the stored in the content module transcriptions and / or references to performed transcriptions by means of a repackaging module, taking into account the data of the user profile user-optimized data are generated. The user-specific optimized data can then be made available to the user in the content module of the transcription device 10, for example. It may be advantageous for a user to be assigned different user profiles allocated to different communication devices of this user. For the user profile, for example, data on user behavior can also be automatically acquired by the transcription device 10 and stored in association with the user profile.
ReferenzlisteReferences
10 Transkriptionsvorrichtung 5 11 Codierungsmodul 12 Transkriptionsmodul10 transcription device 5 11 coding module 12 transcription module
121 Triggermodul121 trigger module
1211 - 1212 Getriggerte Elemente1211 - 1212 Triggered elements
122 MonteCarlo-Modul io 123 Filtermodul122 MonteCarlo module io 123 Filter module
124 Vergleichsmodul124 comparison module
125 Datenbank mit Kombination von Füllelementen125 Database with combination of filler elements
126 Speichereinheit mit Transkriptionsvarianten und zugeordnetem Inkrementationsstack126 Memory unit with transcription variants and assigned increment stack
15 20 Erste Gruppe von Elementen15 20 First group of elements
30 Codierte Transkription30 Coded transcription
31 Übernommene Transkription31 Transcribed transcription
40 Erste Transkription40 First Transcription
41 - 47 Transkriptionsvarianten 20 45 Übernommene Transkription41 - 47 Transcriptional variants 20 45 Transcription taken over
50 Zweite Gruppe von Elementen50 Second group of elements
70 Netzwerk70 network
71 ,...,74 dezentralisiert angeordnete Datenbanken 71, ..., 74 decentralized databases

Claims

Ansprüche claims
1. Verfahren zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordenbarer Elemente einer ersten (20) und zweiten (50) Gruppen mittels automatisierten Transkriptionsvorrichtung (10), dadurch gekennzeichnet,1. A method for computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first (20) and second (50) groups by means of an automated transcription device (10), characterized
dass mittels MonteCarlo-Modul (1 12) der Transkriptionsvorrichtung (10) unterschiedliche Kombinationen von indexierten Füllelementen generiert und in einer Datenbank (1 15) basierend auf den zugeordneten Indexparameter abgespeichert werden,in that different combinations of indexed filling elements are generated by means of the Monte Carlo module (1 12) of the transcription device (10) and stored in a database (1 15) based on the assigned index parameters,
dass mittels definierbaren Transkriptionsparametern einesthat by means of definable transcription parameters of a
Basismoduls für ein selektiertes Element der ersten Gruppe (20) eine erste Transkription (40) generiert wird, wobei die jeweiligen verwendeten Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codiert werden,Basic module for a selected element of the first group (20) a first transcription (40) is generated, wherein the respective used transcriptional parameters are encoded according to their transcription site,
dass mittels eines Filtermoduls (1 13) basierend auf der Codierung der ersten Transkription (40) und den entsprechenden Transkriptionsstellen eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generiert werden, wobei jede Transskritpionsvariation einem Inkrementationsstack (1 16) zugeordnet ist,in that a multiplicity of transcription variations are generated by means of a filter module (1 13) based on the coding of the first transcription (40) and the corresponding transcription locations by variation with the combinations of indexed filling elements, each transscrition variation being associated with an incrementation stack (1 16),
dass für jede Transkriptionsvariation ein entsprechendes Suchelement generiert und mittels Transkriptionsvorrichtung (10) über ein Netzwerk (70) auf dezentralisiert angeordnete Datenbanken (71 ,...,74) zugegriffen wird, wobei der entsprechende Inkrementationsstack (1 17) mittels Triggermodul (1 1 1 ) bei jedem Triggern eines Suchelementes (121 1 ,...,1212) inkrementiert wird,a corresponding search element is generated for each transcription variation and accessed by means of a transcription device (10) via decentralized databases (71, ..., 74) via a network (70), wherein the corresponding incrementation stack (1 17) is activated by means of the trigger module (1 1 1 ) is incremented every time a search element (121 1, ..., 1212) is triggered,
dass basierend auf den kumulierten Inkrementationsstacks (1 17)that based on the accumulated incremental stacks (1 17)
Wahrscheinlichkeitsparameter generiert und mittels Vergleichsmodul (1 14) basierend auf den Wahrscheinlichkeitsparameter eine bestimmte Transkription eindeutig selektiert wird. Probability parameters generated and using comparison module (1 14) based on the probability parameters a specific transcription is uniquely selected.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die automatisierte Transkriptionsvorrichtung (10) ein Steuerungs- und Kontrollmodul umfasst zum Steuern von Web-Engines und/oder Konvertierungsvorrichtungen, wobei mittels der Transkriptionsvorrichtung (10) zusätzlich Quelldatenbanken (71 ,...,74) zugreifbar werden.2. The method according to claim 1, characterized in that the automated transcription device (10) comprises a control and control module for controlling web engines and / or conversion devices, wherein by means of the transcription device (10) additionally source databases (71, ..., 74) become accessible.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die Füllelemente phonetisch nicht relevante Lautzeichen umfasst.3. The method according to any one of claims 1 or 2, characterized in that the filling elements comprises phonetically not relevant phonograms.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Füllelemente sinnerhaltende, bekräftigende oder abschwächende Füllworte umfasst.4. The method according to any one of claims 1 to 3, characterized in that the filling elements comprises sense-retaining, affirmative or attenuating filling words.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass mittels der Transkriptionsvorrichtung Elemente der ersten Gruppe (20) Elementen der zweiten Gruppe (59) zugeordnet werden, wobei die Zuordnung der ersten Gruppe (20) in die zweite Gruppe (50) nicht surjektiv ist, während mittels eines Codierungsmoduls (1 1 ) der Transkriptionsvorrichtung die zweiten Gruppe in die erste Gruppe zugeordnet wird, wobei die Zuordnung der zweiten Gruppe zur ersten Gruppe surjektiv ist.5. The method according to any one of claims 1 to 4, characterized in that by means of the transcription device elements of the first group (20) elements of the second group (59) are assigned, wherein the assignment of the first group (20) in the second group (50 ) is not surjective, while by means of a coding module (1 1) of the transcription device, the second group is assigned to the first group, wherein the assignment of the second group to the first group is surjective.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die zweite Gruppe auf kyrillischem Alphabet beruht.6. The method according to claim 5, characterized in that the second group is based on Cyrillic alphabet.
7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Füllelemente und/oder Transkriptionsvariationen kyrillische oder hebräische Buchstaben umfassen.7. The method according to claim 5, characterized in that the filling elements and / or transcription variations comprise Cyrillic or Hebrew letters.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass das Netzwerk (70) das internationale Backbone IP- Netzwerk umfasst. 8. The method according to any one of claims 1 to 7, characterized in that the network (70) comprises the international backbone IP network.
9. Transkriptionsvorrichtung (10) zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordenbarer Elemente einer ersten (20) und zweiten (50) Gruppen, dadurch gekennzeichnet,9. transcription device (10) for computer-aided transcription and / or transphrasing of non-bijectively assignable elements of a first (20) and second (50) groups, characterized
dass die Transkriptionsvorrichtung (10) ein MonteCarlo-Modul (122) umfasst zum Generieren unterschiedlicher Kombinationen von indexierten Füllelementen, wobei die Kombinationen in einer Datenbank (125) basierend auf den zugeordneten Indexparameter abgespeichert werden,in that the transcription device (10) comprises a Monte Carlo module (122) for generating different combinations of indexed filler elements, the combinations being stored in a database (125) based on the associated index parameters,
dass die Transkriptionsvorrichtung (10) ein Basismodul umfasst zum Generieren einer ersten Transkription basierend auf definierbaren Transkriptionsparametern, wobei die jeweiligen verwendetenthe transcription device (10) comprises a base module for generating a first transcription based on definable transcription parameters, the respective ones used
Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codierbar sind,Transcripton parameters are coded according to their transcription site,
dass die Transkriptionsvorrichtung (10) ein Filtermodul (123) umfasst, mittels welchem basierend auf der Codierung der ersten Transkription und den entsprechenden Transkriptionsstellen eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generierbar sind, wobei jede Transskritpionsvariation einem Inkrementationsstack (126) zugeordnet ist,in that the transcription device (10) comprises a filter module (123) by means of which, based on the coding of the first transcription and the corresponding transcription sites, a multiplicity of transcription variations can be generated by variation with the combinations of indexed fill elements, each transscrition variation being assigned to an incrementation stack (126) is
dass die Transkriptionsvorrichtung (10) ein Triggermodul (121 ) umfasst, mittels welchem für jede Transkriptionsvariation ein entsprechendes Suchelement generierbar ist, wobei mittels Netzwerkinterface der Transkriptionsvorrichtung (10) über ein Netzwerk (70) dezentralisiert angeordnete Datenbanken (71 ,...,74) zugreifbar sind, und wobei der entsprechende Inkrementationsstack (126) mittels Triggermodul (121 ) bei jedem Triggern eines Suchelementes (121 1 ,...,1212) entsprechend inkrementiert wird,in that the transcription device (10) comprises a trigger module (121) by means of which a corresponding search element can be generated for each transcription variation, wherein databases (71, ..., 74) distributed over a network (70) by means of a network interface of the transcription device (10) and incrementally incrementing the corresponding increment stack (126) by means of trigger module (121) each time a search element (121 1, ..., 1212) is triggered,
dass mittels Transkriptionsvorrichtung (10) basierend auf den kumulierten Inkrementationsstacks (126) Wahrscheinlichkeitsparameter generierbar und mittels Vergleichsmodul (124) basierend auf den Wahrscheinlichkeitsparameter eine bestimmte Transkription eindeutig selektierbar ist. in that by means of the transcription device (10) probability parameters can be generated based on the accumulated incrementation stacks (126) and a specific transcription can be uniquely selected by means of the comparison module (124) based on the probability parameters.
10. Transkriptionsvorrichtung (10) zur Transkription und/oder Transphrasierung bei automatisierten Search-Engines und Konversionsvorrichtungen, wobei erste Suchbegriffe oder erste Suchsätze (20) mittels Transkriptionsvorrichtung (10) mit zweiten Suchbegriffen oder Suchsätzen (50) verknüpfbar sind, dadurch gekennzeichnet,10. transcription device (10) for transcription and / or transphrasing in automated search engines and conversion devices, wherein first search terms or first search sentences (20) by means of transcription device (10) with second search terms or search sentences (50) are linked, characterized
dass die Transkriptionsvorrichtung (10) ein MonteCarlo-Modul (122) umfasst zum Generieren unterschiedlicher Kombinationen von indexierten Füllelementen, wobei die Kombinationen in einer Datenbank (125) basierend auf den zugeordneten Indexparameter abgespeichert werden,in that the transcription device (10) comprises a Monte Carlo module (122) for generating different combinations of indexed filler elements, the combinations being stored in a database (125) based on the associated index parameters,
dass die Transkriptionsvorrichtung (10) ein Basismodul umfasst zumin that the transcription device (10) comprises a base module for
Generieren einer ersten Transkription basierend auf definierbaren Transkriptionsparametern, wobei die jeweiligen verwendeten Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codierbar sind,Generating a first transcription based on definable transcription parameters, wherein the respective transcript parameters used are codable according to their transcription site,
dass die Transkriptionsvorrichtung (10) ein Filtermodul (123) umfasst, mittels welchem basierend auf der Codierung der ersten Transkription und den entsprechenden Transkriptionsstellen eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generierbar sind, wobei jede Transskritpionsvariation einem Inkrementationsstack (126) zugeordnet ist,in that the transcription device (10) comprises a filter module (123) by means of which, based on the coding of the first transcription and the corresponding transcription sites, a multiplicity of transcription variations can be generated by variation with the combinations of indexed fill elements, each transscrition variation being assigned to an incrementation stack (126) is
dass die Transkriptionsvorrichtung (10) ein Triggermodul (121 ) umfasst, mittels welchem für jede Transkriptionsvariation ein entsprechendes Suchelement generierbar ist, wobei mittels Netzwerkinterface der Transkriptionsvorrichtung (10) über ein Netzwerk (70) dezentralisiert angeordnete Datenbanken (71 ,...,74) zugreifbar sind, und wobei der entsprechende Inkrementationsstack (126) mittels Triggermodul (121 ) bei jedem Triggern eines Suchelementes (121 1 -1212) entsprechend inkrementiert wird,in that the transcription device (10) comprises a trigger module (121) by means of which a corresponding search element can be generated for each transcription variation, wherein databases (71, ..., 74) distributed over a network (70) by means of a network interface of the transcription device (10) and the corresponding incrementation stack (126) is correspondingly incremented by means of the trigger module (121) each time a search element (121 1 -1212) is triggered,
dass mittels Transkriptionsvorrichtung (10) basierend auf den kumulierten Inkrementationsstacks (126) Wahrscheinlichkeitsparameter generierbar sind und mittels Vergleichsmodul (124) basierend auf den Wahrscheinlichkeitsparameter eine bestimmte Transkription eindeutig selektierbar ist.in that probability parameters can be generated by means of the transcription device (10) based on the cumulative incrementation stacks (126) and by means of the comparison module (124) based on the Probability parameters a specific transcription is uniquely selectable.
1 1. Computerprogrammprodukt, welches in den internen Speicher eines digitalen Computers ladbar ist und Softwarecodeabschnitte umfasst, mit denen die Schritte gemäss einem der Ansprüche 1 bis 8 durchführbar sind, wenn das Produkt auf einem Computer läuft. 1 1. Computer program product, which is loadable into the internal memory of a digital computer and includes software code sections, with which the steps according to one of claims 1 to 8 can be carried out when the product is running on a computer.
PCT/EP2007/050418 2007-01-16 2007-01-16 Transcription device for automatic transcription and transphrasing and corresponding methods WO2008086889A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/EP2007/050418 WO2008086889A1 (en) 2007-01-16 2007-01-16 Transcription device for automatic transcription and transphrasing and corresponding methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2007/050418 WO2008086889A1 (en) 2007-01-16 2007-01-16 Transcription device for automatic transcription and transphrasing and corresponding methods

Publications (1)

Publication Number Publication Date
WO2008086889A1 true WO2008086889A1 (en) 2008-07-24

Family

ID=38565538

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2007/050418 WO2008086889A1 (en) 2007-01-16 2007-01-16 Transcription device for automatic transcription and transphrasing and corresponding methods

Country Status (1)

Country Link
WO (1) WO2008086889A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065248A2 (en) * 2002-02-01 2003-08-07 International Business Machines Corporation Retrieving matching documents by queries in any national language

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065248A2 (en) * 2002-02-01 2003-08-07 International Business Machines Corporation Retrieving matching documents by queries in any national language

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GREGORY GREFENSTETTE, YAN QU AND DAVID A. EVANS: "Mining the Web to Create a Language Model for Mapping between English names and phrases and Japanese", PROCEEDINGS OF THE IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE (WI04)), 20 September 2004 (2004-09-20) - 24 September 2004 (2004-09-24), Beijing, China, XP002454892, Retrieved from the Internet <URL:http://ieeexplore.ieee.org/iel5/9689/30573/01410791.pdf?arnumber=1410791> [retrieved on 20071015] *

Similar Documents

Publication Publication Date Title
DE4440598C1 (en) World Wide Web hypertext information highway navigator controlled by spoken word
DE69829074T2 (en) IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA
DE10321944A1 (en) Devices and methods for processing text-based electronic documents
DE102004012839B4 (en) System and method for providing help information
DE10308550A1 (en) System and method for automatic data checking and correction
DE102007034413B4 (en) Method and device for authenticating a user
DE10124429B4 (en) System and method for improved spell checking
DE10343228A1 (en) Methods and systems for organizing electronic documents
Abdelali Localization in modern standard Arabic
EP2599075A1 (en) System and method for the relevance-based categorizing and near-time learning of words
Hoffmann Processing Internet-derived text—creating a corpus of Usenet messages
DE10033548C2 (en) Procedure for previewing websites
WO2008086889A1 (en) Transcription device for automatic transcription and transphrasing and corresponding methods
EP3494488A1 (en) Method for transferring a word sequence written in a source language into a word sequence in a target language at least partly by machine
US20020129005A1 (en) Method and apparatus for regrouping data
EP2017776A1 (en) System and method for controlling the generation and distribution of publications
DE102007016887B3 (en) Method for operating navigation system, involves entering address information into corresponding phonetic address information, where address information is decoded in phonetic code
DE4311211C2 (en) Computer system and method for automated text analysis
EP1094405A2 (en) Method to create a dynamical database retrieval interface
DE10015858C2 (en) Process for computer-aided communication in natural languages related to semantic content
DE10015859C2 (en) Process for computer-aided communication in natural languages based on grammatical content
Trips et al. From original sources to linguistic analysis: Tools and datasets for the investigation of multilingualism in medieval english
DE202022104829U1 (en) System for interaction between a digital device and an analogue object
DE202022100824U1 (en) A system for creating summaries from the stories by extracting important features
DE19911535A1 (en) Language and speech recognition method dynamically matching vocabulary to contents to be recognized, such as Internet sides

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07703925

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07703925

Country of ref document: EP

Kind code of ref document: A1