Übersetzung in der Welt der Freien Software
Analyse des Status von Sprachtools, aktuellen Projekten und Community-Bedürfnissen
von freier Software.
Juan Rafael Fernández GarcíaKoordinator, verantwortlich für Sprachtools
TLDP-EN
Übersetzung in der Welt der Freien Software: Analyse des Stands der Sprachwerkzeuge, aktueller Projekte und Bedürfnisse der Freie-Software-Community.von Juan Rafael Fernández García
0.9 EditionVeröffentlicht $Id: ponencia9.xml,v 1.1 2003/11/09 18:32:37 norax Exp $Copyright © 2002, 2003 Juan Rafael Fernández García
Analyse der linguistischen Werkzeuge, die der freien Software-Community zur Verfügung stehen, von Übersetzungsprojekten und der Herausforderungen, die die Computerverarbeitung natürlicher Sprachen mit sich bringt.
• Neueste Version: http://es.tldp.org/Articulos/0000otras/doc-traduccion-libre/ (http://es.tldp.org/Articulos/0000otras/doc-traduccion-libre/)
• Fuente: http://cvs.hispalinux.es/cgi-bin/cvsweb/doc-traduccion-libre/(http://cvs.hispalinux.es/cgi-bin/cvsweb/doc-traduccion-libre/)
Dieses Dokument steht in engem Zusammenhang mit den Anforderungsspezifikationen für TLDP-Sprachtools: http://es.tldp.org/e Specificaciones/herramientas-linguisticas/herramientas-linguisticas/ (http://es.tldp.org/e Specificaciones/herramientas -linguistics/ linguistische-tools/)
Es wird die Erlaubnis erteilt, dieses Dokument gemäß den Bedingungen der GNU Free Documentation License, Version 1.1, zu kopieren, zu verteilen und/oder zu ändern
oder jede spätere Version, die von der Free Software Foundation veröffentlicht wurde.
RevisionsverlaufRevision 0.9 28.09.2003 Überprüft von: jrAktualisiert nach VI Hispalinux CongressRevision 0.8 26.02.2003 Überprüft von: jrIn DocBook XML konvertiert. Beginn der Integration von Informationen aus one-step-ahead.xmlRevision 0.7 2002.07.22 Rezensiert von: jrChapter „Was ein Informatiker möglicherweise nicht weiß“Revision 0.6 2002.07.04 Rezensiert von: jrCorrected spanish-team.sgmlRevision 0.5 2002.06.23 Rezensiert von: jidKleinere Markup-KorrekturenRevision 0.4 2002.06.20 Rezensiert von: jrKonvertiert in DocBook SGMLRevision 0.3 2002.06.08 Rezensiert von: jrLuCAS CVS postRevision 0.2 2002.05.24 Rezensiert von: jrKorrigierte Missverständnisse, auf die Santiago Vila und Jaime Villate hingewiesen habenRevision 0.1 2002 .05.09 Rezensiert von: jrCreating in LaTeX als Abschlussprojekt für einen Kurs
Inhaltsverzeichnis Einleitung ................................................ .. ................................................. ................ ................................. ........................ .........Yo
1. Warum Debian GNU/Linux?............................................ . ................................................. ............... ..........................Yo
I. Bisherige Konzepte................................................ ..... ................................................. .................................................... .................Yo
1. Was ein Übersetzer möglicherweise nicht weiß............................................. ..... ................................................. ................... .................11.1. Das Konzept der freien Software................................................ ...... ................................................. .................... .........11.2. Lokalisierung und Internationalisierung von Software................................................ ...... .................................21.3. Die Notwendigkeit von Standards................................................ ....................................................... ...................... ......3
2. Was ein Informatiker möglicherweise nicht weiß................................. .... ................................................. .......... ............62.1. Definitionen................................................. ................................................. ........................................62.2. Was ein Übersetzer erwarten kann. . ................................................. .............. .................................... ............8
3. Dinge, die Computerlinguisten wissen................................................. ...... ................................................. ....103.1. Ein historischer Rundgang durchs Netz................................................ ....................................................... .................... .........10
II. Quellcode-Übersetzungsprojekte………………………………………………. ......... ...................... ......17
4. Das Free Translation Project und gettext................................................ .. ................................................. ................ ....184.1. Eine kleine Geschichte............................................... ...... ................................................. .................... ................184.2. So melden Sie sich an................................................. .................................................... .................... ........................184.3. Wie funktioniert das.............................................. . ................................................. .........................................224.4. Was ist in einer .po-Datei?............................................ ..... ................................................. ....................................24
5. KDE und KBabel................................................ . ................................................. .. ...................................256. Gnome und gtranslator................................................ ............. .................................... ................ ................................. .26
6.1. Wie funktioniert das.............................................. . ................................................. ........................................26
III. Wörterbücher ................................................. . ................................................. ............... ................................... ...............27
7. Wörterbücher für Menschen................................................ ...... ................................................. .................... ......................287.1. Der ORCA-Thesaurus................................................ .................................................... .................... ....................287.2. ATI-Glossar................................................ .................................................... .................................................287.3. Das DICT-Protokoll................................................ .................................................... .................... ....................297.4. Wörterbücher. Hinweise zur Fortsetzung................................................ ...... ................................................. 31
8. Wörterbücher für Maschinen................................................ ...... ................................................. .................... ....................338.1. Terminologiestandards................................................ .................................................... ............338.2. Standardisierung von Computerlexika: OLIF2............................................ . ....................3. 4
IV. Übersetzungserinnerungen ................................................ ..................................35
9. Standardisierung von Übersetzungsspeichern: TMX............................................ . ........................................3610. gÜbersetzer................................................ . ................................................. ............... ................................... .........3811. Mimers Brunnen................................................ .. ................................................. ................ ................................. 39
V. Ein Schritt vorwärts................................................ ........ ................................................. ...... ................................................. ....40
12. Sonstiges................................................ . ................................................. ............... ................................... ................41
A. Kleines Glossar mit Akronymen................................................ .................................................... .................................................42
iii
Liste der Tabellen4-1. Links…………………………………………. ................................ ................. ................................. ................. ......204-2. Übersetzer……………………………………………………. ............................ ...................... ................................ ...................... 214-3 Aufgaben…………………………………………. ................................ ................. ................................. ................214- 4. Die kbd-Textdomäne................................................. .....................................2
iv
Einführung
Dieses Dokument stammt aus dem Abschlussprojekt eines UNED-Kurses zum Thema Übersetzung, der schriftlich eingereicht werden musste. Ein großer Teil seiner Struktur und einige seiner Einschränkungen ergeben sich daraus: Ursprünglich richtete es sich an professionelle Übersetzer oder Übersetzungsstudenten und sollte ausschließlich auf Papier präsentiert werden. Es ist jedoch vom Beitragsgeist der Freie-Software-Community inspiriert und mein Ziel ist es, es als kleinen Beitrag zum Wissen dieser Welt und als Einführung in das Thema für diejenigen Menschen weiterzuentwickeln, die dazu beitragen möchten, es aber nicht wissen Wo soll ich anfangen? Bescheiden gesagt erhebt es nicht den Anspruch, eher eine Momentaufnahme des Zustands der Tools und Projekte zu einem bestimmten Zeitpunkt zu sein.
Sämtliche zur Erstellung dieses Dokuments verwendete Software und Ressourcen sind kostenlos.
1. Warum Debian GNU/Linux?
Eine Präzisierung: „Linux“ ist der Name des Kernels des Betriebssystems (elkernel); Das von mir verwendete Betriebssystem heißt „GNU Linux“, weil die meisten der verwendeten Programme (und die Tools zum Programmieren und Kompilieren) aus dem „GNU“-Projekt stammen.
Freie Software ist nicht auf GNU Linux beschränkt (es gibt FreeBSD oder OpenBSD, es gibt GNU Hurd, Cygnus ...). Es ist jedoch eine seiner Hauptentwicklungen. Und das Umfeld, in dem ich arbeite und über das ich schreiben kann.
Das Debian-Projekt wurde am 16. August 1993 offiziell von Ian Murdock1 gegründet. Die Entwicklung von Debian wurde ein Jahr lang (zwischen November 1994 und November 1995) von der FSF gesponsert und wird derzeit von Software in the Public Interest, Inc. unterstützt Organisation mit Sitz in New York, gemeinnützig.
Unter den verschiedenen GNU-Linux-Distributionen ist Debian meiner Meinung nach die kohärenteste. Es entsteht nicht nach dem Vorbild eines Unternehmens, sondern als Gruppe von Freiwilligen, die an ein Manifest und einen „Gesellschaftsvertrag“ gebunden sind:
1. Debian bleibt 100 % freie Software.
2. Wir werden unsere Beiträge an die Free Software Community zurückgeben.
3. Wir werden Probleme nicht verbergen.
4. Unsere Prioritäten sind unsere Benutzer und Freie Software.
Im Sinne dieses „Vertrags“ schreibe ich dieses Dokument.
Hinweise1. Der Name setzt sich aus der Zusammenziehung seines Namens und dem seiner Frau Debra zusammen.
2. Mein Geburtstag!
ich
I. Vorläufige Konzepte Als ich darüber nachdachte, dieses Dokument zu schreiben, dachte ich darüber nach, was ein Übersetzer wissen sollte, der neu in der Welt der freien Software ist. Ich habe nach und nach herausgefunden, dass es gleichermaßen interessant ist, aus der Sicht des engagierten Benutzers oder des Entwicklers zu überlegen, welchen Beitrag eine „professionelle“ Übersetzung leisten kann. Einerseits ist es für diejenigen geschrieben, die nicht wissen, was GNU oder FSF ist; Andererseits wird versucht zu erklären, was ein Translation Memory ist oder welchen Nutzen ein Korpus hat. Ich bin kein Experte auf beiden Gebieten und hoffe, bei der Erweiterung dieses Dokuments Hilfe zu finden und bei der Weiterentwicklung zu lernen.
Kapitel 1. Was ein Übersetzer möglicherweise nicht weiß
Hung Chao-Kuei hat ein Diagramm erstellt, das die verschiedenen Kategorien von Software erklärt1: Abbildung 1.
Softwareklassen
Softwareklassen
Wir sehen, dass die extremen Begriffe Freie Software und „Proprietäre“ Software2 gut abgegrenzt sind, dass es jedoch ein Gewirr von Zwischenvarianten gibt. Dazu gehört das Konzept der Open Software oder Open Source.
1.1. Das Konzept der freien Software
In den frühen 1980er Jahren beschloss Richard Stallman3, bei seiner Arbeit am MIT Artificial Intelligence Laboratory auf die Verwendung proprietärer Software zu verzichten und begann mit der Entwicklung eines vollständigen Systems freier Software4 namens „GNU“. 5
Der Begriff „freie Software“ [N. del T.: auf Englisch free = kostenlos oder kostenlos] wird manchmal falsch interpretiert – es hat nichts mit dem Preis zu tun. Das Thema ist Freiheit. Hier ist daher die Definition von freier Software: Ein Programm ist für Sie, einen bestimmten Benutzer, freie Software, wenn:
• Es steht Ihnen frei, das Programm zu welchem Zweck auch immer auszuführen.
• Sie haben die Freiheit, das Programm zu ändern und an Ihre Bedürfnisse anzupassen (damit diese Freiheit in der Praxis wirksam wird, müssen Sie Zugriff auf den Quellcode haben, da es außerordentlich schwierig ist, ein Programm zu ändern, ohne über den Quellcode zu verfügen).
• Es steht Ihnen frei, Kopien kostenlos und gegen Gebühr weiterzuverbreiten.
• Es steht Ihnen frei, modifizierte Versionen des Programms zu verteilen, damit die Community von Ihren Verbesserungen profitieren kann.
Da sich „kostenlos“ auf Freiheit und nicht auf den Preis bezieht, besteht kein Widerspruch zwischen dem Verkauf von Kopien und freier Software. Tatsächlich ist die Freiheit, Kopien zu verkaufen, von entscheidender Bedeutung: Auf CD-ROMs verkaufte Sammlungen freier Software sind wichtig für die Community, und deren Verkauf ist eine wichtige Möglichkeit, Geld für die Entwicklung freier Software zu sammeln. Wenn also ein Programm nicht in solche Sammlungen aufgenommen werden kann, handelt es sich bei dem Programm nicht um freie Software.
In http://www.gnu.org/philosophy/free-sw.es.html (http://www.gnu.org/philosophy/free-sw.es.html) wird angegeben
„Freie Software“ bezieht sich auf die Freiheit der Benutzer, die Software auszuführen, zu kopieren, zu verbreiten, zu studieren, zu ändern und zu verbessern. Genauer gesagt bezieht es sich auf die vier Freiheiten der Softwarenutzer:
• Die Freiheit, das Programm für jeden Zweck auszuführen (Freiheit 0).
• Die Freiheit, die Funktionsweise des Programms zu studieren und es an Ihre Bedürfnisse anzupassen (Freiheit 1). Voraussetzung dafür ist der Zugriff auf den Quellcode.
• Die Freiheit, Kopien so zu verteilen, dass es Ihrem Nächsten hilft (Freiheit 2).
• Die Freiheit, das Programm zu verbessern und die Verbesserungen der Öffentlichkeit so zugänglich zu machen, dass die gesamte Gemeinschaft davon profitiert (Freiheit 3). Voraussetzung dafür ist der Zugriff auf den Quellcode.
1
Kapitel 1. Was ein Übersetzer möglicherweise nicht weiß
Ein Programm ist freie Software, wenn die Benutzer alle diese Freiheiten haben.
Was sind Stallmans Gründe? Er spricht über ethische Gründe: Wissen in der Software-Community zu teilen.
Die Folgen sind die Freie-Software-Bewegung.
Das andere Extrem ist das Konzept des geistigen Eigentums.
Zu diesem Konzept siehe http://oasis-open.org/who/intellectualproperty.shtml(http://oasis-open.org/who/intellectualproperty.shtml)
* [Alle. Entwickeln Sie es kurz]
1.2. Softwarelokalisierung und Internationalisierung
Unter „Internationalisierung“ (abgekürzt „i18n“) versteht man6 den Vorgang, durch den ein Programm oder eine Reihe von Programmen in einem Paket so geändert wird, dass es sich an mehrere Sprachen und kulturelle Konventionen anpassen kann.7
Mit „Lokalisierung“ („l10n“) beziehen wir uns auf den Vorgang, bei dem dem Programm bei einer Reihe bereits internationalisierter Programme alle notwendigen Informationen gegeben werden, damit es seine Eingaben und Ausgaben so verarbeiten kann in Bezug auf bestimmte sprachliche und kulturelle Gewohnheiten korrekt sein (z. B. das Zeichen der Währung eines Landes, die Reihenfolge, in der Monat, Tag und Jahr an einem Datum ausgedrückt werden ...).
Wir werden den Ausdruck „Anpassung an mehrere Sprachen“ (Native Language Support, NLS improvisierte Übersetzung) verwenden, um über Aktivitäten oder generische Funktionen zu sprechen, die sowohl Internationalisierung als auch Lokalisierung umfassen, sodass mehrsprachige Interaktionen in einem Programm möglich sind.
1.2.1. Die Einheimischen spielen
LOCALE ist ein Grundkonzept, das in ISO C (ISO/IEC 9899:1990) eingeführt wurde. Der Standard wird 1995 erweitert (ISO9899:1990 Amendment 1:1995). Im LOCALE-Modell hängt das Verhalten einiger C-Funktionen von der LOCALE-Umgebung ab. Die LOCALE-Umgebung ist in einige Kategorien unterteilt und jede dieser Kategorien kann unabhängig mit setlocale() festgelegt werden.
POSIX legt auch einige Standards rund um i18n fest. Fast alle POSIX- und ISO-C-Standards sind im XPG4-Standard (X/Open Portability Guide) und alle im XPG5-Standard enthalten. Beachten Sie, dass XPG5 in den UNIX-Spezifikationen Version 2 enthalten ist. Daher ist die Unterstützung von XPG5 zwingend erforderlich, um die Marke Unix zu erhalten. Mit anderen Worten: Alle Versionen von Unix-Betriebssystemen unterstützen XPG5.8
Ein Beispiel ist mehr wert als tausend Erklärungen. date ist ein internationalisiertes Programm, das das Systemdatum und die Systemzeit zurückgibt. Für einen Benutzer, der seine Gebietsschemas nicht konfiguriert oder localePOSIX gewählt hat, wäre die Ausgabe dieselbe wie die eines nicht internationalisierten Programms, mit Meldungen wahrscheinlich in Englisch:
2
Kapitel 1. Was ein Übersetzer möglicherweise nicht weiß
[Meine_Maschine]$
LC_ALL=C dateMi 8. Mai 20:46:09 MESZ 2002
[Meine_Maschine]$
Ein spanischer Benutzer hat sein Konto so konfiguriert, dass er Nachrichten auf Spanisch erhält (im Beispiel verwenden wir Umgebungsvariablen, um das Gebietsschema zu ändern).
[Meine_Maschine]$
[emailprotected]Datum: 8. Mai 20:46:22 MESZ 2002
[Meine_Maschine]$
Wir können sehen, dass die Ausgabe auf Spanisch erfolgt. Um die Ausgabe auf Französisch anzuzeigen, verwenden Sie einfach
[Meine_Maschine]$
LC_ALL=fr_FR Datum 8. Mai 20:46:31 MESZ 2002
[Meine_Maschine]$
Wie wird das erreicht?
* [Alle. Systembetrieb kurz erläutern]
Ein Beispiel von Santiago Vila9 hilft dabei, denn es bezieht sich ebenfalls nicht auf ein Programm in c:, sondern auf ein Deshell-Skript
#!/bin/shift[-x/usr/bin/gettext]; Dann
echo=/usr/bin/gettextelse
echo="echo -n"fiexport TEXTDOMAIN=libc$echo "cheese"echo ""
[Meine_Maschine]$
LANG=es_ES; ./test-scriptqueso
3
Kapitel 1. Was ein Übersetzer möglicherweise nicht weiß
1.3. Die Notwendigkeit von Standards
Es ist interessant zu lesen, wie Sun auf den OpenOffice-Seiten (http://xml.openoffice.org/xml_advocacy.html) den Einsatz freier Software und offener Standards verteidigt und dort sein neues, auf XML basierendes Format vorstellt
Die offene und kostenlose Lizenzierung garantiert, dass Sie bei Verbesserungen und Korrekturen des Formats oder der unterstützenden Software keinem einzelnen Unternehmen ausgeliefert sind, und bietet somit einen sehr starken Schutz für alle Investitionen und Bemühungen, die Sie in dieses Format stecken.
Er zählt weiterhin die Vorteile des neuen Formats auf
1. Trennung von Inhalt, Layout und Metainformationen
2. Basierend auf Standards
3. Einheitliche Darstellung von Formatierungs- und Layoutinformationen
4. Strukturiertes Format
5. Idealisiertes Format
6. Gemeinsames Format für alle Anwendungen
7. Öffnen Sie für Erweiterungen und ergänzende Informationen
8. Erhöhte Robustheit
9. Dokumentenarchivierung
10.Versionsinteroperabilität
11.Dokumentierter und transparenter Dateiinhalt
Das Lesen dieser Seiten ist wirklich sehr interessant und es hat keinen Sinn, sie hier zu wiederholen.
1.3.1. Extensible Markup Language (XML) 1.0
Am Anfang war es SGML10. Ohne SGML gäbe es das Web nicht. XML ist das reife Kind von SGML.
Wir lesen unter http://www.w3.org/TR/REC-xml (http://www.w3.org/TR/REC-xml)
Die „Extensible Markup Language (XML)“ ist eine Teilmenge von SGML. Ziel ist es, die Bereitstellung, den Empfang und die Verarbeitung von generischem SGML im Web auf die Art und Weise zu ermöglichen, wie es jetzt mit HTML möglich ist. XML wurde für eine einfache Implementierung und Interoperabilität mit SGML und HTML entwickelt.
XML wurde von einer XML-Arbeitsgruppe (ursprünglich bekannt als SGML Editorial Review Board) entwickelt, die 1996 unter der Schirmherrschaft des World Wide Web Consortium (W3C) gegründet wurde. Den Vorsitz führte Jon Bosak von SunMicrosystems unter aktiver Beteiligung einer XML Special Interest Group (früher bekannt als SGML WorkingGroup), ebenfalls organisiert vom W3C.
Weitere berühmte Mitglieder der SIG waren James Clark und Norman Walsh.
4
Kapitel 1. Was ein Übersetzer möglicherweise nicht weiß
Hinweise1. Und http://www.gnu.org/philosophy/category.fig (http://www.gnu.org/philosophy/category.fig).
2. Der Begriff „proprietär“ wird häufig für unfreie Software verwendet, wenn diese Software die Rechte des Benutzers am Code genau einschränkt.
3. Die Geschichte wird von ihm selbst erzählt unter http://www.gnu.org/gnu/thegnuproject.es.html(http://www.gnu.org/gnu/thegnuproject.es.html) (ursprünglich veröffentlicht im BuchOpen Sources).Übersetzung von César Ballardini (Argentinien) <[emailprotected]>, überarbeitet von Ramsés Morales (Panama) <[emailprotected]>, Cesar Villanueva (Venezuela) <[emailprotected]> und OscarMendez Bonilla (Mexiko) <[emailprotected]>; Koordination: Hugo Gayosso <[emailprotected]>.
4. Stallmans Ideen sind unter http://www.gnu.org/philosophy/philosophy.es.html(http://www.gnu.org/philosophy/philosophy.es.html) gesammelt.
5. Siehe http://www.gnu.org/gnu/gnu-history.es.html (http://www.gnu.org/gnu/gnu-history.es.html). Übersetzung koordiniert von Hugo Gayosso <[emailprotected]> und aktualisiert am 9. November. 1999 von Conrado Alfonso Bermúdez. Die Bedeutung des Akrostichons ist ein typischer Witz-Hacker: „GNU ist kein Unix“. Wie im Free Online Dictionary of Computing zusammengefasst
Das GNU-Manifest wurde in der Märzausgabe 1985 von Dr. Dobb’s Journal veröffentlicht, aber das GNU-Projekt begann anderthalb Jahre zuvor, als Richard Stallman versuchte, Geld für die Arbeit an seinem frei verteilbaren Editor Emacs zu bekommen.
6. Bibliografía:(p)info gettext,man Locale::Maketext(3pm),man Locale::Maketext:TPJ13(3pm),http://www.debian.org/doc/manuals/intro-i18n/ (http ://www.debian.org/doc/manuals/intro-i18n/).
7. Zu diesem Thema können Sie „li18nux“ (http://www.li18nux.org/ (http://www.li18nux.org/)) konsultieren.
8. Tomohiro Kubota, http://www.debian.org/doc/manuals/intro-i18n/ch-locale.html(http://www.debian.org/doc/manuals/intro-i18n/ch-locale .html).
9. In der Nachricht an die Liste
10. „ISO 8879: Informationsverarbeitung – Text- und Bürosysteme – Standard Generalized Markup Language (SGML)“. Ginebra, 1986.
5
Kapitel 2. Was ein Informatiker möglicherweise nicht weiß
2.1. Definitionen
Ein paar Definitionen, um uns zu verstehen.
Tom McArthur definiert „Corpus“ (Latinajo im allgemeinen Sprachgebrauch, Plural „Corpora“)1 als
1. Eine Sammlung von Texten, insbesondere wenn sie vollständig und in sich geschlossen sind: der Korpus angelsächsischer Verse.
2. In der Linguistik und Lexikographie eine Sammlung von Texten, Äußerungen oder anderen Exemplaren, die als mehr oder weniger repräsentativ für eine Sprache gelten und normalerweise in einer elektronischen Datenbank gespeichert werden. Derzeit können Computerkorpora viele Millionen laufender Wörter speichern, deren Merkmale mithilfe von „Tagging“ (dem Hinzufügen von Identifizierungs- und Klassifizierungs-Tags2 zu Wörtern und anderen Formationen) und der Verwendung von „Konkordanzprogrammen“ analysiert werden können.
Die «Korpuslinguistik» untersucht Daten in einem solchen Korpus.
Das Corpus-Markup entspricht dem Bedarf an sogenannter „Textannotation“: dem Hinzufügen linguistischer Informationen
1. Wortartkennzeichnung (POS).
2. Syntaktische Annotation (geparste Korpora)
3. Pragmatische Anmerkung
4. Rhetorische Informationen
5. Diskursstruktur
Konkordanzen:
Index (normalerweise alphabetisch) der Wörter eines Textes, in dem das analysierte Wort in der Mitte einer Zeile erscheint, die rechts und links von anderen umgeben ist, mit denen es in einem bestimmten Kontext erscheint.
Fahren Sie mit dem „Tutorial: Konkordanzen und Korpora“3 fort
Die heute gebräuchlichste Form der Konkordanz ist der «Keyword-in-Context (KWIC)-Index», bei dem jedes Wort in einem Feld fester Länge (z. B. 80 Zeichen) zentriert ist.
«Konkordanzprogramme (Konkordanzer)»4:
Konkordanzprogramme sind grundlegende Werkzeuge für den Korpuslinguisten. Da die meisten Korpora unglaublich groß sind, ist es ein fruchtloses Unterfangen, einen Korpus ohne die Hilfe eines Computers zu durchsuchen. Konkordanzprogramme verwandeln die elektronischen Texte in durchsuchbare Datenbanken. Normalerweise sind (1) Wortabfragen immer möglich, aber die meisten Programme bieten auch (2) die Möglichkeit, innerhalb eines bestimmten Wortbereichs nach Wortkombinationen zu suchen und (3) nach Wortteilen (z. B. Teilzeichenfolgen, insbesondere Affixen) zu suchen. . Wenn das Programm etwas ausgefeilter ist, kann es dem Benutzer möglicherweise auch (4) Listen von Kollokaten (Colocaciones) oder (5) Häufigkeitslisten zur Verfügung stellen.
6
Kapitel 2. Was ein Informatiker möglicherweise nicht weiß
Interessant, der folgende Text von Melamed (http://www.cs.nyu.edu/cs/projects/proteus/bma/(http://www.cs.nyu.edu/cs/projects/proteus/bma/) ):
Ein „Bitext“ besteht aus zwei Texten, die gegenseitige Übersetzungen sind. Eine Abitext-Karte ist eine feinkörnige Beschreibung der Korrespondenzbeziehung zwischen Elementen der beiden Hälften eines Bitexts. Das Finden einer solchen Karte ist der erste Schritt zum Erstellen von Übersetzungsmodellen. Dies ist auch der erste Schritt in Anwendungen wie der automatischen Erkennung von Auslassungen in Übersetzungen.
Alignments (in der Fachliteratur liest man „Alignments“, „Alignments“, „Pairings“ oder „Correspondences“) sind „verwässerte“ Bitextkarten, die wir aus allgemeinen Bitextkarten ableiten können.
Der Abschlussbericht des POINTER-Projekts ist bestrebt und meiner Meinung nach erfolgreich, die Begriffe „Lexikologie“, „Lexikographie“, „Terminologie“ und „Terminographie“ zu klären (http://www.computing.surrey.ac.uk/ai/ pointer/report/section1.html#2(http://www.computing.surrey.ac.uk/ai/pointer/report/section1.html#2)). Der Termin ist lang, aber ich denke, er ist nicht verschwendet.
Während es sich bei der Lexikologie um das Studium von Wörtern im Allgemeinen handelt, handelt es sich bei der Terminologie um das Studium spezieller sprachlicher Wörter oder Begriffe, die mit bestimmten Fachgebieten in Zusammenhang stehen5. Weder die Lexikologie noch die Terminologie befassen sich direkt mit einer bestimmten Anwendung. Bei der Lexikographie handelt es sich jedoch um den Prozess der Erstellung von Wörterbüchern, meist mit allgemeinsprachlichen Wörtern, gelegentlich aber auch mit sondersprachlichen Wörtern (d. h. Begriffen). Die meisten Allzweckwörterbücher enthalten auch eine Reihe von Fachbegriffen, die oft zusammen mit allgemeinsprachlichen Wörtern in Einträge eingebettet sind. Bei der Terminographie (oder oft irreführend „Terminologie“) geht es dagegen ausschließlich um die Zusammenstellung von Sammlungen des Wortschatzes spezieller Sprachen. Die Ergebnisse dieser Arbeit können unter einer Reihe unterschiedlicher Namen bekannt sein, die oft uneinheitlich verwendet werden, darunter „Terminologie“, „Fachvokabular“, „Glossar“ usw.
Wörterbücher basieren auf Wörtern: Die lexikografische Arbeit beginnt mit der Identifizierung der verschiedenen Bedeutungen einer bestimmten Wortform. Die Gesamtpräsentation für den Benutzer erfolgt im Allgemeinen alphabetisch und spiegelt die wortbasierte Arbeitsmethode wider. Synonyme – unterschiedliche Form, gleiche Bedeutung – sind daher normalerweise im gesamten Wörterbuch verstreut, während Polyseme (verwandte, aber unterschiedliche Bedeutungen) und Homonyme (gleiche Form, unterschiedliche Bedeutung) zusammengefasst werden.
Zwar wurden einige bemerkenswerte Versuche unternommen, konzeptionell fundierte allgemeinsprachliche Wörterbücher – oder „Thesauri“ – zu erstellen, doch die Ergebnisse solcher Versuche müssen je nach kulturellem und chronologischem Kontext des Autors erheblich variieren.
Im Gegensatz dazu sind hochwertige Terminologien in gewisser Weise immer konzeptbasiert, was die Tatsache widerspiegelt, dass die darin enthaltenen Begriffe einen Fachbereich abbilden, in dem enzyklopädische Informationen eine zentrale Rolle spielen. Solche Wissensbereiche neigen dazu, stark eingeschränkt zu sein (z. B. „Weinbau“, „Weinbau“, „Gastronomie“ usw. statt „Essen und Trinken“) und daher einer konzeptionellen Organisation zugänglicher, als dies bei der Gesamtheit der Fall ist von der Allgemeinsprache abgedecktes Wissen. Die Beziehungen zwischen den Konzepten, die die Begriffe darstellen, sind das wichtigste Organisationsprinzip der terminografischen Arbeit und spiegeln sich normalerweise in der gewählten Art der Präsentation der Terminologie für den Benutzer wider. Konzeptionell basierte Arbeiten werden in der Regel auf Papier in einer thesaurusartigen Struktur präsentiert, die häufig durch ein Klassifikationssystem (z. B. UDC) und einen alphabetischen Index ergänzt wird, um den Zugriff sowohl über die Wortform als auch über das Konzept zu ermöglichen. In Terminologien erscheinen Synonyme daher gemeinsam als Darstellungen derselben Bedeutung (d. h. Konzepts), während Polyseme und Homonyme getrennt in unterschiedlichen Einträgen dargestellt werden.
Wörterbücher der allgemeinen Sprache sind in ihrer Ausrichtung deskriptiv und ergeben sich aus der Beobachtung des Gebrauchs durch den Lexikographen. Terminologien können in bestimmten Fällen (je nach Fachgebiet und/oder Anwendung) auch beschreibend sein, jedoch spielt die Verschreibung (auch: „Normalisierung“ oder „Standardisierung“) eine wesentliche Rolle, insbesondere bei wissenschaftlichen, technischen und medizinischen Arbeiten, bei denen die Sicherheit im Vordergrund steht. Unter Standardisierung versteht man normalerweise die Eliminierung der Synonymie und die Reduzierung der Polysemie/Homonymie oder die Prägung von Neologismen, um die Bedeutung des Begriffs und seine Beziehungen zu anderen Begriffen widerzuspiegeln.
7
Kapitel 2. Was ein Informatiker möglicherweise nicht weiß
„Terminologiemanagement“, selbst ein Neologismus, wurde geprägt, um die Notwendigkeit einer Methodik zum Sammeln, Validieren, Organisieren, Speichern, Aktualisieren, Austauschen und Abrufen einzelner Begriffe oder Begriffssätze für eine bestimmte Disziplin hervorzuheben. Diese Methodik wird durch den Einsatz computergestützter Informationsmanagementsysteme namens „Terminology Management Systems“ (TMS) umgesetzt.
Sagt Martínez de Sousa, Subvoce-Terminologie, im Wörterbuch der praktischen Lexikographie
Heutzutage ist die Terminologie eine gut strukturierte Wissenschaft, die sich mit der Erstellung lexikalischer Kataloge von Wissenschaften, Techniken, Berufen usw. befasst, die auf kohärenten Systemen nationaler und internationaler Organisationen basieren.
Das SALT-Projekt unterscheidet zwischen „Lexbases“ und „Termbanken“, wobei erstere für die Verwendung in der maschinellen Übersetzung und letztere als Übersetzungshilferessourcen gedacht sind; EAGLES spricht von „Termbanken“.
EAGLES-I bietet die folgende Definition von „Translation Memory“6:
ein mehrsprachiges Textarchiv, das (segmentierte, ausgerichtete, analysierte und klassifizierte) mehrsprachige Texte enthält und das Speichern und Abrufen ausgerichteter mehrsprachiger Textsegmente anhand verschiedener Suchbedingungen ermöglicht.
2.2. Was ein Übersetzer erwarten kann. . .
2.2.1. . . . aus einem Wörterbuch
* [Machen]
2.2.2. . . . aus textuellem Uncorpus
Ich werde ein Beispiel geben, um zu erklären, was wir meiner Meinung nach brauchen. Angenommen, Sie schreiben eine Dokumentation oder übersetzen einen Text und plötzlich zweifeln Sie daran, ob Sie auf Spanisch richtig „vorne“ oder „vorne“ sagen sollen. Sie öffnen das Korpus-Abfragetool und schreiben „before“ und Sie erhalten eine Liste mit Beispielen für die Verwendung des Begriffs (stellen wir uns den gleichen Fall im Englischen vor, wo wir viel mehr Hilfe benötigen: Sagen Sie „angryat“ oder „angry with“? ? ist 'interessant für uns'?). Selbstverständlich muss das Korpus aus korrekten (maßgeblichen) Dokumenten generiert werden und möglichst umfassend und vollständig sein. Ein Korpus ist besser als ein Standardwörterbuch, weil es Ihnen ermöglicht, vom Niveau der Sprache zum Niveau der Norm zu gelangen. So können Sie herausfinden, was am häufigsten verwendet wird und wie etwas normalerweise gesagt wird.
2.2.3. . . . . . . . . . . . . eines Übersetzungsspeichers
* [Alle. Erklären Sie, was sie sind und wozu sie dienen.]
8
Kapitel 2. Was ein Informatiker möglicherweise nicht weiß
Anmerkungen1. McArthur, Tom „Corpus“, en: McArthur, Tom (Hrsg.) 1992. The Oxford Companion to the English Language.
Oxford, 265-266.
2. Von Beschriftungen, Markierungen oder Anmerkungen ist die Rede.
3. Von Catherine Ball, de la Universidad de Georgetown, http://www.georgetown.edu/cball/corpora/tutorial3.html(http://www.georgetown.edu/cball/corpora/tutorial3.html)
4. Schnell http://www.uni-koeln.de/phil-fak/englisch/bald/programs.htm(http://www.uni-koeln.de/phil-fak/englisch/bald/programs.htm )
5. Abaitua spricht von „Spezialsprachen“.
6. Die terminologische Verwirrung über das Konzept ist offensichtlich: Wenn Sie über „Übersetzungsdatenbanken“ und „Kataloge“ (kbabel), „Kompendien“ (gettext) und „Lernpuffer“ (gtranslator) sprechen.
9
Kapitel 3. Dinge, die Computerlinguisten wissen
3.1. Ein historischer Spaziergang durch das Netz
Auf beiden Seiten des großen Teichs haben öffentliche Institutionen und Universitäten eine Reihe von Projekten entwickelt, die für uns von großem Interesse sind.
3.1.1. TEI
[Hier sprechen wir über die Gründung von TEI, das bereits sein 10-jähriges Jubiläum gefeiert hat]
3.1.2. Cibola und Wave
Auf amerikanischer Seite ist Oleada eine Weiterentwicklung von TIPSTER II1 von Bill Ogden2
„Cíbola“ und „Oleada“ sind zwei verwandte Systeme, die mehrsprachige Textverarbeitungstechnologie für Sprachlehrer, Lernende, Übersetzer und Analysten bereitstellen. Die Systeme bestehen aus einer Reihe von Komponententools, die mit einer benutzerzentrierten Methodik entwickelt wurden.
Überspannung bietet
• XAligny Translation Memory (http://crl.nmsu.edu/Research/Projects/oleada/tm.html(http://crl.nmsu.edu/Research/Projects/oleada/tm.html))
• XConcord( http://crl.nmsu.edu/Research/Projects/oleada/xcon.html(http://crl.nmsu.edu/Research/Projects/oleada/xcon.html))
• Glossar, Wörterbuch (http://crl.nmsu.edu/Research/Projects/oleada/gloss.html(http://crl.nmsu.edu/Research/Projects/oleada/gloss.html))
3.1.3. EAGLES I und II (1995-1999)
En Europa destacan EAGLES I y II (Expert Advisory Group on Language Engineering Standards)
Das erste Projekt endete 1996. Das zweite Projekt lief von 1997 bis Frühjahr 1999. Laut Einleitung (http://www.ilc.pi.cnr.it/EAGLES96/intro.html (http://www.ilc. pi.cnr.it/EAGLES96/intro.html))
EAGLES ist eine Initiative der Europäischen Kommission (...), die darauf abzielt, die Bereitstellung von Standards zu beschleunigen für:
• Sehr umfangreiche Sprachressourcen (wie Textkorpora, Computerlexika und Sprachkorpora);
• Mittel zur Manipulation dieses Wissens über computerlinguistische Formalismen, Auszeichnungssprachen und verschiedene Softwaretools;
10
Kapitel 3. Dinge, die Computerlinguisten wissen
• Mittel zur Bewertung und Bewertung von Ressourcen, Werkzeugen und Produkten.
Die Arbeit an gemeinsamen Spezifikationen wird von fünf Arbeitsgruppen durchgeführt:
• Textkorpora
• Computerlexika
• Grammatikformalismen
• Auswertung
• Gesprochene Sprache
Ein Ergebnis der Arbeit war der Corpus Encoding Standard (CES, http://www.cs.vassar.edu/CES/(http://www.cs.vassar.edu/CES/)) und XCES ( http:/ / www.cs.vassar.edu/XCES/(http://www.cs.vassar.edu/XCES/)), die XML-Version.
Das CES ist so konzipiert, dass es optimal für den Einsatz in der Sprachtechnikforschung und -anwendungen geeignet ist, um als weithin akzeptierter Satz von Kodierungsstandards für korpusbasierte Arbeiten in Anwendungen zur Verarbeitung natürlicher Sprache zu dienen. TheCES ist eine SGML-Anwendung, die den Spezifikationen der TEI-Richtlinien entspricht.
Das CES gibt eine minimale Kodierungsstufe an, die Korpora erreichen müssen, um als standardisiert im Hinblick auf die beschreibende Darstellung (Markierung struktureller und typografischer Informationen) sowie die allgemeine Architektur (um für die Verwendung in einer Textdatenbank optimal geeignet zu sein) zu gelten. Es bietet außerdem Codierungsspezifikationen für linguistische Annotationen sowie eine Datenarchitektur für linguistische Korpora.
In seiner jetzigen Form bietet das CES Folgendes:
• eine Reihe von Empfehlungen auf Metasprachenebene (besonderes Profil der SGML-Nutzung, Zeichensätze usw.);
• Tagsets und Empfehlungen zur Dokumentation verschlüsselter Daten;
• Tagsets und Empfehlungen zur Kodierung von Primärdaten, einschließlich geschriebener Texte aller Genres, für korpusbasierte Arbeiten in der Sprachtechnik.
• Tagsets und Empfehlungen zur Kodierung linguistischer Annotationen, die in der Sprachtechnik häufig mit Texten in Verbindung gebracht werden, darunter derzeit:
• Segmentierung des Textes in Sätze und Wörter (Tokens),
• morphosyntaktisches Tagging,
• parallele Textausrichtung.
Das einflussreichste Projektergebnis sind jedoch die EAGLES-Richtlinien. Die Arbeit der Gruppe wird durch das ISLE-Projekt fortgeführt.
Relacionados con EAGLES y CES estaban los proyectos PAROLE (Preparatory Action for Linguistic ResourcesOrganisation for Language Engineering, LE2-4017, http://www.dcs.shef.ac.uk/research/groups/nlp/funded/parole.html(http ://www.dcs.shef.ac.uk/research/groups/nlp/funded/parole.html))
11
Kapitel 3. Dinge, die Computerlinguisten wissen
j
3.1.4. MULTEXT (1994-1996)
MULTEXT (Multilingual Text Tools and Corpora, LRE 62-050, 1994-96, http://www.lpl.univ-aix.fr/projects/multext/ (http://www.lpl.univ-aix.fr/ Projekte/Multitext/)). Dies sind die ersten Hauptziele:
Bestehende Tools für die korpusbasierte NLP- und MT-Forschung sind typischerweise in große, nicht anpassbare Systeme eingebettet, die grundsätzlich inkompatibel sind. Es wurden kaum Anstrengungen unternommen, Softwarestandards zu entwickeln, und die Wiederverwendbarkeit von Software ist praktisch nicht vorhanden. Infolgedessen besteht ein gravierender Mangel an allgemein verwendbaren Werkzeugen zur Bearbeitung und Analyse von Textkorpora, die für die Forschung, insbesondere für mehrsprachige Anwendungen, allgemein verfügbar sind. Gleichzeitig wird die Datenverfügbarkeit durch das Fehlen etablierter Standards für die Kodierung von Korpora beeinträchtigt. Obwohl das TEI Richtlinien für die Textkodierung bereitgestellt hat, sind diese bislang weitgehend ungetestet an realen Daten, insbesondere mehrsprachigen Daten. Darüber hinaus bieten die TEI-Richtlinien eine breite Palette von Textkodierungslösungen für eine Vielzahl von Disziplinen und Anwendungen, was jedoch nicht der Fall ist soll spezifische Leitlinien für die Zwecke der korpusbasierten NLP- und MT-Forschung bereitstellen. MULTEXT schlägt vor, diese beiden Probleme anzugehen. Erstens wird MULTEXT daran arbeiten, einen Softwarestandard zu etablieren, den wir als einen wesentlichen Schritt in Richtung Wiederverwendbarkeit betrachten, und den Standard veröffentlichen, um zukünftige Entwicklungen durch andere zu ermöglichen. Zweitens wird MULTEXT die TEI-Standards anhand von Daten in Originalgröße testen und erweitern und letztendlich TEI-basierte Kodierungskonventionen entwickeln, die speziell für mehrsprachige Korpora und die Anforderungen der korpusbasierten NLP- und MT-Forschung geeignet sind.
Vom MULTEXT-Projekt entwickelte Tools sind
• mmorph(Morphologie-Tool, ftp://issco-ftp.unige.ch/pub/multext/mmorph-2.3.4_2.tar.gz(ftp://issco-ftp.unige.ch/pub/multext/mmorph- 2.3.4_2.tar.gz))
• mtag(Die Multext-Version des Taggers, ftp://issco-ftp.unige.ch/pub/multext/tagger2.22.tar.gz(ftp://issco-ftp.unige.ch/pub/multext/ tagger2.22.tar.gz))
• tatoo (Das ISSCO TAgger TOOL, http://issco-www.unige.ch/staff/robert/tatoo/tatoo.html(http://issco-www.unige.ch/staff/robert/tatoo/tatoo. html))
• multext_align(Ausrichtungsprogramm, ftp://issco-ftp.unige.ch/pub/multext/multext_align_v2.0.tar.gz(ftp://issco-ftp.unige.ch/pub/multext/multext_align_v2.0. tar.gz))
3.1.5. Mehrsprachiges spezialisiertes Textkorpus
Eine katalanische Entwicklung: (http://www.iula.upf.es/corpus/corpuses.htm(http://www.iula.upf.es/corpus/corpuses.htm))
Das Corpus-Projekt ist das vorrangige Forschungsprojekt des IULA. Es versammelt Texte in fünf verschiedenen Sprachen (Katalanisch, Spanisch, Englisch, Französisch und Deutsch) aus den Fachgebieten Wirtschaft, Recht, Umwelt, Medizin und Informatik. Durch die Erstellung des Korpus wird versucht, die Gesetze abzuleiten, die das Verhalten jeder Sprache in jedem Bereich bestimmen.
Die für das Korpus geplanten Untersuchungen sind folgende: Erkennung von Neologismen und Begriffen, Studien zur sprachlichen Variation, partielle syntaktische Analyse, Textausrichtung, Datenextraktion für den Unterricht in Zweitsprachen, Datenextraktion für den Aufbau elektronischer Wörterbücher, Thesaurusentwicklung usw
12
Kapitel 3. Dinge, die Computerlinguisten wissen
Die Texte werden nach dem SGML-Standard und den CES-Richtlinien der EAGLES-Initiative ausgezeichnet.
Die Bearbeitung der Korpustexte erfolgt in folgenden Schritten:
• Strukturmarkierung
• Vorverarbeitung (Erkennung von Daten, Zahlen, Ortsnamen, Eigennamen...)
• Morphologische Analyse und Markierung gemäß den am IULA entwickelten morphosyntaktischen Etiketten.
• sprachliche und/oder statistische Begriffsklärung
• Speicherung in einer Textdatenbank
Problem
Ich glaube, dass ein großer Teil ihrer Entwicklungen nicht kostenlos ist.
3.1.6. SICH PAAREN
Etwas marginal für unsere Interessen, aber interessant, wenn es um Annotation geht, ist MATE (MultilevelAnnotation, Tools Engineering, Telematics Project LE4-8370) http://mate.nis.sdu.dk/ (http://mate.nis.sdu .dk/)
MATE zielt darauf ab, eine vorläufige Form eines Standards und eine Werkbank für die Annotation gesprochener Dialogkorpora zu entwickeln. Der Annotationsstandard wird:
• mehrere Anmerkungsebenen zulassen, wobei die verschiedenen Anmerkungsebenen miteinander in Beziehung gesetzt werden können;
• die Koexistenz einer Vielzahl von Codierungsschemata und Standards ermöglichen;
• Mehrsprachigkeit zulassen;
• Integration der Standardisierungsbemühungen in den USA, Europa und Japan; Und
• Seien Sie offen gegenüber den Informationsebenen und -kategorien
innerhalb jeder Ebene.
Die MATE-Ergebnisse werden von besonderer Relevanz sein für:
• die Konstruktion von SLDS-Lexika (Spoken Language Dialogue Systems).
• korpusbasierte Lernverfahren für den Erwerb von Sprachmodellen, Wortartkennzeichnung, Grammatikinduktion, Extraktion von Strukturen zur Verwendung bei der Dialogsteuerung von SLDSs;
• Lexikon- und Grammatikentwicklung basierend auf expliziten Beschreibungen der Wechselbeziehungen zwischen Phänomenen auf verschiedenen Beschreibungsebenen (z. B. lexikalische, grammatikalische, prosodische Hinweise für Semantik und Diskurssegmentierung, zum Ableiten von Dialoghandlungen usw.).
Der vom Projekt produzierte Code „The MATE Workbench“ in Java und unter der GPL-Lizenz kann von http://www.cogsci.ed.ac.uk/~dmck/MateCode/ (http://www.cogsci.ed.ac.uk/~dmck/MateCode/) heruntergeladen werden .cogsci ed.ac.uk/~dmck/MateCode/)
13
Kapitel 3. Dinge, die Computerlinguisten wissen
3.1.7. INSEL (2000-2002)
Die Projektwebsite finden Sie unter http://lingue.ilc.pi.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm(http://lingue.ilc.pi.cnr.it/EAGLES96/isle/ISLE_Home_Page. htm). ).
Lesen
Das am 1. Januar 2000 gestartete ISLE-Projekt setzt die im Rahmen der EAGLES-Initiative durchgeführten Arbeiten fort. ISLE (International Standards for Language Engineering) ist sowohl der Name eines Projekts als auch der Name einer ganzen Reihe koordinierter Aktivitäten im HLT-Bereich. ISLE steht unter der Schirmherrschaft der EAGLES-Initiative, die eine erfolgreiche Entwicklung und eine breite Umsetzung einer Reihe von Empfehlungen und De-facto-Standards erlebt hat.3
Ziel von ISLE ist die Entwicklung von HLT-Standards im internationalen Rahmen im Rahmen der EU-US-Initiative für internationale Forschungskooperation. Seine Ziele sind die Unterstützung nationaler Projekte, HSU-FTE-Projekte und der Sprachtechnologiebranche im Allgemeinen durch die Entwicklung, Verbreitung und Förderung von De-facto-HSU-Standards und -Richtlinien für Sprachressourcen, Tools und Produkte.4
ISLE zielt auf die drei Bereiche ab: mehrsprachige Lexika, natürliche Interaktion und Multimodalität (NIMM) und Bewertung von HLT-Systemen. Diese Bereiche wurden nicht nur aufgrund ihrer Relevanz für die aktuelle HSU-Ausschreibung, sondern auch aufgrund ihrer langfristigen Bedeutung ausgewählt. Für mehrsprachige Computerlexika wird ISLE:5
• Ausweitung der EAGLES-Arbeit zur lexikalischen Semantik, die für die Herstellung intersprachlicher Verbindungen erforderlich ist;
• Designstandards für mehrsprachige Lexika;
• ein Prototyp-Tool zur Umsetzung von Lexikonrichtlinien und -standards entwickeln;
• Erstellen Sie beispielhafte EAGLES-konforme Beispiellexika und kennzeichnen Sie beispielhafte Korpora für Validierungszwecke.
• Entwicklung standardisierter Bewertungsverfahren für Lexika.
3.1.8. ZEIGER (-1996)
Im Bereich der Terminologie war das POINTER-Projekt sehr wichtig, das von der Europäischen Gemeinschaft mitfinanziert wurde und im Januar 1996 seinen Abschlussbericht (Revision Nr. 54) herausgab. Laut http://www.computing.surrey.ac.uk /ai /pointer/ (http://www.computing.surrey.ac.uk/ai/pointer/)
Ziel des POINTER-Projekts ist es, eine Reihe konkreter, umsetzbarer Vorschläge bereitzustellen, die Terminologienutzer in ganz Europa unterstützen, indem sie die Verbreitung von Terminologien sowie ihre Wiederverwendung in verschiedenen Kontexten und für verschiedene Zwecke erleichtern.
Der Abschlussbericht des POINTER-Projekts weist auf die Mängel des Fachgebiets der Terminologie hin, wie es damals in Europa existierte (Austausch von Terminologien, Validierung und Verifizierung, Benutzeroberfläche und deren „Lokalisierung“, Extraktion von Terminologien aus sprachlichen Korpora, Notwendigkeit). Verbesserung der Informationsspeicherungs- und -abruftechniken und zur Integration von Terminologien in Software) und empfiehlt Lösungsansätze.
14
Kapitel 3. Dinge, die Computerlinguisten wissen
3.1.9. ELRA
Die European Language Resources Association (ELRA) wurde im Februar 1995 gegründet und ist Empfänger von EU-Mitteln im Rahmen des MLIS-Programms (MultiLingual Information Society) auf Kostenteilungsbasis. ELRA wurde auf Betreiben der Europäischen Kommission unter aktiver Beteiligung der Projekte POINTER, PAROLE (Korpora/Lexika) und SPEECHDAT (Sprachdaten) in Verbindung mit dem RELATOR-Projekt (AEuropean Network of Repositories for Linguistic Resources) gegründet und zielt auf die Validierung und Verbreitung ab Europäische Sprachressourcen, die ihm zu diesem Zweck angeboten werden. Darüber hinaus fungiert es als Clearingstelle für Informationen zum Thema Sprachtechnik, sammelt Daten über Marktbedürfnisse und bietet hochwertige Beratung für potenzielle und tatsächliche Geldgeber, einschließlich der Europäischen Kommission und nationaler Regierungen. Ebenso unterstützt es die Entwicklung und Anwendung von Standards und Qualitätskontrollmaßnahmen und -methoden für die Entwicklung elektronischer Ressourcen in den europäischen Sprachen. Mit der Zeit will ELRA nach eigenen Worten „zum Anlaufpunkt für den Druck bei der Schaffung qualitativ hochwertiger und innovativer Sprachressourcen in Europa werden“.
3.1.10. SALZ (2000-2001)
«SALT» (Standards-based Access to multilingual Lexicons and Terminologies) war ein in das V. Rahmenprogramm (2000-2001) integriertes Projekt.
Eine ihrer Webseiten finden Sie unter http://www.loria.fr/projets/SALT/saltsite.html(http://www.loria.fr/projets/SALT/saltsite.html). Das Projekt entstand aus dem Bewusstsein eines Bedarfs:
Dieses Projekt ist eine Reaktion auf die Tatsache, dass viele Organisationen in der Lokalisierungsbranche inzwischen sowohl menschliche Übersetzungen, die durch Produktivitätstools verbessert werden, als auch MT mit oder ohne menschliche Nachbearbeitung verwenden. Diese Dualität der Übersetzungsmodi bringt die Notwendigkeit mit sich, vorhandene Ressourcen in Form von (a) den in der MT verwendeten NLP-Lexika (die wir als Lexibasen kategorisieren) und (b) den konzeptorientierten Terminologiedatenbanken, die in Produktivitätstools für menschliche Übersetzungen verwendet werden (die wir nennen esTermbanken). Diese Integration erleichtert die Konsistenz zwischen verschiedenen Übersetzungsaktivitäten und nutzt Daten aus teuren Informationsquellen sowohl für die Lex-Seite als auch für die Term-Seite der Sprachverarbeitung.
Das SALT-Projekt kombiniert zwei kürzlich fertiggestellte Austauschformate: „OLIF“ (Open Lexicon Interchange Format), das sich auf den Datenaustausch zwischen Lexbase-Ressourcen aus verschiedenen maschinellen Übersetzungssystemen konzentriert (Thurmaier et al. 1999), und „MARTIF“ (ISO). 12200:1999, Machine-Readable Terminology Interchange Format), das den Austausch von Termbankressourcen mit konzeptionellen Datenmodellen von einfach bis anspruchsvoll erleichtert. Das Ziel von SALT ist die Integration von Lexbase- und Termbase-Ressourcen in eine neue Art von Datenbank, Alex/Term-Base namens „XLT“ (eXchange-Format für Lex/Term-Data).
XLT basiert auf XML. Das „Standard-XLT“ ist als „TBX“ bekannt: „TermBase eXchange-Format“.
Die Kontrolle über TBX wurde vom SALT-Projekt (...) an LISA (und dessen OSCAR SIG) übergeben.
3.1.11. LISA und OSCAR
Ausstehend und dringend: TMX, TBX, SRX.
Hinweise1. Vgl. http://crl.nmsu.edu/~ogden/Papers/oleada.fm.pdf, auf TIPSTER siehe auch
http://crl.nmsu.edu/twg.annotation/.
15
Kapitel 3. Dinge, die Computerlinguisten wissen
2. Software von vor 1997!?
3. http://lingue.ilc.pi.cnr.it/EAGLES96/isle/project_profile.htm(http://lingue.ilc.pi.cnr.it/EAGLES96/isle/project_profile.htm).
4. http://lingue.ilc.pi.cnr.it/EAGLES96/isle/objectives.htm(http://lingue.ilc.pi.cnr.it/EAGLES96/isle/objectives.htm).
5. http://lingue.ilc.pi.cnr.it/EAGLES96/isle/work_description.html(http://lingue.ilc.pi.cnr.it/EAGLES96/isle/work_description.html).
16
II. Quellcode-Übersetzungsprojekte
Über das, was da ist.
Kapitel 4. Das ygettext Free Translation Project
4.1. Ein bisschen Geschichte
Alles begann im Juli 1994, als Patrick D'Cruze die Initiative ergriff, Version 3.9.2 von GNU Fileutils zu internationalisieren. Er fragte Jim Meyering, den Paketbetreuer, wie man diese Änderungen in eine offizielle Version integrieren könne. Der erste Entwurf war mit #ifdefs übersät, und Meyering versuchte, einen geeigneteren Mechanismus zu finden, was zu mehreren unbefriedigenden Lösungen führte, bis Ulrich Drepper sich auf das Projekt einließ. Von Grund auf schrieb er, was zunächst als „msgutils“ bekannt war, dann „ nlsutils‘ und schließlich gettext; Es wurde etwa im Mai 1995 von Richard Stallman offiziell angenommen.
Gleichzeitig portierte François Pinard ein halbes Dutzend GNU-Pakete auf gettext und stellte nebenbei eine effektive Benutzerumgebung zum Testen und Optimieren der neuen Tools bereit. Er übernahm auch die Verantwortung für die Organisation und Koordination des Übersetzungsprojekts. Nach fast einem Jahr informellen E-Mail-Austauschs zwischen Menschen in vielen Ländern entstanden im Mai 1995 die ersten Übersetzungsteams durch die Erstellung und Pflege von zwanzig nicht moderierten Mailinglisten für zwanzig Muttersprachen durch Patrick D'Cruze.
Die Idee von François Pinard bestand darin, ein Hilfesystem für Programmierer zu schaffen, die Freie Software erstellen, damit sie leichter Übersetzer für ihre Programme finden können.
Mit den Worten von Santiago Vila1:
Das FSF (das GNU-Projekt) beauftragte Pinard zunächst mit der Koordinierung der Übersetzung der .po von GNU-Programmen. Ich spreche von der Zeit, als die[emailprotected]. Danach beschloss Pinard, den Namen des Projekts zu ändern und es „Free Translation Project“ statt „GNU Translation Project“ zu nennen. Das Ziel ist sehr ähnlich, aber etwas umfassender: die Übersetzung aller kostenlosen Programme zu koordinieren, die mit gettext internationalisiert wurden. Dies wird als „Service“ für die Autoren kostenloser Programme angeboten, die statt selbst nach Übersetzern suchen zu müssen, die .pot-Dateien einfach an Pinard senden und die Übersetzungen in einem dafür freigegebenen Verzeichnis sammeln können.2
4.2. So melden Sie sich an
Um Mitglied des spanischen Teams zu werden, müssen Sie der FSF per E-Mail und auf dem Postweg einen Verzicht auf Übersetzungsrechte zukommen lassen. Hier können Sie eine Kopie (ohne die persönlichen Daten) von myDisclaimer vom 2. Mai 2000 einsehen.
HAFTUNGSAUSSCHLUSS FÜR URHEBERRECHTE BEI ÜBERSETZUNGEN VON PROGRAMMTEILEN
Ich, [Tu_Nombre], ein Bürger des Königreichs Spanien, bestätige hiermit, dass die Free Software Foundation, eine gemeinnützige Gesellschaft aus Massachusetts, USA,
18
Kapitel 4. Das Free Translation Project und gettext
dass ich jegliches Urheberrechtsrecht an meinen Werken, die ich der Stiftung bereitgestellt habe oder in Zukunft bereitstellen werde, an der Übersetzung von Teilen freier Softwareprogramme von einer menschlichen Sprache in eine andere menschliche Sprache ablehne. Zu den Programmen, für die dies gilt, gehören alle Programme, für die die Die Stiftung ist der Inhaber des Urheberrechts und aller anderen frei weiterverbreitbaren Softwareprogramme.
Zu den von diesem Haftungsausschluss abgedeckten Übersetzungen gehören unter anderem Übersetzungen von Textnachrichten, Glossaren, Befehls- oder Optionsnamen, Texten der Benutzeroberfläche und Ähnlichem, die in diesen Programmen enthalten sind oder für die Verwendung durch diese Programme erstellt wurden.
Ich erwarte derzeit, im spanischen Übersetzungsteam zu arbeiten (obwohl dieser Haftungsausschluss für alle Übersetzungen gilt, an denen ich möglicherweise später arbeite).
Diese [Fecha] wurde als versiegelte Urkunde in [Tu_Localidad], Spanien, übergeben und zunächst per E-Mail verschickt, wobei eine handschriftlich unterzeichnete Kopie per Post oder persönlicher Übergabe an die Stiftung gesendet wurde.
Unterzeichnet
[Ihr_Name] [Ihre_E-Mail][Ihre_Adresse] (Spanien)
Kurz darauf erhalten Sie eine E-Mail mit der Bestätigung Ihres Rücktritts.
Aus[emailprotected]Fr, 26. Mai 23:47:50 2000Betreff: Haftungsausschluss für neue ÜbersetzungenVon: François_Pinard <[emailprotected]>Datum: 26. Mai 2000 14:42:10 -0400
Hallo!
Die Free Software Foundation hat weitere Haftungsausschlüsse für Übersetzungen erhalten. Bitte überprüfen Sie unten, ob die Transkription korrekt ist. Stellen Sie sicher, dass Ihr Name und Ihre E-Mail-Adresse genauso geschrieben sind, wie Sie es in den von Ihnen erstellten PO-Dateien beabsichtigen. Bitte überprüfen Sie auch, ob das Team in eckigen Klammern richtig gekennzeichnet ist.
19
Kapitel 4. Das Free Translation Project und gettext
Email:[emailprotected]für die Meldung eines Fehlers. Verwenden Sie diese Adresse auch zum Senden aller ausstehenden PO-Dateien, die Sie möglicherweise haben. Wenn Sie über eine Homepage verfügen, senden Sie mir bitte die URL, da ich diese Informationen jetzt auch im Register des Übersetzungsprojekts verwalte.
> ÜBERSETZUNGEN Jan Nieuwenhuizen 05.05.2000> Haftungsausschluss. [nl]>[emailprotected]
> ÜBERSETZUNGEN Nir Bruner 2000-05-04> Haftungsausschluss. [er]>[emailprotected]
> ÜBERSETZUNGEN Juan Rafael Ferna'ndez Garci'a 2000-05-02> Haftungsausschluss. [ist]>[emailprotected]
Dieser Brief wird auch an Ihr Übersetzungsteam gesendet, um die Teammitglieder über den Eingang Ihres Haftungsausschlusses zu informieren und auch als Gegenprüfung der E-Mail-Adresse, wodurch die Wahrscheinlichkeit erhöht wird, dass dieser Brief Sie erreicht.
Willkommen zu unserem Übersetzungsprojekt!
--Francois Pinard
Sie erscheinen auf der Liste der Übersetzer des spanischen Teams3 und es ist an der Zeit, Santiago Vila zu kontaktieren, um eine Aufgabe zu erhalten (im Fachjargon heißt es, dass Sie für eine „Domäne“ verantwortlich sind):
Übersetzungsteam für Spanisch
Das spanische Übersetzungsteam verwendet es als Sprachcode. Dieser Code kann von Benutzern internationalisierter Software als Wert der Umgebungsvariablen LANGUAGE oder LANGen verwendet werden. Es ist auch Teil von PO-Dateinamen. Wir verwenden es oft als kurze Identifikation für das Team.
Das Team nutzt[emailprotected](Anstand:[emailprotected]) für eine offizielle E-Mail-Adresse, die entweder eine Mailingliste erreicht oder jemanden, der Informationen an alle anderen Teammitglieder sendet. Santiago Vila Doncel (mailto:[emailprotected]) fungiert derzeit als Teamleiter, und Sie können ihn oder sie in allen Angelegenheiten im Zusammenhang mit der Teamkoordination anschreiben. Die Teammitglieder äußerten ihre Präferenz für die Verwendung des ISO-8859-1-Zeichensatzes. Sie können es immer dann verwenden, wenn Sie E-Mails an die Teamliste oder an Mitglieder senden oder wenn Sie eine Übersetzungsdatei für dieses Team erstellen.
Sie können weitere Informationen über die spanische Leistung erhalten, indem Sie einige Team-Links gemäß der folgenden Tabelle besuchen.
20
Kapitel 4. Das Free Translation Project und gettext
Themen-URL
Tabelle 4-1. Links
Themen-URL
Teamseite ftp://ftp.unex.es/pub/gnu-i18n/spanish-gnu(ftp://ftp.unex.es/pub/gnu-i18n/spanish-gnu)
Status http://homepage.iprolink.ch/~justine/estado.html(http://homepage.iprolink.ch/~justine/estado.html)
In Arbeit ftp://ftp.unex.es/pub/gnu-i18n/spanish-gnu/revisar(ftp://ftp.unex.es/pub/gnu-i18n/spanish-gnu/revisar)
PO-Spiegel ftp://ftp.unex.es/pub/gnu-i18n/po(ftp://ftp.unex.es/pub/gnu-i18n/po)
Dem Register des Übersetzungsprojekts sind die folgenden Übersetzer für das spanische Team bekannt.
Tabelle 4-2. Übersetzer
Homepage des Übersetzers Haftungsausschluss Anzahl der automatischen Sendungen
Andrés Felipe Mancipe Galvis (mailto:)
Ja
... ... ... ... ...
Jordi Mallach Pérez (mailto:[emailprotected])
Ja 2
... ... ... ... ...
Juan Rafael Fernández García (mailto:[emailprotected])
Ja 1
... ... ... ... ...
Santiago Vila Doncel(mailto:[emailprotected])
Ja 14
... ... ... ... ...
Vicente E. Llorens (mailto:[emailprotected])
Ja: 3
Die Spalte „Autosend“ ist für Übersetzer gedacht, die PO-Dateien bei der Generierung erhalten möchten, während neue POT-Dateien in das Projekt hochgeladen werden. Einige Übersetzer möchten sowohl die Benachrichtigung als auch die Datei in ihrem Postfach haben, anstatt sie über das Internet abzurufen. Fragen Sie einfach (mailto:tran[emailprotected]), wenn Sie diesen Service für sich selbst wünschen.
Hier ist die aktuelle Liste der Zuweisungen von Textdomänen an Übersetzer, wie sie der Translation Projectregistry bekannt sind. Wenn keine aktuelle Version aufgeführt ist, sind die Informationen identisch mit der neuesten Einreichung. Der TranslationProject-Roboter verlässt sich auf diese Informationen, um Einsendungen von Übersetzern direkt anzunehmen. Wenn in dieser Tabelle ein Fehler oder eine Auslassung vorliegt, schreiben Sie bitte an Santiago Vila Doncel (mailto:[emailprotected]), um es zu korrigieren.
21
Kapitel 4. Das Free Translation Project und gettext
Tabelle 4-3. Zuordnungen
Domänenzugewiesener Übersetzer
Version übersetzt. Aktuelle Version übersetzt
a2ps(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=a2ps)
Miguel Ángel Varó Giner (mailto:[emailprotected])
4.13b0/179
bash(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=bash)
Christian Othon Martinez Vera (http://eniac.rhon.itam.mx/~cfuga/)
2,0 840 / 840
... ... ... ... ... ...
jwhois (http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=jwhois)
Christian Othon Martinez Vera (http://eniac.rhon.itam.mx/~cfuga/)
3.2.0 64 / 64
kbd(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=kbd)
Juan Rafael Fernández García (mailto:[emailprotected])
1,06 215 / 215
ld(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=ld)
Christian Othon Martinez Vera (http://eniac.rhon.itam.mx/~cfuga/)
2.12-pre020121 378 / 378
libc(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=libc)
Santiago VilaDoncel(mailto:[emailprotected])
2.2.5 1172 / 1172
... ... ... ... ... ...
wget(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=wget)
Salvador GimenoZanón(mailto:[emailprotected])
1.8.1 189 / 189
Zuletzt neu berechnet am 08.05.2002 12:21 -0400
Ihre Kommentare (mailto:[emailprotected]) sind willkommen.
4.3. Wie funktioniert das
In meinem Fall wurde mir die „Domain“ kbd.4 zugewiesen
Die kbd-Textdomäne
Hier ist eine kurze Beschreibung für die Textdomäne kbd. Die aktuelle Vorlage für diese Domain ist kbd-1.06.pot.
22
Kapitel 4. Das Free Translation Project und gettext
Für die Annahme von Übersetzungen benötigt der Betreuer keine besonderen Unterlagen.
Die folgenden URL-Informationen können Übersetzern für dieses Paket helfen, wenn sie einen feineren Übersetzungskontext benötigen, aber die Distributionen könnten durchaus experimentell sein und möglicherweise nicht einmal kompiliert werden. Bitte beachten Sie, dass die hier angegebenen URLs nicht unbedingt offiziell sind.
ftp://ftp.win.tue.nl/pub/linux-local/utils/kbd/kbd-1.06.tar.gz(ftp://ftp.win.tue.nl/pub/linux-local/utils/ kbd/kbd-1.06.tar.gz)
Die folgende Tabelle enthält einige Informationen zu PO-Dateien, die für diese Textdomäne verfügbar sind.
Tabelle 4-4. Die kbd-Textdomäne
Code-Sprachversion, zuletzt vom Übersetzer übersetzt
fr Französisch 1.06 Michel Robitaille 215 / 215
ist Spanisch 1,06 Juan Rafael Fernández García
215 / 215
sv Schwedisch 1,06 Martin Sjögren 215 / 215
en Türkisch 1.06 Nilgün BelmaBugüner
215 / 215
Zuletzt neu berechnet am 08.05.2002 12:22 -0400.
Ihre Kommentare sind willkommen.
Das erste, was Sie tun müssen, besteht natürlich darin, die zu übersetzende Datei, in diesem Fall kbd-1.06.pot, herunterzuladen und sie mit Emacs zu „besuchen“. Wir können es in Abbildung 2 sehen.
Emacs im PO-Modus
Emacs im PO-Modus
Speichern Sie die Arbeitsdatei als kbd-1.06.es.po . Es übersetzt jede Nachricht mit Hilfe von Emacs, wie in Abbildung 3.
Emacs im PO-Modus, übersetzte Datei
Wenn du fertig bist
[Meine_Maschine]$
msgfmt -v -o /dev/null kbd-1.06.es.po215 übersetzte Nachrichten.
[Meine_Maschine]$
Es wurden keine Fehler zurückgegeben, daher ist die Übersetzung abgeschlossen.
23
Kapitel 4. Das Free Translation Project und gettext
Es bleibt nur noch, es an den Projektroboter zu senden. Nur eine E-Mail im Header
Zum Übersetzungsprojektroboter <[emailprotected]>Betreff TP-Robot kbd-1.06.es.po
Im Nachrichtentext finden Sie die .po-Datei. Der Roboter reagiert, indem er die Übersetzung akzeptiert (wenn er eine Reihe von Tests besteht) oder auf etwaige Fehler hinweist, die er gefunden hat.
4.4. Was ist in einer .po-Datei enthalten?
Als Beispiel soll ein Ausschnitt dienen:
#: openvt/openvt.c:67#, c-formatmsgid „openvt: %s: illegale vt-Nummer\n“msgstr „openvt: %s: número de term. virt. ilegal\n“
Hinweise1. Santiago ist der Koordinator des spanischen Teams und erinnert sich, dass er seit Ende 1995 im Projekt war.
2. Persönliche E-Mail vom 22. April 2000.
3. http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?team=es(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?team= es).
4. http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain=kbd(http://www2.iro.umontreal.ca/~pinard/po/registry.cgi?domain= kbd).
24
Kapitel 5. KDE und KBabel
Auch das KDE1-Projekt beschäftigt sich mit der Internationalisierung seiner Programme und Bibliotheken und sammelt entsprechende Informationen auf „The KDE Translators' and Documenters' Web Site“2. Eines der dort hauptsächlich erscheinenden Dokumente3 ist „The KDE Translation HOWTO“. Im Moment interessieren wir uns für die sogenannte Übersetzung des „Graphic User Interface“.
Das Übersetzungstool des Projekts ist KBabel (http://i18n.kde.org/tools/kbabel(http://i18n.kde.org/tools/kbabel)).
kbabel in Aktion
In Abbildung 4 sehen wir, dass die französische Übersetzung der Datei zitiert ist. Zwei Beiträge stechen in KBabel hervor: der Katalogmanager und die Möglichkeit, Wörterbücher zu verwenden, seien es Hilfs-.po-Dateien (als lazitierte französische Übersetzung) oder Compendia PO ( http://i18n.kde.org/translation_archive/kde-i18n-en. tar .bz2 (http://i18n.kde.org/translation_archive/kde-i18n-en.tar.bz2) enthält den Satz der Übersetzungen des spanischen Teams).
Anmerkungen1. http://kde.kde.org/.
2. http://i18n.kde.org/.
3. Es ist unter http://i18n.kde.org/translation-howto/index.html (http://i18n.kde.org/translation-howto/index.html) zu finden.
25
Kapitel 6. Gnome und gtranslator
Die Dokumentation zu unserem Thema des Gnome-Projekts unter der Leitung des Mexikaners Miguel de Icaza finden Sie unter http://www.gtranslator.org/leftern_index.html (http://www.gtranslator.org/leftern_index.html).
Das Projekttool ist gtranslator1, das ursprünglich von Fatih Demir (kabalak) und GediminasPaulauskas entwickelt wurde und in letzter Zeit viel Aufschwung erlebt hat.
6.1. Wie funktioniert das
Abbildung 5 zeigt uns das Aussehen des Programms.
gtranslator funktioniert
Anmerkungen1. http://www.gtranslator.org (http://www.gtranslator.org).
26
III. Wörterbücher
Kapitel 7. Wörterbücher für Menschen
Es stehen mehrere durchsuchbare Online-Wörterbücher1 und mehrere Abfrageschnittstellen zur Verfügung. Wir konzentrieren uns auf einige davon, die kostenlos heruntergeladen werden können.2
7.1. Der ORCA-Thesaurus
Das Ziel dieses Glossars3 besteht nicht darin, die Bedeutung der im Englischen verwendeten Computerbegriffe zu erklären, sondern eine Liste mit Vorschlägen für deren Übersetzung ins Spanische für diejenigen bereitzustellen, die bereits über ausreichende Kenntnisse der Informatik auf Englisch verfügen.
Die Hauptquelle für dieses Glossar ist die spanischsprachige Community, die freie Software entwickelt und verwendet und über ihre Webschnittstelle http://quark.fe.up.pt/orca(http:/ /quark) direkt an der Bearbeitung des Glossars beteiligt ist. fe.up.pt/orca) oder indirekt durch ihre Diskussionen auf Mailinglisten zu diesem Thema. Unterscheiden Sie zwischen „Mitwirkenden“ und „Herausgeber“: Ein Mitarbeiter kann nicht löschen, was bereits von anderen geschrieben wurde, Sie können jedoch Kommentare schreiben; Der Herausgeber liest dann diese Kommentare und ändert die Definition entsprechend. Versionsnummern, die auf .0 enden, bedeuten, dass das Glossar gerade vom Herausgeber überarbeitet wurde; ist die letzte Zahl nicht Null, gibt sie die Anzahl der Beiträge an, die seit der letzten Überarbeitung eingegeben wurden.
Zum Beispiel eine Schaltfläche; Wir haben „Treiber“ in Version 2.0.178 vom 16. März 2002 abgefragt. Dies ist die Ausgabe:
Treiber
Controller, Fahrer, Manager, Fahrervideo
In der Diktatausgabe haben wir ein weiteres Beispiel einer ORCA-Abfrage mit einem Kommentar eines Mitarbeiters.
7.2. ATI-Glossar
Dies ist das „Glossar“ der Association of Computer Technicians.4
Nehmen Sie zum Beispiel den Eintrag „FSF“ in der HTML 4.0-Version (Juli 2001) der vierten Ausgabe (Mai 2001):
FSF Ver: „Free Software Foundation“
Wir folgen dem Link
Free Software Foundation – FSF (Fundación para
Gratis Software)
28
Kapitel 7. Wörterbücher für Menschen
North American Foundation wurde 1996 von Richard gegründet
M. Stallman, dessen Ziel es ist, die Entwicklung voranzutreiben
und die Nutzung freier Software in allen Bereichen der
Computer. Siehe auch: „Freie Software“.
[Quelle: RFCALVO].
Jaime Villate erinnert mich daran, dass dieser Eintrag einen offensichtlichen Fehler enthält; Die FSF wurde nicht 1996, sondern 1985 gegründet.
7.3. Das DICT-Protokoll
Die DICT Development Group versucht, ein Problem zu lösen: Wie kann der Zugriff auf die zahlreichen verfügbaren Wörterbücher standardisiert werden?
RFC 2229 beschreibt das DICT-Protokoll als ein Abfrage-/Antwortprotokoll über TCP, das einem Client den Zugriff auf ein Definitionswörterbuch mithilfe einer Reihe von Wörterbuchdatenbanken für natürliche Sprachen ermöglicht.
Die Entwicklungsgruppe hat ihre Seite unter http://www.dict.org. Die Server und Clients sind kostenlos (GPL-Lizenz). Es gibt Wörterbücher und Thesaurus, die lokal installiert werden können. Die von mir verwendete Distribution, GNUDebian Woody, enthält die folgenden Wörterbücher, die für unser Fachgebiet von Interesse sind:
dict-gcide
die GNU-Version des Collaborative International Dictionary of English, die auf dem Revised Unabridged Dictionary von Webster (G & C. Merriam Co., 1913, herausgegeben von Noah Porter) basiert und durch viele Definitionen aus WordNet, dem Century Dictionary, 1906, ergänzt wird. und durch zahlreiche Definitionen, die von Freiwilligen beigesteuert wurden.
dict-wn
WordNet 1.7, eine lexikalische Datenbank für Englisch vom Cognitive Science Laboratory der Princeton University. WordNet definiert nur Substantive, Verben, Adjektive und Adverbien. Andere Wortarten wie Pronomen und Artikel werden weggelassen. Die Definitionen in diesem Wörterbuch sind prägnanter als im Webster von 1913. Dies ist eine Ausgabe von 2001 und füllt daher viele der Lücken, die letzteres hinterlassen hat.
dict-foldocdict-jargon
das Free Online Dictionary of Computing und die Hacker’s Jargon-Datei. Es gibt viele Überschneidungen zwischen der Jargon-Datei und dem FOLDOC. Obwohl das FOLDOC viel größer ist als die Jargon-Datei, gibt es in der Jargon-Datei zahlreiche Einträge, die in FOLDOC nicht zu finden sind.
dict-vera
ein Wörterbuch mit Akronymen, die im Computerbereich verwendet werden.
i2e
Englisch-Spanisch-Wörterbuch von Alfredo Casademunt, wiederum basierend auf der Arbeit von José Luis Triviño.
29
Kapitel 7. Wörterbücher für Menschen
Außerdem habe ich hinzugefügt
Das Orca-Glossar
in seiner .dict-Version
eins-spaspa-eins
heruntergeladen von http://www.freedict.d (http://www.freedict.de)
leo_ftp
Englisch-Deutsches Wörterbuch ( ftp://ftp.leo.org/pub/comp/doc/dict/ (ftp://ftp.leo.org/pub/comp/doc/dict/))
Ein Beispiel zeigt uns die Verwendung:
[My_machine]$ dict-Schriftart
gibt die folgende Ausgabe
8 Definitionen gefunden
Aus WordNet (r) 1.7 [wn]:
Schriftart
n 1: eine bestimmte Größe und ein bestimmter Schriftstil innerhalb einer Schrift
Familie [syn: {fount}, {typeface}, {face}]
2: Schale für Taufwasser
[syn: {Taufbecken}, {Taufbecken},
{Baptisterium}]
Aus dem Collaborative International Dictionary of English
[gcide]:
Schriftart \Font\, n. [F. Fonte, fr. Fondre zum Schmelzen oder Gießen. Sehen
{Gefunden} zum Wirken, und vgl. {Font} eine Schriftart.] (Drucken.)
Ein komplettes Sortiment an Drucktypen in einer Größe,
einschließlich eines angemessenen Anteils aller Buchstaben in der
Alphabet, groß und klein, Punkte, Akzente und was auch immer
Zum Drucken mit dieser Typenvielfalt ist etwas anderes erforderlich.
eine Quelle.
[1913 Webster]
Aus dem Collaborative International Dictionary of English
[gcide]:
Schriftart \Font\, n. [ALS. Schriftart, Fächer, fr. L. fons, Fontis, Frühling,
Brunnen; vgl. VON. Schriftart, funt, F. Schriftarten, Schriftarten baptismaux,
pl. Siehe {Fount}.]
1. Ein Brunnen; eine Feder; eine Quelle.
[1913 Webster]
Für immer in der Quelle der Glückseligkeit baden. --Jung.
[1913 Webster]
30
Kapitel 7. Wörterbücher für Menschen
2. Ein Becken oder Steingefäß, in dem Wasser enthalten ist
taufen.
[1913 Webster]
Dieser Name wurde mir bei der Schriftart gegeben. --Shak.
[1913 Webster]
Aus dem kostenlosen Online-Wörterbuch der Informatik (09. Februar 2002)
[foldoc]:
Schriftart
Eine Reihe von {Glyphen} ({Bilder}), die das darstellen
{Zeichen} aus einem bestimmten {Zeichensatz} in a
bestimmte Größe und {Schriftart}. Das Bild jedes Charakters
kann entweder als {Bitmap} (in einer {Bitmap-Schriftart}) oder codiert werden
durch eine übergeordnete Beschreibung in Form von Linien und Flächen
(eine {Outline-Schriftart}).
Es gibt verschiedene Computerdarstellungen dafür
Die bekanntesten Schriftarten sind die von {Adobe Systems, Inc.}
{PostScript}-Schriftartdefinitionen und {TrueType} von {Apple}.
{Windows-Systeme} können verschiedene Schriftarten auf dem Bildschirm anzeigen
und drucken Sie sie aus.
[Andere Schriftarten?]
(27.04.2001)
Von i2e [i2e]:
Schriftart: Art (des Buchstabens)
Von i2e [i2e]:
Schriftart: fuente
Von ORCA – Englisch-Spanisch Computer-Glossar
[Glossar]:
Schriftart
Schriftart, Art des Buchstabens (BUCHSTABENART, Quelle, auf Spanisch,
es hat mit Wasser zu tun, nicht mit Typografie)
Aus der LEO-FTP-Sammlung [leo_ftp]:
Schriftart
Schrift
Schriftart
31
Kapitel 7. Wörterbücher für Menschen
7.4. Wörterbücher. Hinweise zum Fortfahren
* [Alle. Dino-Projekt (http://boadicea.rediris.es/Dino/), von José Manuel Macías Luna <[emailprotected]>]
* [Machen. WorldWideLexicon (http://picto.weblogger.com/)]
* [Alle. Ismael Olea <[emailprotected]> erinnert mich an rl-dicc (http://cvs.hispalinux.es/cgi-bin/cvsweb/rl-dicc): «Das weiß ich
Es ist noch nicht vollständig veröffentlicht, aber es ist nur noch ein Furunkel übrig und jemand, der es ihm geben kann. Und doch ist es immer noch eine Ressource
außerordentlich."]
Hinweise1. Es gibt einige weitere von besonderem Interesse, als wir untersuchen werden: Englisches und chinesisches Pydict; skk und
Edikt für Japanisch, Mueller für Englisch-Deutsch. . .
2. Es ist durchaus umstritten, ob das ATI-Glossar kostenlos ist. Nach den Regeln"
1. © 1994–2002 Rafael Fernandez Calvo
2. Der Autor genehmigt die Vervielfältigung und Verbreitung dieses Dokuments, sei es in Gänze oder in Teilen, mit allen Mitteln, wenn dies ohne Erwerbszweck durch gemeinnützige Organisationen erfolgt. Diese Organisationen können auch von ihren Websites aus auf dieses Glossar verlinken. Linkgeber können den Autor jedoch gerne benachrichtigen.
3. Sofern die unter 2. genannten Tätigkeiten von gemeinnützigen Organisationen oder von gemeinnützigen Organisationen mit Erwerbszweck durchgeführt werden, ist stets die vorherige schriftliche Genehmigung des Urhebers erforderlich.
4. In allen Fällen ist die vollständige Angabe der Quelle verpflichtend.
Laut Javier Fernández-Sanguino Peña, einem der Hauptentwickler des spanischen Debian-Teams, in Nachrichten <[emailprotected]> 24. Mai 2002 als Antwort auf eine Anfrage von mir
Es wurde keine Einigung mit dem Autor bezüglich der Bedingungen/Vertriebslizenz erzielt (. . . ) Ich weiß nicht, ob sich die Bedingungen geändert haben.
Im selben Thread und am selben Tag bestätigt Jaime Villate
Das Glossar von Rafael Fernández Calvo wurde nicht in das .dict-Format konvertiert und Sie können damit kein Debian-Paket erstellen, da es sich nicht um ein kostenloses Glossar handelt. Mein aktueller Plan besteht darin, ORCA zu einem Glossar und nicht zu einem Thesaurus zu machen, und es tauchen bereits einige Erklärungen auf.
3. ORCA-Projekt – Hilfetools für Übersetzer und Produzenten freier Software auf Spanisch (Programme und Dokumentation), http://quark.fe.up.pt/orca/index.es.html(http://quark.fe.up .pt/orca/index.es.html); Projektverantwortung von Jaime E. Villate gemäß den Bedingungen der GNU-Lizenz für freie Dokumentation. Es handelt sich tatsächlich um einen Thesaurus, wie Villate selbst in seinem Beitrag zur
4. http://www.ati.es/novatica/glointv2.txt (http://www.ati.es/novatica/glointv2.txt) oder http://www.ati.es/PUBLICACIONES/novatica/glointv2 . html(http://www.ati.es/PUBLICACIONES/novatica/glointv2.html), koordiniert von Rafael Fernández Calvo. Wir müssen uns an die Einwände erinnern, die die Welt der freien Software gegen ihre Lizenz erhebt.
32
Kapitel 8. Wörterbücher für Maschinen
8.1. Terminologiestandards
Interessante Liste von Standards zur Terminologie, in einem Beitrag von Kara Warburton im LISA-Terminologie- und Lokalisierungsdiskussionsforum, http://www.lisa.org/sigs/phpBB/viewtopic.php?topic=69&forum=1&1(http: // (www.lisa.org/sigs/phpBB/viewtopic.php?topic=69&forum=1&1) Da es keine Verschwendung gibt, paraphrasiere ich:
Hier ist eine Liste von Terminologiestandards, mit denen ich vertraut bin und die ich nützlich finde. Dies ist ein Ausgangspunkt für eine SIGlist. Bitte posten Sie als Antwort alle weiteren Antworten, die Sie nützlich finden.
1. TBX – TermBase eXchange-Format. Dies ist das XML-Terminologie-Markup-Format, das von der LISA/OSCAR-Standards-Gruppe als Standard für die Lokalisierungsbranche vorgeschlagen wurde. Weitere Informationen hier: http://www.lisa.org/tbx/(http://www.lisa.org/tbx/)
2. OLIF2 – Open Lexicon Interchange Format. Hierbei handelt es sich um ein Austauschformat speziell für maschinenlesbare lexikografische Daten, beispielsweise für maschinelle Übersetzungssysteme. OLIF-Daten können in TBX aufgezeichnet werden.
ISO TC 37-Standards
3. ISO DIS 16642:2002 -TMF – Terminology Markup Framework. Hierbei handelt es sich um ein Standard-Framework auf hoher Ebene zum Definieren einzelner TMLs (Terminologie-Markup-Sprachen). Es behandelt die grundlegende Struktur und Architektur von TMLs und Terminologiedatenbanken.
4. ISO 12620:1999 (in Überarbeitung) – Terminologie-Datenkategorien. Diese Norm wird in zwei Teile überarbeitet. Der erste Teil beschreibt eine generische Standardmethode zum Definieren von Datenkategorien für Terminologiesammlungen (welche Standardeigenschaften sie haben sollten usw.). Der zweite Teil ist eine Bestandsaufnahme aller möglichen Arten von Datenkategorien in der Lexikologie und Terminologie (Begriff, Wortart, Definition, Kontext, Varianten usw. usw.). Dieser Teil ist als Katalog zum Auswählen von Datenkategorien für Ihre eigene Terminologiedatenbank sehr nützlich.
5. ISO 12200:1999 – MARTIF – Wenn Sie sich immer noch für SGML interessieren, ist dies ein gut etabliertes Standard-Markup-Format. MARTIF ist die Basis für TBX und wird auch von einer Reihe von Terminologie-Tools unterstützt. MARTIF wird als Anhang in die endgültige Version von ISO 16642 integriert.
6. ISO 17241 – Geneter. Ein weiteres Standard-SGML-Format für Terminologie, das von einigen Datenbanken in Europa verwendet wird. GENETER wird als Anhang in die endgültige Version von ISO 16642 integriert.
7. ISO 704:2000 – Terminologiearbeit – Prinzipien und Methoden. Bietet alle möglichen nützlichen Informationen zu Methoden der Terminologierecherche und zum Schreiben von Definitionen sowie zu anderen prozessorientierten Aufgaben.
8. ISO 12616 – Übersetzungsorientierte Terminographie. Bietet nützliche Richtlinien für die Terminologiearbeit, insbesondere zur Unterstützung des Übersetzungsprozesses.
9. ISO 1087-1 und 1087-2 – Terminologiearbeit – Wortschatz. Diese enthalten im Wesentlichen Definitionen von Standardbegriffen der Terminologie. Ein nützlicher Bezugspunkt für die SIG.
Problem
Wie erreicht man die teuren ISO-Normen des Technischen Komitees 37, die in diesem Bereich unerlässlich sind?
33
Kapitel 8. Wörterbücher für Maschinen
8.2. Standardisierung von Computerlexika: OLIF2
«OLIF», das «Open Lexicon Interchange Format» 1
ist ein benutzerfreundliches Mittel zum Austausch terminologischer und lexikalischer Daten.
Was ist das Besondere an OLIF?
OLIF ist XML-kompatibel und bietet Unterstützung für Systeme zur Verarbeitung natürlicher Sprache (NLP), wie z. B. maschinelle Übersetzung, indem es ein breites und detailliertes Spektrum sprachlicher Merkmale abdeckt.
Anmerkungen1. http://www.olif.net/ (http://www.olif.net/).
34
IV. Erinnerungen an die Übersetzung
Kapitel 9. Standardisierung von Übersetzungsspeichern: TMX
http://www.lisa.org/tmx/ (http://www.lisa.org/tmx/)
«TMX» steht für Translation Memory eXchange. Für die Definition von „OSCAR“ (Open Standards for Container/Content Allowing Re-use) ist die LISA Special Interest Group verantwortlich.
Der Zweck von TMX besteht darin, einen einfacheren Austausch von Translation-Memory-Daten zwischen Tools und/oder Übersetzungsanbietern zu ermöglichen, ohne dass kritische Daten während des Prozesses verloren gehen.
Sehr interessant, auf Spanisch: „Ein Leitfaden zu TMX. Von der automatischen Übersetzung zur unterstützten Übersetzung“, von Josu Gómez, von der DELi Group, Universität Deusto.
Gomez sagt1
„TMX“ ist eine Sprache, die den XML-Spezifikationen entspricht und deren Zweck darin besteht, einen Standard für den Austausch von Übersetzungsspeichern bereitzustellen. Wenn Sie mit einem Dienstprogramm arbeiten und anschließend mit einem anderen Dienstprogramm arbeiten und dabei das gesammelte TM beibehalten möchten, müssen Sie es lediglich in das TMX-Format exportieren und in das neue Dienstprogramm importieren. Dafür ist es notwendig, dass alle Dienstprogramme dieses Format unterstützen: Im Jahr 2001 kann man sagen, dass wir diese Situation bereits erreicht haben, da derzeit die wichtigsten Tools auf dem Markt den Import und Export von Speichern in TMX unterstützen, wenn auch nicht verschiedene Grade.
Anwendungen, die TMX implementieren
• Deja Vu – Rednerpult
• Eurolang-Optimierer – LANT
• Auslandsabteilung – Lionbridge
• King Memo – Wolfgang Abele
• Logos-Übersetzungskontrollzentrum – Logos Corp
• Multitrans – Multicorpora
• Okapi-Framework – OpenTag
• Prolyphisch – Prolyphisch
• ProMemoria 2.5 – Bridgeterm
• Sakhr Translator Workbench – Sakhr
• RC-WinTrans Software Localizer – schaudin.com
• SDLX 4.0 – SDL International
• Transit 3.0 – Star
• Schnecken 5 – Schnecken
• Trans Suite 2000 – Cypresoft
• Wordfast – Champollion & Partners
• WordFisher – Tibor Környei
36
Kapitel 9. Standardisierung von Übersetzungsspeichern: TMX
Anmerkungen1. http://sirio.deusto.es/abaitua/deli/xtrabi-e341.htm (http://sirio.deusto.es/abaitua/deli/xtrabi-e341.htm).
37
Kapitel 10. gtranslator
Laut den FAQ zu gtranslator1
„UMTF“ ist ein recht effektives Translation-Memory-Format, das derzeit von gtranslator verwendet wird.
Erklären Sie weiter die FAQ:
P: Was ist dieser Lernpuffer, von dem Sie so oft sprechen?
R: Der „Lernpuffer“ ist die gtranslator-spezifische Implementierung einer „Übersetzung“, um Übersetzern ihre Arbeit zu erleichtern, indem sie immer wieder auftauchende Nachrichten mit bereits gelernten und gespeicherten Übersetzungen übersetzen. Der Lernpuffer von gtranslator ist eine recht einfache, aber effektive Art von Übersetzungsspeicher im UMTF-XML-Format.
Nachdem Sie einige Ihrer bereits gut übersetzten PO-Dateien gelernt haben, können Sie einfach die automatischen Übersetzungsfunktionen von gtranslator verwenden, um eine gute automatische Übersetzung für bereits im Lernpuffer gespeicherte Nachrichten- und Übersetzungspaare durchzuführen. Ein Lernpuffer macht Ihr Leben als Übersetzer einfach viel einfacher, als wenn Sie einen ganz normal großen (effektiv 300+ KB) Lernpuffer aufgebaut hätten. gtranslator führt eine automatische Übersetzungsstufe von ca. 15 %.
P: Wird gtranslator erweiterte Übersetzungsspeicher unterstützen (in Formaten wie TMX/OpenTag)?
R: Sicherlich wird es das tun; Die Unterstützung von Übersetzungsspeichern ist eine der größten TODOs für zukünftige gtranslator-Releases. OpenTag-Unterstützung wird es sicherlich eines Tages geben, auch TMX, aber ich denke, die Reihenfolge könnte so sein, dass wir zuerst OpenTag und dann TMX integrieren würden – aber wir werden es tun.
Wir können diesen Punkt mit einem Verweis auf die Listendatei< aktualisieren[emailprotected]>, Thread „gtranslator, learn buffer etc.“, der am 16. Januar 2003 beginnt (und der ein privates Gespräch zwischen Kabalak, Ismael Olea und Juan Rafael Fernández fortsetzt). Er kann unter https://listas.hispalinux.es eingesehen werden /pipermail/lucas-desarrollo/2003-January/000256.html(https://listas.hispalinux.es/pipermail/lucas-desarrollo/2003-January/000256.html). Darin bittet Kabalak um Rat, welche TM-Formate implementiert werden sollen und ob dies nativ erfolgen soll oder nur die Möglichkeit besteht, die Standardformate zu importieren und zu exportieren. Wir haben mit Ihnen über die Notwendigkeit der Einführung offener Standards gesprochen, so wie die Industrie verstanden hat, dass sie notwendig sind. Die Schlussfolgerung von Kabalak ist folgende:
Ich denke, ich werde später einen UMTF-gestützten gtranslator programmieren, aber mit Unterstützung für Opentag und TMX, die auch irgendwie im Code von gtranslator enthalten sind (gute Nachrichten in diesem Bereich, da die TMX- und OpenTag-Felder „sehr einfach“ als XML-Dateien zu handhaben sind . . . )
Hinweis: Ismael Olea hat unter http://www.olea.org/gtranslator-en/ (http://www.olea.org/gtranslator-en/) einen mit gtranslator erstellten spanischen Übersetzungsspeicher mit den aktuellen Übersetzungen veröffentlicht des Gnome-Projekts».
Anmerkungen1. http://www.gtranslator.org/faq.html (http://www.gtranslator.org/faq.html).
38
Kapitel 11. Mimers Brunnen
Am 23. Februar 2002 gibt Veronica Loell auf der Liste < bekannt[emailprotected]>(Die Ankündigung finden Sie unter http://sourceforge.net/mailarchive/forum.php?thread_id=520105&forum_id=7939(http://sourceforge.net/mailarchive/forum.php?thread_id=520105&forum_id=7939)) Es ist Version 1.0 .0a (Pre-Alpha) von „Mimers brunn TM“ (der Brunnen von Mimer, Riese der nordischen Mythologie, Besitzer des Brunnens der Weisheit), im Rahmen des Projekts „Mimers brunn Translator tools“
Ich habe gerade ein sehr einfaches GUI-Translation Memory veröffentlicht. Bisher verfügt es nur über sehr einfache Suchfunktionen vom Typ Glob. Aber irgendwann wird es weitere Funktionen und auch APIs in verschiedenen Sprachen geben, um direkt mit dem TM zu kommunizieren. Das Format vor dem Import ist TMX 1.3. Es gibt eine Möglichkeit (PoToTMX), ein Verzeichnis mit Po-Dateien automatisch in das TMX-Format zu konvertieren und es dann natürlich in das TM zu importieren.
Die Projekt-URL lautet http://mimersbrunn.sourceforge.net/TM.html(http://mimersbrunn.sourceforge.net/TM.html). Ich befürchte, dass es seit der letzten Änderung seiner Website am 23. Februar 2002 etwas ins Stocken geraten ist.
39
V. Ein Schritt nach vorneIn diesem Teil des Dokuments wollten wir darüber sprechen, was wir nicht haben und was wir haben sollten, über die von der Industrie (und Institutionen!) entwickelten Standards und aktuelle Trends. Es ist gewachsen und unabhängig geworden; stellt nun meine vorgeschlagene Spezifikation von TLDP dar: http://es.tldp.org/epecificaciones/herramientas-linguisticas/herramientas-linguisticas/(http://es.tldp.org/especialaciones/herramientas-linguisticas/herramientas-linguisticas/).
Kapitel 12. Verschiedenes
• Aus unserer Sicht interessant (wenn auch etwas veraltet, stammt es aus dem Jahr 1996) TomazErjavecs Werk „Public Domain Generic Tools: An Overview“ ( http://citeseer.nj.nec.com/430552.html(http://citeseer .nj.nec.com/430552.html))
• Paais Text-Dienstprogramme: Eine Reihe von Dienstprogrammen bestehend aus Unix-Skripten und C-Programmen für Häufigkeitszählungen und lexikalischen Zusammenhalt. DeJ.J.Paijmans( http://pi0959.kub.nl:2080/Paai/Publiek(http://pi0959.kub.nl:2080/Paai/Publiek)). Letzte Ergänzungen: 23. Dezember 2000.
• Tee (ein KWIC-Tool – KeyWord In Context), de Masao Utiyama[emailprotected](Anstand:[emailprotected]), letzte Maiversion 2002( http://www2.crl.go.jp/jt/a132/members/mutiyama/software.html(http://www2.crl.go.jp/jt/a132/members /mutiyama/software.html)) Es zeigt Schlüsselwörter zusammen mit ihren Kontexten an. Mit Tea können Sie: mehrere Textdateien durchsuchen, Suchbegriffe in einer Baumstruktur auflisten, abgerufene Kontexte auf verschiedene Arten sortieren usw.
• textseg ( http://www2.crl.go.jp/jt/a132/members/mutiyama/software.html(http://www2.crl.go.jp/jt/a132/members/mutiyama/software.html ))
• openNLP (http://opennlp.sourceforge.net/ (http://opennlp.sourceforge.net/))
• GATE (Allgemeine Architektur für Text Engineering, http://gate.ac.uk/)
41
Anhang A. Kleines Glossar mit Akronymen
KATZE
Computergestützte Übersetzung
CES
Korpus-Kodierungsstandard
CL
Computerlinguistik
DXLT
Standard-XLT. Ver TBX
EAD
Verschlüsselte Archivbeschreibungen
EAFT
Europäische Vereinigung für Terminologie
ADLER
Expertenberatergruppe für Sprachtechnikstandards
EBMT
Beispielbasierte maschinelle Übersetzung
KOCHEN
Europäische Agentur für den Vertrieb von Sprachressourcen
ELRA
Europäische Vereinigung für Sprachressourcen
ETHISCH
Europäischer Terminologieinformationsserver
HLT
Menschliche Sprachtechnologie
INSEL
Internationale Standards für Sprachtechnik
JULA
Universitätsinstitut für Angewandte Linguistik
KWIC
Schlüsselwort im Kontext
42
Anhang A. Kleines Glossar mit Akronymen
LISA
Verband der Lokalisierungsindustriestandards
MARTIV
Maschinenlesbares Terminologieaustauschformat
SICH PAAREN
Mehrstufige Annotation, Tools Engineering, Telematikprojekt
MLIS
Mehrsprachige Informationsgesellschaft
MRD
Maschinenlesbares Wörterbuch
MT
Maschinenübersetzung
MULTEXT
Mehrsprachige Textwerkzeuge und Korpora
NIMM
Natürliche Interaktion und Multimodalität
NLP
Verarbeitung natürlicher Sprache
OLIF
Öffnen Sie das Lexikon-Austauschformat
OSKAR
Offene Standards für Container/Inhalte, die eine Wiederverwendung ermöglichen
PAROLE
Vorbereitende Maßnahme für die Linguistic Resources Organization for Language Engineering
POS
Teil der Rede
SALZ
Standardbasierter Zugriffsdienst auf mehrsprachige Lexika und Terminologien
SLDS
Dialogsystem für gesprochene Sprache
SRX
Segmentierungsregeln-Exchange-Format
43
Anhang A. Kleines Glossar mit Akronymen
TBX
TermBase eXchange (manchmal auch DXLT genannt)
TEI
Initiative zur Textkodierung
TLDP
Das Libre (antes Linux) Dokumentarfilmprojekt
TM
Übersetzungsgedächtnis
TMF
Terminologisches Markup-Framework
TMS
Terminologieverwaltungssystem
TMX
Translation-Memory-Austausch
XLIFF
XML Localization Interchange-Dateiformat
XLT
XML-Darstellung von Lexika und Terminologien (Version DXLT und TBX)
44
FAQs
Wie kann ich ein Schriftstück übersetzen? ›
- Öffnen Sie auf dem Computer ein Dokument in Google Docs.
- Klicken Sie im Menü oben auf Tools. ...
- Geben Sie einen Namen für das übersetzte Dokument ein und wählen Sie eine Sprache aus.
- Klicken Sie auf Übersetzen.
- Daraufhin wird in einem neuen Fenster eine übersetzte Version des Dokuments geöffnet.
PDF steht für „Portable Document Format“, was auf Deutsch „transportables Dateiformat“ bedeutet. Entwickelt wurde das PDF-Format von der Firma Adobe bereits im Jahr 1993.
Kann Deepl auch PDF übersetzen? ›Ja. Sie können PDF-Dateien mit nur wenigen Klicks in Echtzeit übersetzen und dabei alle Formatierungen samt Bildern erhalten. Die Anzahl der pro Monat verfügbaren Dokumentübersetzungen hängt von Ihrem Abonnement ab.