Page tree

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 6 Current »

Versionierung

Aktuelle Version von translate57.27.0
Changelogs nachgeführt bis Version7.25.0

Version Published Changed By Comment
CURRENT (v. 6) Aug 14, 2025 14:14
v. 6 Jul 22, 2025 16:13
v. 5 Jul 22, 2025 16:11

Go to Page History

Wozu wird das ChatGPT-Plug-in verwendet?

Das Plug-in ermöglicht Ihnen, innerhalb translate5 Sprachressourcen zu erstellen, zu trainieren und zu verwenden, die auf Large Language Models (LLM) basieren. Es kann also aus verschiedenen, teilweise trainierbaren GPT-Modellen ausgewählt werden, die als Grundlage für eine Sprachressource dienen. Danach können diese LLM-Sprachressourcen bei Bedarf mit Prompts und auch Übersetzungsbeispielen trainiert werden. Zusätzlich können je LLM-Sprachressource über die Parameter „Temperature“, Top‑p, Presence und Frequency feingetunt werden.


Bereiche und Übersichten

In translate5 gibt es folgende Bereiche, die für die Verwaltung von GPT-Modellen relevant sind:

  • Die Sprachressourcenverwaltung:
    Hier werden auf GPT-Modellen basierende Sprachressourcen erstellt.
  • Das Fenster „OpenAI Model anpassen“: 
    Wird in der Sprachressourcenverwaltung aufgerufen und bietet die Möglichkeit, das Modell anhand verschiedener Parameter feinzutunen.
  • Das Fenster „OpenAI Model trainieren“:
    Wird in der Sprachressourcenverwaltung aufgerufen und bietet die Möglichkeit, das Modell mit Prompts und Translation Memorys zu testen und zu trainieren.
  • In der Einstellungen unter „Promptverwaltung“:
    Hier werden Prompts erfasst, die als Anweisungen verwendet werden können, wenn mit GPT-Modellen vorübersetzt wird.

Erstellung, Feintuning und Training von GPT-basierten Sprachressourcen sowie die Promptverwaltung stehen auch Projektmanagern zur Verfügung.

Verfügbare Engines/Modelle

OpenAI

Die verfügbaren Modelle werden laufend von OpenAI abgefragt und entsprechen daher dem, was dort jeweils aktuell verfügbar ist.

Azure

Hier sind diejenigen Modelle verfügbar, die Sie in Ihrer AzureCloud verfügbar haben.


GPT-Sprachressource erstellen

Eine Sprachressource, die auf einem GPT-Modell basiert, wird wie jede andere Sprachressource auch über die Sprachressourcenverwaltung erstellt:

  1. Auf den -Button klicken, damit sich das Fenster „Sprachressource hinzufügen“ öffnet.
  2. Unter „Ressource“ die Option „ChatGPT (OpenAI / Azure)“ wählen.
  3. Unter „Engine/Model“ das gewünschte Modell auswählen.
    Die zuoberst in der Liste erscheinenden Modelle sind trainierbar, was auch in der Bezeichnung entsprechend angegeben ist.
  4. Unter „Name“ einen aussagekräftigen Namen eintragen.
  5. Über die Felder „Quellsprache“ und „Zielsprache“ die Sprachkombination festlegen, für welche die Sprachressource erstellt werden soll.
  6. Unter „Für diesen Kunden nutzen“ diejenigen Kunden auswählen, für die die Sprachressource eingesetzt werden soll.
  7. Unter „Leserechte standardmäßig“ diejenigen Kunden auswählen, zu deren Projekte die Sprachressource standardmäßig mit Leserechten hinzugefügt werden soll.
  8. Bei Bedarf unter „Standardmäßig als Pivot verwenden“ diejenigen Kunden auswählen, für deren Projekte die Sprachressource in Projekten mit Pivot-Sprache verwendet werden soll.
  9. Unter „Farbe“ diejenige Farbe auswählen, mit der Matches aus dieser Sprachressource im Matches- und Konkordanzpanel eingefärbt werden sollen.
  10. Über den „Speichern“-Button bestätigen.

Die Sprachressource wird erstellt und ist gleich danach in der Sprachressourcenverwaltung sichtbar.

Tippen Sie direkt in Dropdown-Fenster, um den gewünschten Wert schneller zu finden. Für Sprachen können Sie beispielsweise direkt den ISO-Code eintippen: „de-de“ findet direkt „Deutsch (Deutschland) (de-DE)“.


GPT-Sprachressource verwalten

Für GPT-Sprachressourcen gibt es folgende Optionen in der Sprachressourcenverwaltung:

ButtonErläuterung

Öffnet das Fenster „Sprachressource bearbeiten“, allerdings sind die Grundeinstellungen nicht mehr bearbeitbar. Es können aber Kunden ergänzt/entfernt werden, für die die Sprachressource:

  • verwendet werden soll;
  • standardmäßig mit Leserechten verwendet werden soll;
  • als Pivot-Ressource verwendet werden soll.

Löscht die Sprachressource. Die Löschung muss über ein sich öffnendes Fenster definitiv bestätigt werden.

Öffnet das Fenster „OpenAI Model anpassen“, über welches diverse Parameter für das Feintuning der GPT-Sprachressource gesteuert werden können.

Öffnet das Fenster „OpenAI Model trainieren“, über welches die GPT-Ressource, über welches es mit Prompts trainiert und getestet werden kann.

GPT-Sprachressource feintunen

Im Fenster „OpenAI Model anpassen“ können trainierbare wie auch untrainierbare GPT-Ressourcen über folgende Parameter feingetunt werden:

  • Use fine-tuning default system-message when translating with a trained model:
    • Ist das Häkchen gesetzt, wird damit festgelegt, dass der Standard-Prompt (der oberste im Trainingsfenster) als Anweisung verwendet werden soll, wenn mit dem Modell vorübersetzt wird.
    • Ist kein Häkchen gesetzt, wird damit festgelegt, dass folgender Prompt als Anweisung verwendet werden soll, wenn mit dem Modell vorübersetzt wird: „Translate the following segments encapsulated in JSON Objects with the index and the segment as properties from [Quellsprache] as source language to [Zielsprache] as target language using all segments as context for each other“.
  • Use all trained system messages when translating with a trained model:
    • Ist das Häkchen gesetzt, wird damit festgelegt, dass die benutzerspezifischen Prompts als Anweisung verwendet werden sollen, wenn mit dem Modell vorübersetzt wird. Diese können im Fenster „OpenAI Model trainieren“ ausgewählt werden.
  • Generation Sensitivity / Temperature: Werte von 0 bis 2, mit bis zu zwei Dezimalstellen abgestuft.
  • Probability Threshold / Top P: Werte von 0 bis 1, mit bis zu zwei Dezimalstellen abgestuft.
  • Presence Penalty: Werte von 0 bis 2, mit bis zu zwei Dezimalstellen abgestuft.
  • Frequence Penalty: Werte von 0 bis 2, mit bis zu zwei Dezimalstellen abgestuft.
  • Max. target tokens (% of source tokens): Ein GPT-Modell kann immer nur eine begrenzte Anzahl an Tokens verarbeiten. Diese maximale Tokenanzahl umfasst sowohl die gesendeten als auch die zurückgesendeten Tokens. Bei einer (Vor-)Übersetzung zählen dazu die Systemnachricht(en), der zu übersetzende Text bzw. Batch sowie die zurückgelieferten Übersetzungen. Damit genügend „Platz“ für die zurückgesendeten Tokens bleibt, muss ein entsprechendes Verhältnis eingehalten werden. Diese Einstellung ist nur bei Batch-Übersetzungen relevant, wie sie im Rahmen der Vorübersetzung verwendet werden.

Ein Token ist eine kleinste Spracheinheit, die ein Sprachmodell wie GPT verarbeitet. Ein Token kann ein einzelnes Zeichen, ein Wort oder ein Wortbestandteil sein – je nach Sprache und Struktur des Textes. Zum Beispiel wird das Wort „Übersetzung“ in der Regel als ein Token gezählt, während ein langer oder zusammengesetzter Begriff mehrere Tokens umfassen kann. 

Parameter für das Feintuning

Wie kreativ soll übersetzt werden?

Generation sensitivity / Temperature

Dieser Parameter bestimmt, wie „zufällig“ oder „kreativ“ das Sprachmodell bei der Texterzeugung sein soll. Eine niedrige Temperature bedeutet dabei, dass das Modell eher sachlich, vorausschaubar übersetzt, eine höhere Temperatur, dass es sehr kreativ und damit auch unvorhersehbar übersetzen kann. 

Probability threshold / Top P

Der Parameter „Top P“ (auch als „nucleus sampling“ bezeichnet) ist eine nuancierte Alternative zur temperatur-basierten Probenahme. Er ist wie ein „Scheinwerfer“, der die wahrscheinlichen Wörter hervorhebt. Bei einem Standardwert von 1.0 werden alle Wörter berücksichtigt. Dieser Parameter kann dazu beitragen, die Verteilung der Wortwahl zu steuern und so die Relevanz und Kohärenz des generierten Textes zu gewährleisten.

Achtung: Bei einem sehr hohen Temperature-Wert kann ein Modell durchaus auch widersprüchlichen oder sinnlosen Inhalt generieren.

Es empfiehlt sich, entweder die Temperatur oder top P anzupassen, aber nicht beides.

Lesen Sie auch diese weiterführenden Informationen zu den beiden Parametern Temperature und Top P.

Wie abwechslungsreich soll übersetzt werden?

Presence Penalty

Dieser Parameter wird dazu verwendet, das Modell dazu anzuregen, eine breite Palette an Tokens in den generierten Text aufzunehmen. Es handelt sich um einen Wert, der von der Log-Wahrscheinlichkeit eines Tokens jedes Mal abgezogen wird, wenn dieser generiert wird. Ein höherer Presence Penalty-Wert führt dazu, dass das Modell eher dazu neigt, Tokens zu generieren, die noch nicht im generierten Text enthalten sind. 

Frequency Penalty

Dieser Parameter wird dazu verwendet, das Modell daran zu hindern, innerhalb des generierten Textes zu häufig dieselben Wörter oder Phrasen zu verwenden. Es handelt sich um einen Wert, der jedes Mal zur Log-Wahrscheinlichkeit eines Tokens hinzugefügt wird, wenn dieser im generierten Text auftritt. Ein höherer Frequency Penalty-Wert für führt dazu, dass das Modell bei der Verwendung wiederkehrender Tokens vorsichtiger vorgeht. 

Lesen Sie auch diese weiterführenden Informationen zu den beiden Parametern Presence Penalty und Frequency Penalty.

Max. target tokens (% of source tokens)

Ein GPT-Modell hat immer eine maximale Anzahl von Tokens, die in einer einzigen Anfrage verwendet werden können. Diese Anzahl berechnet sich als Summe der gesendeten Tokens und der zurückgegebenen Tokens. Für eine (Vor-)Übersetzung sind dies die Systemnachricht und der zu übersetzende Text oder Batch plus die zurückgegebenen Übersetzungen. Daher ist ein Verhältnis notwendig, um in einer gesendeten Anfrage „Platz“ für die generierte Übersetzung zu schaffen. Dies ist nur für Batch-Übersetzungen relevant, wie sie bei der Vorübersetzung verwendet werden.


Promptverwaltung

Versionierung

Aktuelle Version von translate57.27.0
Changelogs nachgeführt bis Version7.25.0

Version Published Changed By Comment
CURRENT (v. 5) Aug 14, 2025 14:12
v. 4 Aug 14, 2025 14:03
v. 3 Jul 13, 2025 15:04

Go to Page History

Promptsets erstellen und verwalten

translate5 hat für das Training von GPT-Sprachressourcen einen Standard-Prompt hinterlegt. Dieser lautet „You are a machine translation engine and translate single texts or multiple segments from [Quellsprache] as source language to [Zielsprache] as target language“.

Für spezifische Übersetzungsanforderungen können Sie in translate5 aber auch Ihre eigenen Prompts erfassen. Navigieren Sie dazu in den Einstellungen von translate5 zur Promptverwaltung.


Promptsetverwaltung

Die Verwaltung der Promptsets beinhaltet:

  1. ein Suchfeld, mit dem alle Prompts durchsucht werden können;
  2. den Button „Eine neue Eingabeaufforderung erstellen“;
  3. den Button „Aktualisieren“, um die Ansicht neu zu laden; und
  4. die Liste mit allen erfassten Prompts.

Promptliste

Die Promptliste zeigt alle in translate5 erfassten Promptsets. Sie beinhaltet folgende Spalten:

SpalteErläuterung
IdHier wird die Id der Promptsets angezeigt, sie wird automatisch vergeben und hochgezählt.
NameHier wird der Name der Promptsets angezeigt, der helfen soll, die Promptsets zu identifizieren.
AnmerkungIm Anmerkungsfeld können detailliertere Informationen zu den Promptsets erfasst werden.
SprachenHier sind die Quell- und Zielsprachenvariante(n) erfasst, für die die jeweiligen Promptsets erfasst wurde. Promptsets können für mehr als eine Sprachkombination erfasst werden.
SystemmeldungIn dieser Spalte wird der effektive Inhalt der Promptsets angezeigt.
ErstelltHier sind Datum sowie Uhrzeit eingetragen, damit der Zeitpunkt der Erfassung der jeweiligen Promptsets nachvollzogen werden kann.
Letzte ÄnderungHier sind Datum sowie Uhrzeit eingetragen, zu dem/der die letzte Änderung am jeweiligen Promptset stattgefunden hat.
Aktionen

In dieser Spalte gibt es folgende Buttons je Promptset:

Öffnet das Promptset zur Bearbeitung im Fenster „Promptset bearbeiten“.

Löscht das Promptset. Die Löschung muss in einem daraufhin erscheinenden Fenster bestätigt werden.

Metainformationen erfassen

Im oberen Bereich des „Promptset bearbeiten“-Fensters werden folgende Informationen je Prompt- und Beispielset vermerkt:

  1. Die ID für das jeweilige Set wird automatisch gesetzt und hochgezählt.
  2. Im Feld „Name“ tragen Sie eine Bezeichnung für das aktuelle Set ein.
  3. Im Feld „Anmerkung“ können Sie das Set etwas ausführlicher beschreiben.
  4. Mit dem „Speichern“-Button wird die aktuelle Eingabe der Metainformationen sowie der erfassten Prompts gespeichert.

Prompts erfassen

In diesem Fensterbereich werden die hinzugefügten Prompts aufgelistet.

  1. Um einen Prompt zu ergänzen, klicken Sie auf den „Nachricht hinzufügen“-Button, damit eine (weitere) rote Zeile erscheint.
  2. Klicken Sie in die Zeile „Hier neue Nachricht eingeben“ und fügen Sie den gewünschten Prompt ein.
  3. Über den „Zurücksetzen“-Button werden die seit dem letzten Speichern angebrachten Änderungen an den aktuell angezeigten Prompts rückgängig gemacht.
  4. Mit dem „Speichern“-Button oberhalb wird die aktuelle Eingabe der Metainformationen sowie der erfassten Prompts gespeichert.

Beispielsets erfassen

Im unteren Fensterbereich können nun Sets mit einem oder mehreren Übersetzungsbeispielen erfasst werden, die zeigen, was als Ergebnis erwartet wird. Die Beispiele können für verschiedene Sprachkombinationen festgelegt werden.

  1. Um ein neues Beispielsatzpaar anzulegen, klicken Sie auf „Beispielset hinzufügen“.
  2. Das Fenster „Beispielset erstellen für“ öffnet sich, in dem die Sprachkombination angegeben wird, für die das Beispielset gelten soll. Bestätigen Sie danach über „OK“.
  3. Um ein Beispielset zu eröffnen, klicken Sie auf „Beispiel einfügen“.
  4. Dann erscheint eine orange Linie für die Eingabe des Quellsatzes und eine gelbe Linie für die Eingabe des Zielsatzes des Übersetzungsbeispiels.
  5. Durch Klick auf das Kreuz können einzelne Beispiele wieder entfernt werden.
  6. Die eingefügten Beispiele werden durch Klick auf den „Speichern“-Button gespeichert.
  7. Über den „Zurücksetzen“-Button werden die seit dem letzten Speichern angebrachten Änderungen an den aktuell angezeigten Beispielen rückgängig gemacht.
  8. Über den „Quellen pushen“-Button können die Ausgangssätze des aktuell angewählten Beispielsets in alle passenden anderen Beispielsets übertragen werden. „Passend“ meint dabei alle Beispielsets, deren Quellsprache mit derjenigen des aktuellen Beispielsets übereinstimmen. Die Variante der Quellsprache wird dabei ignoriert, d. h., dass aus einem Beispielset mit Quellsprache Deutsch (Deutschland) die Ausgangssätze auch in Beispielsets mit der Quellsprache Deutsch (Schweiz) oder Deutsch ohne Variante übertragen werden. Danach können in den anderen Beispielsets, in die die Ausgangssätze übertragen wurden, die für das jeweilige Beispielset spezifischen Zielsätze ergänzt werden.

Tippen Sie direkt in Dropdown-Fenster, um den gewünschten Wert schneller zu finden. Für Sprachen können Sie beispielsweise direkt den ISO-Code eintippen: „de-de“ findet direkt „Deutsch (Deutschland) (de-DE)“.

Bei der Aktion „Quellen pushen“ werden diese nur dann auch in andere Sprachkombinationen übertragen, wenn es dort nicht auch schon Quellsegmente mit einem Ähnlichkeitswert von 4 oder mehr gibt. Auf diese Weise soll verhindert werden, dass Dubletten erfasst werde.


Meldungen zu Beispielsets

Die in dieser Zeile erscheinenden Rechtecke fungieren als Buttons, mit denen zwischen den Beispielsets für die verschiedenen Sprachkombinationen wechseln kann.

Gleichzeitig zeigen Sie über die eingefärbten linken oberen und/oder unteren Ecken an, ob es im jeweiligen Beispielset ungespeicherte Änderungen (obere linke Ecke eingefärbt) oder aber leere Ausgangs- und/oder Zielsprachsegmente gibt (untere linke Ecke ist eingefärbt).

Fährt man mit der Maus über einen Sprachkombination-Button, erscheint ein Textfeld mit den entsprechenden Informationen sowie die Angabe, wie viele Beispiele das jeweilige Set enthält.

Die Anzahl Beispiele ist ebenfalls direkt in der Beschriftung der Sprachkombination-Buttons angegeben.

Die Reihenfolge, in der die Beispielsets je Sprachkombination aufgelistet werden, entspricht derjenigen, in der sie erstellt wurden.

Tastenkombinationen

TastenkombinationErläuterung
STRG + ALT + SSpeichert das Promptset mit den aktuell erfassten Prompts.
STRG + ENTERFügt je nachdem, auf welchen Bereich mit der Maus geklickt wurde, ein neues Feld für einen Prompt oder neue Felder für einen Beispielsatz mit Übersetzung ein.
STRG + ALT + NFügt ein neues Feld für einen Prompt ein.
ALT + NFügt neue Felder für einen Beispielsatz mit Übersetzung ein.
STRG + UP (Hoch-Pfeiltaste)Wechselt je nachdem, auf welchen Bereich mit der Maus geklickt wurde, zum jeweils obenstehenden Prompt oder zum jeweils obenstehenden Beispielsatz.
STRG + DOWN (Runter-Pfeiltaste)Wechselt je nachdem, auf welchen Bereich mit der Maus geklickt wurde, zum jeweils untenstehenden Prompt oder zum jeweils untenstehenden Beispielsatz.
STRG + QBeendet die Bearbeitung des aktuellen Prompts oder des aktuellen Beispielsatzes.
ALT + CMacht die seit dem letzten Speichern angebrachten Änderungen an den aktuell angezeigten Beispielsätzen rückgängig.
ALT + SSpeichert die aktuell erfassten Beispielsätze.



GPT-Sprachressource trainieren

Nachdem eine GPT-Sprachressource angelegt wurde, kann sie mit Prompts, Beispielen und spezifischen Translation Memorys trainiert werden. Klicken Sie in der Sprachressourcenverwaltung auf der Zeile der GPT-Sprachressource, die Sie trainieren möchten, auf den -Button. Das Fenster „OpenAI Model trainieren“ öffnet sich. Es besteht aus folgenden Bereichen:

  1. Hier werden die Prompts sowie Beispielsätze angezeigt, die aus einem zuvor in der Promptverwaltung erstellten Promptset geladen werden können.
  2. Test-Panel, in dem ein Testtext eingetragen und dessen Übersetzung anhand der aktuellen Konfiguration getestet werden kann.
  3. Das TM-Panel, in dem eins oder mehrere Translation Memorys für das Training des Modells hinzugefügt werden können sowie ein Dropdown, in dem die Anzahl der Trainingsiterationen ausgewählt werden kann.

Promptset laden und anpassen

  1. Durch Klick auf „Einen vorkonfigurierten Prompt hinzufügen“ öffnet sich das Fenster „Einen vorkonfigurierten Prompt hinzufügen“. 
  2. Es listet alle in der Promptverwaltung angelegten Promptsets. Diese können durch Setzen des Häkchens in der Spalte „Hinzufügen“ ausgewählt werden.
  3. Die Auswahl wird über den „OK“-Button bestätigt, wodurch sich auch das Fenster wieder schließt.
  4. Die in den ausgewählten Promptsets enthaltenen Prompts und Beispiele werden nun im Fenster „OpenAI Model trainieren“ angezeigt und können bei Bedarf ergänzt, angepasst oder auch entfernt werden. Die Funktionen der Buttons entsprechen ihren Pendants in der Promptverwaltung.
  5. Im Test-Panel können Sie jetzt im oberen Fenster einen beliebigen Testtext eintragen. Durch Klick auf den „Übersetzen“-Button wird der Text anhand der aktuellen Konfiguration der ausgewählten Sprachressource in Kombination mit den hinzugefügten Prompts und Beispielsätzen übersetzt. Die Übersetzung des Testtexts wird im unteren Fenster ausgegeben.
  6. Im TM-Panel können zusätzlich eins oder mehrere Aufgaben- oder Haupt-Translation Memory für die (Vor-)Übersetzung ergänzt werden.
  7. Sind Sie mit der Art und Weise, wie der Testtext übersetzt wird, zufrieden, können Sie weiter unten im TM-Panel auswählen, mit welcher Epochen-Anzahl die Sprachressource anhand der vorliegenden Konfiguration trainiert werden kann und das Training über den „Training senden“-Button starten.


Es können eines oder mehrere vorkonfigurierte Promptsets hinzugefügt werden.

Da die Verwendung von Terminologie während des Trainings nicht zu guten Ergebnissen führt, können in translate5 dafür keine TermCollections hinzugefügt werden. Stattdessen empfehlen wir Ihnen, die gewünschten TermCollections wie gewohnt bei der Erstellung von Aufgaben hinzuzufügen, damit das LLM die Ressource dann beim Import für die Vorübersetzung berücksichtigen kann.

Erst das Training einer Sprachressource verursacht Kosten bei Ihrem KI-Anbieter, sprich ab dem Zeitpunkt, zu dem Sie auf den „Training senden“-Button klicken.

  • No labels