Inhaltsmoderation
Prüfen Sie jede Nachricht, bevor sie das Modell erreicht.
Die Moderation screent eingehende Nachrichten und hält Auffälliges zurück — noch vor dem Modell und vor der Speicherung — mit einer höflichen, markengerechten Absage.
Was die Moderation prüft
Schutz, der greift, bevor es zu spät ist.
Sechs Kategorien vorab aktiv
PII, sexuelle Inhalte, Hass & Diskriminierung, Gewalt & Drohungen, gefährliche & kriminelle Inhalte sowie Selbstschädigung sind standardmäßig aktiv.
Opt-in-Kategorien
Gesundheits-, Finanz- und Rechtsberatung sowie Jailbreak-Versuche lassen sich zusätzlich aktivieren.
Zurückhaltung vor Modell & Speicher
Auffällige Nachrichten werden zurückgehalten, bevor sie das Modell erreichen oder gespeichert werden.
Höfliche, markengerechte Absage
Statt einer harten Fehlermeldung erhält der Nutzer eine höfliche, zu Ihrer Marke passende Absage.
Kalibriertes Urteil
Das Urteil ist kalibriert (Anbieter: Mistral) — mit optionalem, eigenem Empfindlichkeits-Schwellenwert.
Vor der Verarbeitung
Der Filter greift auf dem Weg hinein — nicht erst in der Antwort — und schützt so Modell, Speicher und Marke.
So richten Sie die Moderation ein.
- Die sechs Standard-Kategorien sind ab Werk aktiv — nichts zu tun.
- Opt-in-Kategorien wählen: Gesundheits-, Finanz-, Rechtsberatung und Jailbreak-Versuche.
- Optional einen eigenen Empfindlichkeits-Schwellenwert für das kalibrierte Urteil setzen.
- Absage-Text an Ihre Marke anpassen und live testen — Auffälliges wird vorab zurückgehalten.
Häufige Fragen
Bauen Sie einen Assistenten, dem Sie live vertrauen.
14 Tage kostenlos testen. Keine Kreditkarte. Deutsch & Englisch.