Was passiert mit einer auffälligen Nachricht?

Sie wird zurückgehalten, bevor sie das Modell erreicht oder gespeichert wird. Der Nutzer erhält stattdessen eine höfliche, markengerechte Absage.

Wie zuverlässig ist das Urteil?

Das Urteil ist kalibriert und wird vom Anbieter Mistral erstellt. Optional legen Sie einen eigenen Empfindlichkeits-Schwellenwert fest.

Ist die Moderation DSGVO-konform?

Ja. Kyros wird in der EU gehostet, und weil auffällige Nachrichten vor der Speicherung zurückgehalten werden, verlassen sie Ihre Grenze gar nicht erst.

Inhaltsmoderation

Prüfen Sie jede Nachricht, bevor sie das Modell erreicht.

Q: Gibt es weitere Kategorien?

Ja, per Opt-in: Gesundheits-, Finanz- und Rechtsberatung sowie Jailbreak-Versuche lassen sich zusätzlich aktivieren.

Die Moderation screent eingehende Nachrichten und hält Auffälliges zurück — noch vor dem Modell und vor der Speicherung — mit einer höflichen, markengerechten Absage.

Kostenlos starten So funktioniert’s

Was die Moderation prüft

Schutz, der greift, bevor es zu spät ist.

Sechs Kategorien vorab aktiv

PII, sexuelle Inhalte, Hass & Diskriminierung, Gewalt & Drohungen, gefährliche & kriminelle Inhalte sowie Selbstschädigung sind standardmäßig aktiv.

Opt-in-Kategorien

Gesundheits-, Finanz- und Rechtsberatung sowie Jailbreak-Versuche lassen sich zusätzlich aktivieren.

Zurückhaltung vor Modell & Speicher

Auffällige Nachrichten werden zurückgehalten, bevor sie das Modell erreichen oder gespeichert werden.

Höfliche, markengerechte Absage

Statt einer harten Fehlermeldung erhält der Nutzer eine höfliche, zu Ihrer Marke passende Absage.

Kalibriertes Urteil

Das Urteil ist kalibriert (Anbieter: Mistral) — mit optionalem, eigenem Empfindlichkeits-Schwellenwert.

Vor der Verarbeitung

Der Filter greift auf dem Weg hinein — nicht erst in der Antwort — und schützt so Modell, Speicher und Marke.

So richten Sie die Moderation ein.

Die sechs Standard-Kategorien sind ab Werk aktiv — nichts zu tun.
Opt-in-Kategorien wählen: Gesundheits-, Finanz-, Rechtsberatung und Jailbreak-Versuche.
Optional einen eigenen Empfindlichkeits-Schwellenwert für das kalibrierte Urteil setzen.
Absage-Text an Ihre Marke anpassen und live testen — Auffälliges wird vorab zurückgehalten.

Häufige Fragen

Sechs Kategorien sind ab Werk aktiv: PII, sexuelle Inhalte, Hass & Diskriminierung, Gewalt & Drohungen, gefährliche & kriminelle Inhalte sowie Selbstschädigung.

Passt dazu

Sicherheit

EU-Hosting, Verschlüsselung und Audit-Log.

DSGVO

AVV, TOMs und Auftragsverarbeitung.

Chat-Widget

Moderation greift in jedem einbettbaren Chat.

Preise

Transparente Credits, Starter dauerhaft gratis.

Bauen Sie einen Assistenten, dem Sie live vertrauen.

14 Tage kostenlos testen. Keine Kreditkarte. Deutsch & Englisch.

Kostenlos starten So funktioniert’s

Inhaltsmoderation

Prüfen Sie jede Nachricht, bevor sie das Modell erreicht.

Die Moderation screent eingehende Nachrichten und hält Auffälliges zurück — noch vor dem Modell und vor der Speicherung — mit einer höflichen, markengerechten Absage.

Kostenlos starten So funktioniert’s

Was die Moderation prüft

Schutz, der greift, bevor es zu spät ist.

Sechs Kategorien vorab aktiv

PII, sexuelle Inhalte, Hass & Diskriminierung, Gewalt & Drohungen, gefährliche & kriminelle Inhalte sowie Selbstschädigung sind standardmäßig aktiv.

Opt-in-Kategorien

Gesundheits-, Finanz- und Rechtsberatung sowie Jailbreak-Versuche lassen sich zusätzlich aktivieren.

Zurückhaltung vor Modell & Speicher

Auffällige Nachrichten werden zurückgehalten, bevor sie das Modell erreichen oder gespeichert werden.

Höfliche, markengerechte Absage

Statt einer harten Fehlermeldung erhält der Nutzer eine höfliche, zu Ihrer Marke passende Absage.

Kalibriertes Urteil

Das Urteil ist kalibriert (Anbieter: Mistral) — mit optionalem, eigenem Empfindlichkeits-Schwellenwert.

Vor der Verarbeitung

Der Filter greift auf dem Weg hinein — nicht erst in der Antwort — und schützt so Modell, Speicher und Marke.

So richten Sie die Moderation ein.

Die sechs Standard-Kategorien sind ab Werk aktiv — nichts zu tun.
Opt-in-Kategorien wählen: Gesundheits-, Finanz-, Rechtsberatung und Jailbreak-Versuche.
Optional einen eigenen Empfindlichkeits-Schwellenwert für das kalibrierte Urteil setzen.
Absage-Text an Ihre Marke anpassen und live testen — Auffälliges wird vorab zurückgehalten.

Häufige Fragen

Sechs Kategorien sind ab Werk aktiv: PII, sexuelle Inhalte, Hass & Diskriminierung, Gewalt & Drohungen, gefährliche & kriminelle Inhalte sowie Selbstschädigung.

Bauen Sie einen Assistenten, dem Sie live vertrauen.

14 Tage kostenlos testen. Keine Kreditkarte. Deutsch & Englisch.

Kostenlos starten So funktioniert’s