AI-säkerhet

Written by SWEO AI Team

Updated over 2 weeks ago

Skydd mot prompt injection

Prompt injection är ett angrepp där en användare försöker manipulera AI:n att ignorera sina instruktioner. SWEO AI skyddar mot detta i flera steg:

Input sanitization — Alla meddelanden saniteras innan de når LLM:en. Kända injection-patterns detekteras och blockeras.
System message isolation — Systeminstruktioner och kundinput hålls i separata delar av prompten med tydliga avgränsare.
Pre-policies — Policies i pre-läge kan filtrera bort misstänkt manipulation innan AI bearbetar meddelandet.
Output validation — Post-policies verifierar att AI-svaret inte avviker från godkänt beteende.

Innehållsfiltrering

Policies-systemet filtrerar AI-svar i realtid:

Policy-typSkyddar motExempeltopic_filterOönskade ämnenBlockera svar om konkurrenter, politik, personliga åsikterpii_filterPersonuppgiftsläckageFörhindra AI från att avslöja lagrad kunddata till obehörigatoneOlämplig tonalitetHålla AI professionell, förhindra sarkasm eller aggressivitetlengthFör långa/korta svarBegränsa svarlängd för SMS-kanalen

Skapa policies under Knowledge → Policies. Se Policies & Regler för detaljerad guide.

Confidence guardrails

Confidence-systemet fungerar som en säkerhetsspärr:

Confidence ≥ 0.8 — AI svarar direkt, hög säkerhet
Confidence 0.7–0.8 — AI svarar men markerar svaret som osäkert i metadata
Confidence < 0.7 — AI eskalerar till mänsklig agent istället för att gissa

Tröskelvärdet (0.7 default) konfigureras under Settings → AI Configuration. Höj till 0.85 för känsliga branscher (finans, sjukvård) eller sänk till 0.6 för mer generösa AI-svar.

Förebygga hallucination

RAG-arkitekturen (Retrieval-Augmented Generation) är det primära skyddet mot AI-hallucinationer:

Enbart kunskapsbas-baserade svar — AI:n instrueras att bara svara baserat på innehåll från din Knowledge Base, inte "higar på"
Citations — Varje AI-svar inkluderar källhänvisningar så att agenter och kunder kan verifiera informationen
Confidence scoring — Om vektorsökningen inte hittar relevanta dokument (låg cosine similarity) sjunker confidence och svaret eskaleras
Top-K begränsning — Enbart de 5 mest relevanta dokumentchunks används som kontext (top_k: 5), vilket minskar risken för irrelevant information

Audit trail

SWEO AI loggar alla AI-beslut för spårbarhet:

Varje AI-svar — Loggat med confidence, använda källor, triggade policies och eventuell procedure
Policy-blockering — Loggar när och varför en policy blockerade ett svar
Eskaleringar — Loggar anledning, confidence-nivå och eventuell auto-assign
Connector-anrop — Loggar externa API-anrop gjorda av Procedures (endpoint, status, response time)
Admin-ändringar — Loggar alla ändringar i knowledge, policies, procedures och settings med vem och när

Audit-loggar kan exporteras via Reports → CSAT Report eller via API.