AI-säkerhet
Written by SWEO AI Team
Updated over 2 weeks ago
Skydd mot prompt injection
Prompt injection är ett angrepp där en användare försöker manipulera AI:n att ignorera sina instruktioner. SWEO AI skyddar mot detta i flera steg:
- Input sanitization — Alla meddelanden saniteras innan de når LLM:en. Kända injection-patterns detekteras och blockeras.
- System message isolation — Systeminstruktioner och kundinput hålls i separata delar av prompten med tydliga avgränsare.
- Pre-policies — Policies i
pre-läge kan filtrera bort misstänkt manipulation innan AI bearbetar meddelandet. - Output validation — Post-policies verifierar att AI-svaret inte avviker från godkänt beteende.
Innehållsfiltrering
Policies-systemet filtrerar AI-svar i realtid:
Policy-typSkyddar motExempeltopic_filterOönskade ämnenBlockera svar om konkurrenter, politik, personliga åsikterpii_filterPersonuppgiftsläckageFörhindra AI från att avslöja lagrad kunddata till obehörigatoneOlämplig tonalitetHålla AI professionell, förhindra sarkasm eller aggressivitetlengthFör långa/korta svarBegränsa svarlängd för SMS-kanalenSkapa policies under Knowledge → Policies. Se Policies & Regler för detaljerad guide.
Confidence guardrails
Confidence-systemet fungerar som en säkerhetsspärr:
- Confidence ≥ 0.8 — AI svarar direkt, hög säkerhet
- Confidence 0.7–0.8 — AI svarar men markerar svaret som osäkert i metadata
- Confidence < 0.7 — AI eskalerar till mänsklig agent istället för att gissa
Tröskelvärdet (0.7 default) konfigureras under Settings → AI Configuration. Höj till 0.85 för känsliga branscher (finans, sjukvård) eller sänk till 0.6 för mer generösa AI-svar.
Förebygga hallucination
RAG-arkitekturen (Retrieval-Augmented Generation) är det primära skyddet mot AI-hallucinationer:
- Enbart kunskapsbas-baserade svar — AI:n instrueras att bara svara baserat på innehåll från din Knowledge Base, inte "higar på"
- Citations — Varje AI-svar inkluderar källhänvisningar så att agenter och kunder kan verifiera informationen
- Confidence scoring — Om vektorsökningen inte hittar relevanta dokument (låg cosine similarity) sjunker confidence och svaret eskaleras
- Top-K begränsning — Enbart de 5 mest relevanta dokumentchunks används som kontext (
top_k: 5), vilket minskar risken för irrelevant information
Audit trail
SWEO AI loggar alla AI-beslut för spårbarhet:
- Varje AI-svar — Loggat med confidence, använda källor, triggade policies och eventuell procedure
- Policy-blockering — Loggar när och varför en policy blockerade ett svar
- Eskaleringar — Loggar anledning, confidence-nivå och eventuell auto-assign
- Connector-anrop — Loggar externa API-anrop gjorda av Procedures (endpoint, status, response time)
- Admin-ändringar — Loggar alla ändringar i knowledge, policies, procedures och settings med vem och när
Audit-loggar kan exporteras via Reports → CSAT Report eller via API.