AI-säkerhet

S

Written by SWEO AI Team

Updated over 2 weeks ago


Skydd mot prompt injection

Prompt injection är ett angrepp där en användare försöker manipulera AI:n att ignorera sina instruktioner. SWEO AI skyddar mot detta i flera steg:

  1. Input sanitization — Alla meddelanden saniteras innan de når LLM:en. Kända injection-patterns detekteras och blockeras.
  2. System message isolation — Systeminstruktioner och kundinput hålls i separata delar av prompten med tydliga avgränsare.
  3. Pre-policiesPolicies i pre-läge kan filtrera bort misstänkt manipulation innan AI bearbetar meddelandet.
  4. Output validation — Post-policies verifierar att AI-svaret inte avviker från godkänt beteende.

Innehållsfiltrering

Policies-systemet filtrerar AI-svar i realtid:

Policy-typSkyddar motExempeltopic_filterOönskade ämnenBlockera svar om konkurrenter, politik, personliga åsikterpii_filterPersonuppgiftsläckageFörhindra AI från att avslöja lagrad kunddata till obehörigatoneOlämplig tonalitetHålla AI professionell, förhindra sarkasm eller aggressivitetlengthFör långa/korta svarBegränsa svarlängd för SMS-kanalen

Skapa policies under Knowledge → Policies. Se Policies & Regler för detaljerad guide.

Confidence guardrails

Confidence-systemet fungerar som en säkerhetsspärr:

  • Confidence ≥ 0.8 — AI svarar direkt, hög säkerhet
  • Confidence 0.7–0.8 — AI svarar men markerar svaret som osäkert i metadata
  • Confidence < 0.7 — AI eskalerar till mänsklig agent istället för att gissa

Tröskelvärdet (0.7 default) konfigureras under Settings → AI Configuration. Höj till 0.85 för känsliga branscher (finans, sjukvård) eller sänk till 0.6 för mer generösa AI-svar.

Förebygga hallucination

RAG-arkitekturen (Retrieval-Augmented Generation) är det primära skyddet mot AI-hallucinationer:

  1. Enbart kunskapsbas-baserade svar — AI:n instrueras att bara svara baserat på innehåll från din Knowledge Base, inte "higar på"
  2. Citations — Varje AI-svar inkluderar källhänvisningar så att agenter och kunder kan verifiera informationen
  3. Confidence scoring — Om vektorsökningen inte hittar relevanta dokument (låg cosine similarity) sjunker confidence och svaret eskaleras
  4. Top-K begränsning — Enbart de 5 mest relevanta dokumentchunks används som kontext (top_k: 5), vilket minskar risken för irrelevant information

Audit trail

SWEO AI loggar alla AI-beslut för spårbarhet:

  • Varje AI-svar — Loggat med confidence, använda källor, triggade policies och eventuell procedure
  • Policy-blockering — Loggar när och varför en policy blockerade ett svar
  • Eskaleringar — Loggar anledning, confidence-nivå och eventuell auto-assign
  • Connector-anrop — Loggar externa API-anrop gjorda av Procedures (endpoint, status, response time)
  • Admin-ändringar — Loggar alla ändringar i knowledge, policies, procedures och settings med vem och när

Audit-loggar kan exporteras via Reports → CSAT Report eller via API.