Testa din AI-agent
Kör simulerade konversationer för att verifiera AI:n innan lansering.
Written by SWEO AI Team
Updated over 2 weeks ago
Simulation Runner
Testing låter dig köra simulerade konversationer utan att påverka riktiga kunder. Simuleringen kör hela AI-pipeline:n (RAG-sökning, policies, confidence-check) men sparar inte konversationen.
Max 20 meddelanden per simulering (begränsning i /api/simulate).
Skapa testscenarier
Gå till Testing och klicka Add Scenario.
Formuläret:
- Scenario Name — T.ex. Refund request flow
- User Messages (ett per rad):
I want a refund My order number is 12345 Yes please process it - Expect resolved — Toggle: förväntar du dig att AI:n löser det? (default: på)
- Min confidence — Lägsta godkända confidence, 0–1, step 0.1 (default:
0.7)
Varje scenario visas som ett kort med: namn, antal meddelanden (badge), "Expect resolved"-badge och senaste körningstid.
Batch-testning
Kör flera scenarion i följd för att testa brett. Rekommenderade testtyper:
Scenario-typExempelmeddelandenFörväntatFAQ-fråga"What's your return policy?"Resolved, confidence ≥ 0.8Order-fråga"Where is my order?"Resolved via ProcedureOff-topic"What's the weather?"Escalated (confidence < 0.7)Policy-test"Tell me about CompetitorX"Blocked av Topic FilterPII-test"My SSN is 199001011234"PII maskeras i svarResultatanalys
Efter att du klickar Run visas en resultatbanner med:
- ✅ PASS eller ❌ FAIL
- Resolution — Faktiskt utfall vs förväntat (resolved/not)
- Confidence — Faktisk confidence % vs din min-tröskel
- Turns — Antal meddelanden i konversationen
Ett scenario passerar om:
- Resolution matchar "Expect resolved"
- Confidence ≥ min confidence-tröskel
Regressionstester
Kör dina testscenarier efter varje ändring:
- Ny kunskapskälla uppladdad i Knowledge
- Policy tillagd eller ändrad i Policies
- Procedure uppdaterad i Procedures
- System prompt ändrad i Settings
Om ett scenario som tidigare passerade nu failar har ändringen orsakat en regression.
Best practices
Tips för effektiv testning:
- Skapa minst 10 scenarion innan go-live — täck FAQ, returer, orderstatus, off-topic och PII
- Testa på flera språk — Om du stödjer svenska och engelska, testa båda
- Inkludera edge cases — Tomma meddelanden, extremt långa frågor, emojis
- Kör regelbundet — Kör alla scenarion veckovis, eller efter varje knowledge-ändring
- Justera min confidence per scenario — FAQ-frågor bör ha 0.8+, komplexa frågor kan ha 0.6