Testa din AI-agent

Kör simulerade konversationer för att verifiera AI:n innan lansering.

Written by SWEO AI Team

Updated over 2 weeks ago

Simulation Runner

Testing låter dig köra simulerade konversationer utan att påverka riktiga kunder. Simuleringen kör hela AI-pipeline:n (RAG-sökning, policies, confidence-check) men sparar inte konversationen.

Max 20 meddelanden per simulering (begränsning i /api/simulate).

Skapa testscenarier

Gå till Testing och klicka Add Scenario.

Formuläret:

Scenario Name — T.ex. Refund request flow

User Messages (ett per rad):

I want a refund
My order number is 12345
Yes please process it

Expect resolved — Toggle: förväntar du dig att AI:n löser det? (default: på)
Min confidence — Lägsta godkända confidence, 0–1, step 0.1 (default: 0.7)

Varje scenario visas som ett kort med: namn, antal meddelanden (badge), "Expect resolved"-badge och senaste körningstid.

Batch-testning

Kör flera scenarion i följd för att testa brett. Rekommenderade testtyper:

Scenario-typExempelmeddelandenFörväntatFAQ-fråga"What's your return policy?"Resolved, confidence ≥ 0.8Order-fråga"Where is my order?"Resolved via ProcedureOff-topic"What's the weather?"Escalated (confidence < 0.7)Policy-test"Tell me about CompetitorX"Blocked av Topic FilterPII-test"My SSN is 199001011234"PII maskeras i svar

Resultatanalys

Efter att du klickar Run visas en resultatbanner med:

✅ PASS eller ❌ FAIL
Resolution — Faktiskt utfall vs förväntat (resolved/not)
Confidence — Faktisk confidence % vs din min-tröskel
Turns — Antal meddelanden i konversationen

Ett scenario passerar om:

Resolution matchar "Expect resolved"
Confidence ≥ min confidence-tröskel

Regressionstester

Kör dina testscenarier efter varje ändring:

Ny kunskapskälla uppladdad i Knowledge
Policy tillagd eller ändrad i Policies
Procedure uppdaterad i Procedures
System prompt ändrad i Settings

Om ett scenario som tidigare passerade nu failar har ändringen orsakat en regression.

Best practices

Tips för effektiv testning:

Skapa minst 10 scenarion innan go-live — täck FAQ, returer, orderstatus, off-topic och PII
Testa på flera språk — Om du stödjer svenska och engelska, testa båda
Inkludera edge cases — Tomma meddelanden, extremt långa frågor, emojis
Kör regelbundet — Kör alla scenarion veckovis, eller efter varje knowledge-ändring
Justera min confidence per scenario — FAQ-frågor bör ha 0.8+, komplexa frågor kan ha 0.6