Testa din AI-agent

Kör simulerade konversationer för att verifiera AI:n innan lansering.

S

Written by SWEO AI Team

Updated over 2 weeks ago


Simulation Runner

Testing låter dig köra simulerade konversationer utan att påverka riktiga kunder. Simuleringen kör hela AI-pipeline:n (RAG-sökning, policies, confidence-check) men sparar inte konversationen.

Max 20 meddelanden per simulering (begränsning i /api/simulate).

Skapa testscenarier

Gå till Testing och klicka Add Scenario.

Formuläret:

  • Scenario Name — T.ex. Refund request flow
  • User Messages (ett per rad):
    I want a refund
    My order number is 12345
    Yes please process it
  • Expect resolved — Toggle: förväntar du dig att AI:n löser det? (default: på)
  • Min confidence — Lägsta godkända confidence, 0–1, step 0.1 (default: 0.7)

Varje scenario visas som ett kort med: namn, antal meddelanden (badge), "Expect resolved"-badge och senaste körningstid.

Batch-testning

Kör flera scenarion i följd för att testa brett. Rekommenderade testtyper:

Scenario-typExempelmeddelandenFörväntatFAQ-fråga"What's your return policy?"Resolved, confidence ≥ 0.8Order-fråga"Where is my order?"Resolved via ProcedureOff-topic"What's the weather?"Escalated (confidence < 0.7)Policy-test"Tell me about CompetitorX"Blocked av Topic FilterPII-test"My SSN is 199001011234"PII maskeras i svar

Resultatanalys

Efter att du klickar Run visas en resultatbanner med:

  • PASS eller ❌ FAIL
  • Resolution — Faktiskt utfall vs förväntat (resolved/not)
  • Confidence — Faktisk confidence % vs din min-tröskel
  • Turns — Antal meddelanden i konversationen

Ett scenario passerar om:

  1. Resolution matchar "Expect resolved"
  2. Confidence ≥ min confidence-tröskel

Regressionstester

Kör dina testscenarier efter varje ändring:

Om ett scenario som tidigare passerade nu failar har ändringen orsakat en regression.

Best practices

Tips för effektiv testning:

  • Skapa minst 10 scenarion innan go-live — täck FAQ, returer, orderstatus, off-topic och PII
  • Testa på flera språk — Om du stödjer svenska och engelska, testa båda
  • Inkludera edge cases — Tomma meddelanden, extremt långa frågor, emojis
  • Kör regelbundet — Kör alla scenarion veckovis, eller efter varje knowledge-ändring
  • Justera min confidence per scenario — FAQ-frågor bör ha 0.8+, komplexa frågor kan ha 0.6