Condividi tramite


Scegli i metodi di valutazione

[Questo articolo fa parte della documentazione non definitiva, pertanto è soggetto a modifiche.]

Quando crei set di test, scegli tra diversi metodi di test per valutare le risposte del tuo agente. Ogni metodo di prova ha i suoi punti di forza e si adatta a diversi tipi di valutazione.

Metodo di test Misure Punteggio Configurations
Qualità generale Quanto è valida la risposta del caso di prova basata su qualità specifiche Segnato su 100% None
Confronta il significato Quanto bene corrisponde il significato della risposta del caso di prova a quella attesa Segnato su 100% Punteggio di superamento, risposta attesa
Utilizzo delle capacità Se il caso di test utilizzava le risorse attese Passata/fallita Capacità attese
Corrispondenza delle parole chiave Se il caso di prova utilizzasse tutte o una delle parole chiave o frasi attese Passata/fallita Parole chiave o frasi attese
Somiglianza del testo Quanto corrisponde il testo della risposta del caso di prova con la risposta attesa Segnato su 100% Punteggio di superamento, risposta attesa
Corrispondenza esatta Se la risposta del caso di prova corrisponde esattamente a quella attesa Passata/fallita Risposta attesa

Per aggiungere metodi di test a un set di test:

  1. Quando crei o modifichi un set di test, seleziona Aggiungi metodo di test.
  2. Seleziona tutti i metodi con cui vuoi testare, poi seleziona OK. Puoi aggiungere più metodi.
  3. Alcuni metodi richiedono un punteggio di superamento. Il punteggio di passaggio determina quale punteggio porta a un passaggio o a un fallimento. Imposta il punteggio, poi seleziona OK.
  4. Alcuni metodi di prova richiedono criteri aggiuntivi.
  5. Seleziona Salva per salvare le modifiche nel set di test.

Seleziona un metodo di test esistente per modificare i criteri di quel metodo o elimina quel metodo.

Qualità generale

La qualità generale ti aiuta a decidere se le risposte del tuo agente soddisfano i tuoi standard. Utilizza un modello linguistico per valutare quanto efficacemente un agente risponde alle domande degli utenti.

La qualità generale è particolarmente utile quando non ci si aspetta una risposta esatta. Offre un modo flessibile e scalabile per valutare le risposte in base ai documenti recuperati e al flusso della conversazione.

Utilizza questi criteri chiave e applica un prompt coerente per guidare il punteggio:

  • Pertinenza: in quale misura la risposta dell'agente risolve la domanda. Ad esempio, la risposta dell'agente rimane sull'oggetto e risponde direttamente alla domanda?

  • Attinenza: grado in cui la risposta dell'agente è basata sul contesto fornito. Ad esempio, fa riferimento alla risposta dell'agente o si basa sulle informazioni fornite nel contesto, anziché introdurre informazioni non correlate o non supportate?

  • Completezza: in quale misura la risposta dell'agente fornisce tutte le informazioni necessarie. Ad esempio, la risposta dell'agente riguarda tutti gli aspetti della domanda e fornisce dettagli sufficienti?

  • Astensione: indica se l'agente ha provato a fornire una risposta.

Per essere considerata di alta qualità, una risposta deve soddisfare tutti questi criteri chiave. Se un criterio non viene soddisfatto, la risposta viene segnalata per il miglioramento. Questo metodo di assegnazione dei punteggi garantisce che solo le risposte complete e supportate ricevano i primi punteggi. Al contrario, le risposte incomplete o prive di prove di supporto ricevono punteggi inferiori.

Quando aggiungi o modifica metodi di test, seleziona Qualità Generale. Tutti i set di test iniziano con questo metodo di default.

Non è necessario aggiungere le risposte attese ai casi di prova per completare una valutazione generale di qualità.

Confrontare il significato

Confronta significato valuta il grado di risposta dell'agente che riflette il significato previsto della risposta prevista. Invece di concentrarsi su formulazioni esatte, utilizza la somiglianza tra intenti, cioè confronta le idee e il significato dietro le parole per giudicare quanto la risposta sia in linea con ciò che ti aspettavi.

Come la qualità generale, confrontare il significato è particolarmente utile quando non ci si aspetta una risposta esatta. Offre un modo flessibile e scalabile per valutare le risposte in base ai documenti recuperati e al flusso della conversazione.

Puoi impostare una soglia di punteggio minimo per determinare cosa costituisce un punteggio sufficiente per una risposta. Il punteggio predefinito per il passaggio è 50. Il metodo di test di confronto del risultato è utile quando una risposta può essere formulata in modi diversi ma corretti, purché il significato o la finalità complessiva rimanga chiara.

  1. Quando aggiungi o modifica metodi di test, seleziona Confronta significato.

  2. Imposta il punteggio di superamento per questo metodo.

  3. Aggiungi le risposte previste. Qualsiasi caso di test senza uno produce un risultato Invalido per questo metodo di test.

    1. Seleziona un caso di prova.
    2. Aggiungi la risposta che ti aspetti.
    3. Seleziona Applica per salvare la risposta attesa.
    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.

Utilizzo delle capacità

Test di uso delle capacità se l'agente utilizzava strumenti o argomenti specifici per generare una risposta. Se è successo, passa. In caso contrario, ha esito negativo.

Puoi scegliere se un passaggio richiede uno qualsiasi degli strumenti o argomenti o tutti . Scegliere Qualsiasi significa che se l'agente ha chiamato almeno uno, il caso di prova passa. Scegliere Tutti significa che tutti gli strumenti o argomenti attesi devono corrispondere affinché un caso di prova venga superato.

  1. Quando aggiungi o modifica metodi di test, seleziona Uso delle capacità.

  2. Seleziona se un caso di test necessita di Qualsiasi o Tutti gli strumenti o argomenti per essere abbinati.

  3. Aggiungi gli strumenti o gli argomenti previsti. Qualsiasi caso di test senza uno produce un risultato Invalido per questo metodo di test.

    1. Seleziona un caso di prova.
    2. Seleziona le capacità che ti aspetti che la risposta di quel caso abbia in mente.
    3. Selezionare OK.
    4. Selezionare Applica per salvare le modifiche.
    5. Ripeti per tutti i casi di test che vuoi testare per l'uso delle capacità.
  4. Imposta il punteggio di superamento per questo metodo.

  5. Aggiungi le risposte previste. Qualsiasi caso di test senza uno produce un risultato Invalido per questo metodo di test.

    1. Seleziona un caso di prova.
    2. Aggiungi gli strumenti o gli argomenti che ti aspetti.
    3. Selezionare Applica per salvare.
    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.

Corrispondenza delle parole chiave

La corrispondenza delle parole chiave verifica se la risposta dell'agente contiene alcune o tutte le parole o frasi della risposta attesa che definisci. In caso affermativo, passa. In caso contrario, ha esito negativo.

Puoi scegliere se un pass richiede una qualsiasi delle parole chiave o tutte . Scegliere Qualsiasi significa che se almeno una parola o frase corrisponde, il caso di prova passa. Scegliere Tutti significa che tutte le parole o frasi attese devono corrispondere affinché un caso di prova sia superato.

La corrispondenza delle parole chiave è utile quando una risposta può essere formulata in modi corretti diversi, ma i termini chiave o le idee devono comunque essere inclusi nella risposta.

  1. Quando aggiungi o modifica metodi di test, seleziona Keyword matching (corrispondenza per parole chiave).

  2. Seleziona se un caso di prova necessita di Qualsiasi o Tutte le parole chiave per essere abbinate.

  3. Aggiungi le parole chiave previste. Qualsiasi caso di test senza uno produce un risultato Invalido per questo metodo di test.

    1. Seleziona un caso di prova.
    2. Aggiungi una parola chiave o una frase che ti aspetti abbia la risposta di quel caso.
    3. Seleziona + per aggiungere più parole chiave o frasi. Seleziona elimina
    4. Seleziona Applica per salvare le parole chiave attese.
    5. Ripeti per tutti i casi di test che vuoi testare per il matching delle parole chiave.

Somiglianza del testo

Il metodo del test di similarità confronta la somiglianza delle risposte dell'agente con le risposte attese che definisci nel tuo set di test. È utile quando una risposta può essere formulata in modi diversi ma corretti, purché il significato o la finalità complessiva rimanga chiara.

Usa una metrica di somiglianza coseno per valutare il modo in cui la risposta dell'agente è simile alla formulazione e al significato della risposta prevista e determina un punteggio. Il punteggio è compreso tra 0 e 1, dove 1 indica che la risposta corrisponde esattamente e 0 indica che non lo fa. Puoi impostare una soglia di punteggio minimo per determinare cosa costituisce un punteggio sufficiente per una risposta.

  1. Quando aggiungi o modifica metodi di test, seleziona Somiglianza di testo.

  2. Imposta il punteggio di superamento per questo metodo.

  3. Aggiungi le risposte previste. Qualsiasi caso di test senza uno produce un risultato Invalido per questo metodo di test.

    1. Seleziona un caso di prova.
    2. Aggiungi la risposta che ti aspetti.
    3. Seleziona Applica per salvare la risposta attesa.
    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.

Corrispondenza esatta

La corrispondenza esatta controlla se la risposta dell'agente corrisponde esattamente alla risposta prevista nel test: carattere per carattere, parola per parola. Se è lo stesso, passa. In caso di differenze, l'operazione ha esito negativo. La corrispondenza esatta è utile per risposte brevi e precise, ad esempio numeri, codici o frasi fisse. Non soddisfa le risposte che le persone possono frasare in diversi modi corretti.

  1. Quando aggiungi o modifica metodi di test, seleziona Corrispondenza esatta.

  2. Aggiungi le risposte previste. Qualsiasi caso di test senza uno produce un risultato Invalido per questo metodo di test.

    1. Seleziona un caso di prova.
    2. Aggiungi la risposta che ti aspetti.
    3. Seleziona Applica per salvare la risposta attesa.
    4. Ripeti per tutti i casi di test che vuoi testare usando questo metodo.