Us.E. 1.0: Costruzione e Validazione di uno Strumento in Lingua Italiana per Valutare l'Usabilità dei Siti Internet

Francesco Di Nocera, Fabio Ferlazzo, Paolo Renzi

Dipartimento di Psicologia, Università degli Studi di Roma "La Sapienza"

Via dei Marsi, 78 - 00185 Roma

[dinocera] [ferlazzo] [renzi] @ uniroma1.it

Sommario

Questo lavoro rappresenta il primo passo verso la realizzazione di un questionario in lingua italiana da impiegare nella valutazione dell'usabilità dei siti Internet. Duecentottantasei soggetti hanno preso parte allo studio, quarantadue nella prima fase e duecentoquarantaquattro nella seconda. Gli item sono stati somministrati sia in forma elettronica (su web), sia nella tradizionale forma carta e matita. Il sito-esempio, per il quale è stata richiesta la valutazione, era quello della Facoltà di Psicologia dell'Università degli Studi di Roma "La Sapienza". Dall’analisi fattoriale sono emerse quattro dimensioni che, secondo l’interpretazione fornita in questo lavoro, potrebbero esprimere altrettanti aspetti del costrutto soggettivo e multi-dimensionale di usabilità invocato dagli utenti durante il processo di valutazione del sito. 1. Introduzione

La realizzazione di pagine web, quando non è espressione della creatività personale, è in genere affidata a consulenti che curano prevalentemente alcuni aspetti (grafica, stile di comunicazione, ecc.) considerati importanti per la promozione di un prodotto. Così, la creazione di siti è entrata a far parte di quella enorme categoria di attività definite più come un'arte che come una scienza. Inoltre, i contenuti e la struttura di un sito spesso riflettono più le esigenze interne dell’organizzazione piuttosto che i bisogni degli utenti [1].

Simili impostazioni, se possono senz’altro essere d’aiuto (o almeno inoffensivi) per lo sviluppo del web come strumento ludico e vetrina elettronica, non sembrano però essere molto utili nella prospettiva di una transizione verso l’uso della rete come strumento quotidiano per tutta una serie di operazioni di routine (controllare il proprio conto corrente, prenotare un esame all’università, fare acquisti, ecc.) per le quali un insuccesso da parte dell’utente può coincidere con la maturazione di un sentimento di sfiducia e, di conseguenza, con l’abbandono della tecnologia stessa. Quindi, in analogia con quanto è accaduto negli ultimi dieci anni con il software, valutare l’impatto che le nuove tecnologie della rete hanno sull’utente è un compito che nei prossimi anni sarà sempre più necessario assolvere.

Uno degli aspetti più controversi, in questo settore è però proprio la definizione dell’oggetto di studio. È noto, difatti, che malgrado il termine usabilità sia stato coniato per sostituire l’espressione "facile da usare" che aveva acquisito una miriade di connotazioni indesiderabilmente vaghe, anche il termine usabilità è diventato col tempo tanto vago quanto l'espressione che ha sostituito [2].

L'esigenza di riconnotare il concetto di usabilità, in ogni caso, nasce anche (e soprattutto) da considerazioni di ordine pratico. In particolare, dalla necessità di definire delle metriche per l’usabilità. Tuttavia, a volte è proprio l’esigenza della misura che determina un rallentamento verso i cambiamenti nella teoria.

Nel caso specifico della web usability, ad esempio, il proliferare di tecniche automatizzate per la valutazione delle pagine web, il più delle volte basate criteri rigidi come la presenza/assenza di determinati parametri, sta probabilmente frenando lo sviluppo non solo di tecniche più flessibili, ma anche di teorie più organiche. In altre parole, l’eccessiva attenzione rivolta a specifici aspetti tecnici di progettazione e produzione di un sito, può limitare la valutazione dell’usabilità ad un campo molto ristretto o, addirittura, completamente avulso dallo stesso costrutto di usabilità. Inoltre, questi tool per la valutazione automatica mirano a verificare la regolarità del progetto, dunque sono centrati sul prodotto. Ma non è forse vero che la storia stessa della Human-Computer Interaction è tesa a superare una visione dell’usabilità come proprietà del prodotto e di ridefinirla piuttosto come proprietà dell’interazione tra utente e prodotto? Accettando la direzione di questo processo di crescita della HCI, si accetta dunque che una qualsiasi misurazione di tale interazione possa essere fatta unicamente sull’utente (prestazione, atteggiamenti, modelli mentali, ecc.). D’altra parte, un prodotto non è usabile o non usabile in sé, ma ha attributi che determineranno l'usabilità per uno specifico utente, che compie una specifica operazione e in uno specifico ambiente [2].

2. L’usabilità è multi-dimensionale?

Emerge sempre con maggior chiarezza che qualsiasi interpretazione dell’usabilità come costrutto uni-dimensionale è destinato a fornire una prospettiva teorico-applicativa molto parziale. D’altra parte, la natura multi-dimensionale dell’usabilità, per quanto oggetto di speculazioni teoriche [3] [4] non è stata ancora affrontata attraverso uno studio sistematico in grado di fornire gli elementi sui quali eventualmente costruire delle metriche. Gli autori dell’unico strumento che faccia esplicitamente riferimento a diverse dimensioni della web usability (WAMMI), ad esempio, non forniscono alcun dato relativo al criterio utilizzato per la definizione delle cinque dimensioni del questionario, che pertanto risulta non valutabile.

L’obiettivo principale della nostra ricerca, della quale questo studio è solo una parte, è proprio quello di verificare l’esistenza di diverse dimensioni, universalmente valide e stabili nel tempo, del costrutto di usabilità. Nell’intraprendere questo percorso, partiamo dal presupposto che l’usabilità sembra presentarsi più come un costrutto soggettivo che come un proprietà del sistema, quindi il primo passo verso lo studio del costrutto è stato quello di chiedere all’utente, attraverso due questionari, quali categorie utilizzavano per valutare il prodotto-sito.

In generale, nell'individuazione di strumenti e metodologie di valutazione dell'interazione tra uomo e tecnologie informatiche, il questionario ha spesso rappresentato una strada preferenziale per ottenere suggerimenti direttamente dall'utente finale [5] [6] [7]. Il maggior vantaggio offerto dal questionario è la possibilità di avere uno strumento flessibile che misuri il costrutto di interesse direttamente sull’utente, piuttosto che uno strumento rigido che si affida a misure sul sistema.

3. Indagine pilota

L'indagine pilota è stata condotta su 42 soggetti (33 maschi e 9 femmine) di età media 28.4 anni (dev.std. = 3.4). I partecipanti erano per la maggior parte (92.85%) utenti abituali per quel che concerne l'uso del PC e oltre la metà (54.76%) ha riferito di "navigare" tutti i giorni.

Ai soggetti sono state poste otto domande aperte per indagare le loro opinioni e le loro esperienze sulla navigazione nei siti Internet. Le domande sono state sviluppate col preciso intento di indurre il rispondente a commentare i diversi aspetti che possono essere ricondotti al concetto di usabilità (funzionalità, facilità d’uso, piacevolezza, efficacia, efficienza, ecc.).

Dall’esame delle risposte sono stati generati settanta item rappresentativi di tutti gli aspetti riferiti dagli intervistati. Successivamente, cinque giudici estranei allo studio, con esperienza sia nel campo psicometrico che nella realizzazione di siti, hanno indipendentemente valutato su una scala likert a cinque punti i settanta item in funzione della loro adeguatezza come misura dell'usabilità dei siti Internet.

Le valutazioni espresse dai giudici erano significativamente correlate e nove item sono risultati al di sotto del punto medio della scala likert. Tutti gli item "incriminati" afferivano ad un'area che potrebbe essere definita come quella della "piacevolezza", una dimensione che malgrado non caratterizzi in modo esplicito il concetto di usabilità, è emersa più volte tra le dichiarazioni dei soggetti. Si è pertanto deciso di includere anche questi item considerati "sospetti" nella lista. La prima versione del questionario così approntato è stato denominato Us.E., acronimo di Usability Evaluation.

4. Fase studio

4.1. Soggetti

Duecentoquarantaquattro soggetti (149 maschi e 95 femmine) hanno preso parte alla fase studio. Metà del campione ha partecipato allo studio on-line, mentre l’altra metà ha svolto la medesima sessione in laboratorio.

4.2. Materiale

Due questionari identici composti di settanta affermazioni, con modalità di risposta di tipo likert (da 1 = assolutamente falso a 5 = assolutamente vero) sono stati somministrati parallelamente "via web" e "carta e matita". Gli item riproducevano tutti gli aspetti riferiti dai soggetti durante la fase pilota della ricerca. In particolare, è stato possibile identificare diverse aree di riferimento quali estetica, interattività, utilità, orientamento, leggibilità, apprendimento, collegamenti, comprensibilità e tutta una serie di aspetti che, per quanto marginali, hanno sempre trovato collocazione in uno o due item.

In aggiunta agli item veri e propri il questionario comprendeva (in entrambe le forme) sette domande, tre di carattere socio-anagrafico (sesso, titolo di studio, professione), tre atte a verificare il livello di esperienza in campo informatico (usa strumenti informatici sul lavoro, quanto spesso usa il computer, quanto spesso usa Internet) e una domanda aperta sulle ragioni che hanno portato il soggetto al sito. Alla fine del questionario era anche presente uno spazio per eventuali commenti (facoltativi).

4.3. Procedura

La promozione del questionario on-line era affidata ad un invito a partecipare alla ricerca predisposto sulla home page del sito della Facoltà di Psicologia, oppure attraverso annunci postati periodicamente su alcuni newsgroup di lingua italiana. Collegandosi alla pagina web contenente il questionario, i soggetti venivano informati di dover visitare il sito della Facoltà di Psicologia dell’Università degli Studi di Roma "La Sapienza" prima di rispondere alle domande.

Un secondo gruppo di soggetti, reclutati prevalentemente tra gli studenti della Facoltà di Psicologia, ha risposto ad un questionario cartaceo del tutto identico alla forma elettronica. I soggetti venivano fatti accomodare ad una postazione di lavoro costituita da un PC, con sistema operativo Microsoft® Windows 95 e un browser Netscape® Communicator 4.5. La consegna era di visitare il sito di Psicologia e, successivamente, di rispondere ad un questionario di valutazione. I soggetti sono stati lasciati liberi di interagire con il sito per tutto il tempo che ritenevano necessario.

5. Risultati

5.1. Analisi fattoriale

Gli item sono stati elaborati attraverso una procedura di analisi fattoriale allo scopo di individuare eventuali dimensioni latenti. Il criterio di estrazione utilizzato era quello delle comunalità iterate che utilizza le stime di R2 multiplo per le comunalità e modifica, dopo l'estrazione iniziale dei fattori, i pesi per mezzo di diverse iterazioni e calcola la bontà di adattamento della soluzione risultante in termini delle somme dei quadrati dei residui. Successivamente all’analisi dello scree test, è stato deciso di estrarre quattro fattori che spiegavano il 28,9% della varianza (Tab.1).

Prove successive con diversi algoritmi di estrazione e rotazione, hanno mostrato una concreta stabilità dei fattori estratti. Tuttavia, dal momento che alcuni di questi fattori sono risultati essere correlati tra di loro, è sembrato opportuno applicare la rotazione obliqua OBLIMIN.
 

Autovalore
% Var
% Cum
Fattore 1
10.09447
18.4
18.4
Fattore 2
2.62839
4.8
23.1
Fattore 3
1.85399
3.4
26.5
Fattore 4
1.31447
2.4
28.9

Tab. 1 - Varianza spiegata dai fattori prima della rotazione.

Per tre dei quattro fattori così estratti (il primo, il secondo e il quarto), l’interpretazione non presenta particolari difficoltà. Il terzo fattore, invece, risente della presenza di diverse saturazioni di secondo ordine e solo due item saturano in maniera netta su di esso. Malgrado sia impossibile ricavare alcuna interpretazione plausibile sulla base di questi due item, il fatto che entrambi concernono una’area definibile come INTUITIVITÀ suggerirebbe l’esistenza di un fattore che potrebbe emergere in altre condizioni (con un maggior numero di soggetti, ad esempio). In ogni caso, per le difficoltà interpretative che comporta, il terzo fattore verrà in questa sede considerato nient’altro che un fattore spurio e non verrà, pertanto, preso ulteriormente in considerazione.

Il primo fattore estratto sembrerebbe rappresentare la caratteristica di un sito di essere controllabile, gestibile, manipolabile; a questo fattore fanno riferimento item come "Visitare questo sito è stato facile tanto quanto usare il software che uso di più", "posso raggiungere l’indice generale degli argomenti con facilità", "fin dall’inizio è chiaro quali sono i contenuti di questo sito", "questo sito permette di raggiungere l’obiettivo della ricerca senza troppi passaggi". Proponiamo di attribuire a questo primo fattore l’etichetta di MANEGGEVOLEZZA, ad indicare che potrebbe rappresentare una dimensione più propriamente "ergonomica" dell’usabilità, una dimensione che probabilmente è condivisa dai ferri da stiro, dalle leve e dalle pistole, oggetti concreti che sono "manipolabili", ma che in questo caso è riallocata nel mondo virtuale della rete.

Il secondo fattore, non richiede alcuno sforzo interpretativo. Gli item che saturano su questo fattore fanno chiaramente riferimento alla dimensione dell’UTILITÀ. Alcuni esempi sono "questo sito mi permette di fare cose che altrimenti mi farebbero perdere tempo", "visitando questo sito sono riuscito a risolvere un problema che avevo", "questo sito non soddisfa le mie esigenze informative".

Il quarto fattore comprende invece quegli item che si riferiscono all’aspetto ludico (ma non solo) di un sito: i colori, la grafica, la disponibilità di software, la possibilità di comunicare con altre persone, tutti elementi che costituiscono il "valore aggiunto" di un sito. Per questo fattore viene proposta la denominazione ATTRATTIVA.

5.2. Attendibilità

La realizzazione di un questionario implica necessariamente la valutazione dell’attendibilità delle scale che lo compongono, ovvero della loro dipendenza dall’errore di misura. In questa fase dello studio non è possibile utilizzare le tradizionali procedure di stima dell’attendibilità (test-retest, forme parallele, Alpha di Cronbach, Split-half) poiché non sono ancora disponibili le scale definitive. Di conseguenza l’attendibilità è stata calcolata per ogni fattore utilizzando la matrice delle covarianze per i punteggi fattoriali. L’indice ottenuto fornisce una stima della stabilità del fattore [8]. Come si può osservare dalla Tab. 2, i coefficienti di attendibilità sono sufficientemente elevati per tutti i fattori; il Fattore 3, che è difficilmente interpretabile, mostra tuttavia una attendibilità sensibilmente inferiore alle altre.
 

Attendibilità
Fattore 1
.89997
Fattore 2
.85534
Fattore 3
.74130
Fattore 4
.81753

Tab. 2 - Attendibilità dei punteggi fattoriali.

5.3. Esperti vs. Intermedi vs. Inesperti

Al fine di controllare l’effetto del livello di esperienza sulla valutazione dei soggetti alle diverse dimensioni del questionario, è stata condotta una Analisi della Varianza Multivariata utilizzando il livello di esperienza su web (esperto, intermedio, inesperto) come variabile indipendente ed i punteggi fattoriali alle quattro dimensioni estratte come variabili dipendenti.

I risultati indicano che il livello di esperienza influisce significativamente sulle valutazioni dei soggetti (Tab. 3). In particolare le analisi univariate mostrano che il livello di esperienza influisce significativamente sui punteggi al primo fattore (F(2,241)= 6,912472; p=,001205) e al terzo fattore (F(2;241)=3,737173; p=,025213), mentre nessuna differenza in funzione dell’esperienza è emersa per gli altri due fattori. Il test di Duncan dimostra come nel caso del primo fattore i soggetti esperti forniscano valutazioni significativamente più negative (p<.05) rispetto ad entrambi gli altri gruppi (intermedi e inesperti). Inoltre, per quel che concerne il terzo fattore, gli esperti forniscono valutazioni più negative degli inesperti.

Le Tabb. 4 e 5 riportano i valori medi e le deviazioni standard dei punteggi fattoriali in funzione del livello di esperienza.
 

Lambda di Wilks
R di Rao
gdl 1
gdl 2
p
.904485
3.062832
8
476
.002254

Tab. 3 – Effetto dell’esperienza sui punteggi fattoriali: risultati dell’analisi della varianza.


 
F1
F2
F3
F4
N Validi
Esperti
-0.25522
-0.00669
0.19349
-0.04987
90
Intermedi
0.075227
-0.01158
-0.06332
0.102287
94
Inesperti
0.264973
0.028172
-0.19103
-0.08545
60
244

Tab. 4 – Effetto dell’esperienza sui punteggi fattoriali: medie e numero di casi.


 
F1
F2
F3
F4
N Validi
Esperti
1.03254
0.938132
0.984293
0.851786
90
Intermedi
0.697708
0.906384
0.823913
0.798577
94
Inesperti
0.870843
0.872836
0.844104
0.947582
60
244

Tab. 5 – Effetto dell’esperienza sui punteggi fattoriali: deviazioni standard e numero di casi.

6. Discussione

I risultati di questo studio preliminare confermano che l’usabilità, almeno per quel che concerne la valutazione di un sito Internet, si configura come un costrutto multi-dimensionale. In particolare, sembrano emergere almeno tre dimensioni, parzialmente correlate tra loro e con coefficienti di attendibilità sufficientemente elevati, che fanno riferimento a alla MANEGGEVOLEZZA, alla UTILITÀ, e alla ATTRATTIVA di un sito. Tali fattori costituirebbero la cornice di riferimento generale entro la quale l’utente organizzerebbe le proprie valutazioni. Inoltre, proprio questa caratteristica di generalità dei fattori emersi, suggerisce che tale organizzazione del costrutto di usabilità sia propria dell’utente e che quest’ultimo la utilizzi ogniqualvolta necessiti di fornire una valutazione, indipendentemente dal prodotto da valutare.

Dal momento che gli strumenti maggiormente diffusi sono quelli che forniscono una valutazione automatizzata, e quindi basati sulle caratteristiche tecniche del sito (presenza/assenza di immagini jpeg, ad esempio), sembrano emergere due costrutti di usabilità differenti e non necessariamente correlati: da un lato quello che si riferisce ad uno schema mentale dell’utente di un prodotto che viene utilizzato dall’utente stesso nel processo di valutazione, dall’altro quello che si riferisce a proprietà specifiche dell’oggetto da valutare (ad esempio caratteristiche tecniche) indipendenti quindi dall’utente. Ciò ha evidentemente importanti ripercussioni nella creazione di strumenti di misura dell’usabilità, che dovrebbero essere differenziati.

Questo studio mostra inoltre, come era da attendersi, un effetto del livello di esperienza sul processo di valutazione, anche all’interno dello stesso schema di riferimento. In particolare, soggetti esperti valutano più criticamente il sito oggetto di indagine rispetto a soggetti meno esperti sia dal punto di vista della MANEGGEVOLEZZA che della dimensione eventualmente espressa dal terzo fattore.

In conclusione, dal momento che le dimensioni di usabilità emerse in questo lavoro provengono da un’analisi della struttura e non sono sviluppate aprioristicamente, questo risultato può essere considerato molto confortante e offre la possibilità di pianificare ulteriori studi sia sul web (ad esempio confrontando tipologie differenti di siti) sia con altri prodotti, per verificare la possibilità di una estensione di questi fattori ad di fuori della web usability.

In ogni caso, sarà comunque necessario nell’immediato futuro sviluppare la versione successiva del questionario, diminuendo il numero di item in funzione delle scale emerse e procedendo al lavoro di tipo normativo.

Riferimenti bibliografici

  1. Bevan, N. (1998). Usability issues in web site design. Proceedings of the UPA’98, Washington DC.
  2. Bevan, N., Kirakowski, J., and Maissel, J. (1991). What is usability? Proceedings of the 4th International Conference on HCI, Stuttgart.
  3. Glendon, A. I., Stanton, N. A., & Harrison, D. (1994). Factor analysing a performance shaping concepts questionnaire. In S. A. Robertson (Ed.), Contemporary Ergonomics 1994. London: Taylor & Francis, 340-345.
  4. Jordan, P. W. (1994). What is usability? In S. A. Robertson (Ed.), Contemporary Ergonomics 1994. London: Taylor & Francis, 454-458.
  5. Lewis, J.R. (1995). IBM computer usability satisfaction questionnaires: psychometric evaluation and instructions for use. International Journal of Human-Computer Interaction, 7(1), 57-78.
  6. Miller, L.A., Stanney, K. M., & Wooten, W. (1997). Development and evaluation of the Windows Computer Experience Questionnaire (WCEQ). International Journal of Human-Computer Interaction, 9(3), 201-212.
  7. Chin, J.P., Diehl, V.A., & Norman, K.L. (1988). Development of a tool measuring user satisfaction of the human-computer interface. Proceedings of the SigChi’88 Human Factors in Computer Systems, 213-218.
  8. Tabachnick, B.G., Fidell, L.S. (1989) Using multivariate statistics. Cambridge: Harper & Row.
     
    TORNA ALL'INIZIO DELLA PAGINA