La valutazione della tossicità delle sostanze chimiche è da sempre un elemento centrale nella tutela della salute umana e dell’ambiente. Per decenni, gli studi sugli animali hanno rappresentato il riferimento principale per stimare i possibili effetti nocivi di una sostanza. Ma quanto sono davvero affidabili questi test?
Un recente studio pubblicato su Frontiers in Toxicology affronta proprio questa domanda, analizzando in modo sistematico la variabilità degli studi tossicologici in vivo e le implicazioni che questa ha sia per la valutazione del rischio sia per lo sviluppo dei nuovi metodi senza animali. La conclusione generale è chiara: la replicabilità degli studi tossicologici condotti secondo linee guida standardizzate varia ampiamente a seconda del tipo di test, della complessità dell’endpoint e del metodo di classificazione adottato.
Un limite strutturale
Il dato più rilevante che emerge dalla review è che la variabilità non può essere trattata come una semplice imperfezione tecnica. Al contrario, incide direttamente sull’affidabilità dei test animali come strumenti di valutazione tossicologica.
Gli autori riconoscono che gli studi in vivo, utilizzati per anni come benchmark regolatorio, non sono pienamente replicabili. Anzi, sottolineano esplicitamente che, proprio perché i test animali usati come riferimento non sono completamente replicabili, non è realistico pretendere invece dai nuovi approcci metodologici una precisione superiore a quella che uno studio in vivo replicato sarebbe in grado di offrire. Questo passaggio è particolarmente importante perché indebolisce l’idea dei test animali come standard solido, uniforme e privo di incertezza.
In altre parole, la review mostra che la sperimentazione animale non può essere considerata un modello stabile e universalmente affidabile. La sua performance reale è disomogenea e, in alcuni ambiti, i livelli di concordanza sono troppo bassi per sostenere l’idea di un vero “gold standard”.
Da dove nasce la variabilità?
Lo studio individua diverse fonti di variabilità. Una parte dipende dalla variabilità biologica, ma un peso importante è legato anche alle differenze nel disegno sperimentale e nell’esecuzione dei test. Gli stessi autori ricordano che la variabilità può dipendere da elementi come il ceppo animale, la specie, la dieta, il veicolo utilizzato, la via di somministrazione e altri aspetti del protocollo.
Inoltre, le linee guida OECD, pur essendo standardizzate, non eliminano del tutto queste differenze. La review precisa che molti studi inclusi nelle analisi erano simili, ma non identici, e presentavano piccole variazioni metodologiche che potevano influire sugli esiti. Anche per questo motivo quantificare la replicabilità si è rivelato difficile in molte pubblicazioni esaminate.
I dati mostrano oscillazioni molto ampie
La review ha raccolto dati su un’ampia gamma di endpoint tossicologici, tra cui irritazione oculare e cutanea, sensibilizzazione dermica, tossicità acuta, tossicità a dose ripetuta, cancerogenicità, neurotossicità, tossicità endocrina e genotossicità.
I numeri confermano un quadro molto eterogeneo. Per la genotossicità, la replicabilità riportata varia dal 23% al 78% a seconda del protocollo. Negli studi di tossicità subcronica e cronica a dose ripetuta, la concordanza dei risultati oscilla dal 38,5% al 90% a seconda della specie, del tipo di studio e dell’organo considerato. Per la cancerogenicità, si riportano valori del 65% tra sessi del ratto ma appena del 36% tra specie diverse come ratto e topo; altri studi citati dalla review riportano valori dell’86% tra sessi e del 74% tra specie.
Anche all’interno dello stesso tipo di test la situazione può essere molto instabile. Per esempio, negli studi di irritazione oculare e cutanea la replicabilità tende a essere più alta nei casi estremi, quando la tossicità è assente o molto marcata, mentre diminuisce sensibilmente nelle categorie intermedie. Questo significa che i casi più ambigui o moderati sono anche quelli meno stabili e meno coerenti.
Perché questo cambia il modo di valutare i test sugli animali?
Questi risultati hanno una conseguenza importante: i test animali non dovrebbero più essere trattati come un riferimento ideale con cui giudicare in modo astratto tutti i metodi alternativi. La review sostiene invece che la loro variabilità reale debba diventare un parametro esplicito nella valutazione delle performance. I dati storici in vivo, scrivono gli autori, dovrebbero servire come base di confronto contestualizzata per stabilire se i nuovi approcci siano davvero migliori o almeno equivalenti.
Questo è un punto cruciale anche in prospettiva futura. Se il benchmark animale è esso stesso instabile, allora il confronto con i NAMs deve essere costruito su basi realistiche, non su un’immagine idealizzata della sperimentazione animale. La review insiste proprio su questo: comprendere la variabilità dei metodi tradizionali è indispensabile per definire metriche pertinenti e baseline credibili per i nuovi approcci senza animali.
Una lezione chiara per la tossicologia del futuro
Il messaggio che emerge da questo studio è netto. I test animali non vanno considerati uno standard perfetto né un riferimento privo di criticità. La loro replicabilità è spesso variabile, in alcuni casi modesta, e questa instabilità riduce la fiducia che si può attribuire ai loro risultati come base unica per la valutazione della sicurezza.
Proprio per questo, la caratterizzazione rigorosa della loro variabilità diventa essenziale. Non solo per comprendere meglio i limiti dei modelli animali, ma anche per accelerare la transizione verso “metodi alternativi” o più propriamente “nuovi approcci metodologici” più controllabili, più rilevanti per l’uomo e potenzialmente più affidabili.
Articolo originale: Karmaus AL, Kreutz AL, Oyetade O, Friedman KP, Paparella M, Reinke EN, Allen D, Hogberg HT and Kleinstreuer NC (2026) Perspectives on variability of in vivo toxicology studies: considerations for next-generation toxicology. Front. Toxicol. 8:1778353. doi: 10.3389/ftox.2026.1778353
