viernes, 14 de junio de 2019

Acerca de la prueba estadística de la UNE-EN 689:2019 (I)


Determinar la idoneidad de una situación higiénica concreta, con unas pocas mediciones, dada la enorme variabilidad de las exposiciones entre días y dentro de una misma jornada, siempre ha sido un reto para el higienista; lo era con la primera versión de la norma europea EN 689 y lo seguirá siendo con la nueva versión, ya revisada EN 689:2018+AC en 2019.

Hay que agradecer a la estadística que sea posible afrontar ese reto con garantías, utilizando unos recursos más bien moderados, si se tiene en cuenta que con esas pocas mediciones (muestra) se pueden sacar conclusiones sobre un número enorme de exposiciones futuras.

Entre las principales novedades que aporta esta UNE-EN 689:2019 se pueden destacar las siguientes: a) Se evaluará siempre por grupos de exposición similar (GES), un único trabajador puede constituir un GES; b) la agrupación que se haga de trabajadores expuestos para constituir los GES se validará mediante técnicas estadísticas, una vez realizadas las mediciones; c) la muestra mínima de un GES son tres exposiciones, desaparece la posibilidad de decidir conformidad con el valor límite (VL) con un única medición; d) la prueba estadística para tamaños de muestra iguales o superiores a seis cambia, se establecen intervalos de confianza sobre la fracción 95 (P95) en lugar de hacerlo sobre el valor promedio de las exposiciones[1] y se fija un nivel mínimo de confianza del 70%; e) el tratamiento estadístico de los resultados de mediciones por debajo de la sensibilidad del método de medida cambia y f) aunque la prueba de conformidad resulte favorable hay que medir periódicamente.

En definitiva, se puede afirmar que en esta nueva versión de la norma hay más rigor estadístico y mayor seguridad para el trabajador, a cambio de un coste superior del diagnóstico higiénico que la Comisión Europea ha considerado asumible, una vez superada aquella primera etapa de asimilación de la prevención en la que arrancó la primera versión de la norma.

En este artículo, pretendo abordar la parte menos trasparente y comprensible de la norma: la prueba estadística. Explicando su fundamento, no con ánimo de que se aplique tal cual se explica sino más bien que se conozca a qué planteamiento estadístico responde la sencilla prueba de conformidad que propone la norma en su anexo F.

En el epígrafe (5.5.3) de la parte normativa, se indica en qué consiste la prueba estadística:
La prueba debe medir, con al menos el 70% de confianza, si menos del 5%[2]de las exposiciones en el GES exceden el VLA.”


Calcular el porcentaje de exposiciones de un GES que sobrepasa un VL, con cierto nivel de confianza, exige antes de nada conocer la distribución estadística a la que ajustan las exposiciones obtenidas. Hasta ahora se había considerado que estas exposiciones seguían una distribución lognormal pero la norma apunta la posibilidad de que, en algunos casos, puedan seguir una distribución normal. Por consiguiente, un paso de crucial importancia, previo a la prueba, es determinar a qué tipo de distribución ajustan las exposiciones del GES, se trate de exposiciones diarias o de exposiciones cortas del GES. Esto es tan crítico como determinar que el GES está bien elegido.


Comprobación del ajuste de las exposiciones en el GES

Para comprobar dicho ajuste se puede utilizar, por ejemplo, el test de Shapiro-Wilk. En este test, la hipótesis nula asume que la muestra proviene de una población distribuida normalmente. Si el valor p = Pr (W < Wα)[3], obtenido en el test, es menor de α = 0,05 (α nivel de significancia), se rechaza la hipótesis nula de que la muestra proviene de una distribución normal. En ocasiones, puede ocurrir que la muestra de exposiciones obtenida ajuste a ambas distribuciones, en tal caso, la distribución que presente un mayor valor de p, o del estadístico W, será la utilizada.

Una forma rápida y sencilla de aplicar el test de Shapiro-Wilk es utilizar código R en línea, en cualquier navegador. Con dos líneas de código es suficiente para comprobar el ajuste de una distribución normal o lognormal. En el siguiente ejemplo, aceptaríamos que la muestra ajusta mejor a la distribución normal (primer recuadro).
Esto es importante porque puede darse el caso que ambas distribuciones conduzcan a resultados contradictorios y una distribución supere la prueba estadística y otra no. Por otro lado, si los datos no ajustan a ninguna de las distribuciones, esto indicaría una anomalía que habría que investigar, como un dato muy dispar o una mala elección del GES.

El Excel de AIHA EASC-IHSTAT indica el ajuste de la muestra y el estadístico “W” (Figura 1).
Figura 1. Test Shapiro-Wilk

En realidad, no es riguroso afirmar que si no se puede rechazar la hipótesis nula eso signifique que la muestra pertenece a una distribución normal pero éste es el uso que se hace del test.


Una vez conocido el tipo de distribución, sea cual sea éste y para mayor facilidad de las explicaciones, en lo sucesivo se utilizará aquí la distribución normal para ambas distribuciones. Es sabido que en una distribución lognormal, los logaritmos de la variable se distribuyen según una distribución normal de parámetro de centralidad ln(MG) y de parámetro de dispersión in(DSG). Igualmente, una característica importante de ambas distribuciones es que cualquier fracción o porcentaje acumulado bajo la cola de la distribución lognormal para un determinado valor de la variable XP se mantiene dicha fracción en la distribución normal para el logaritmo de dicho valor, ln(XP). Es decir, si X0,95 es el valor de la variable del cuantil 0,95 de la distribución lognormal, ln(X0,95) corresponde al cuantil 0,95 en la distribución normal que resulta de transformar logarítmicamente la variable de la distribución lognormal .

Se utilizan aquí logaritmos neperianos o naturales y se respeta la terminología que establece la norma, excepto para el valor límite ambiental que se ha preferido utilizar VL, en lugar de VLA, porque tiene un sentido más amplio y, en ocasiones, por razones estéticas, en lugar de la media aritmética muestral (MA) se utiliza  y en lugar de la desviación estándar muestral (DS) se utiliza S.

Por otro lado, como el porcentaje de exposiciones que excede el VL podría ser superior al 5%, sin tener en cuenta ningún nivel de confianza, antes de acometer la prueba estadística interesará comprobar este extremo.

Comprobación de que P95 no supera el VL sin ningún nivel de confianza

Se comprobará si el valor del percentil 95 supera el VL.

Distribución lognormal:              
                      Si P95 = MG x DSG1,645 > VL     =>     No conformidad
Distribución normal:     
                Si P95 = MA + 1,645 x DS > VL    =>    No conformidad

Siendo MG la media geométrica muestral
             DSG la desviación estándar geométrica muestral

             MA la media aritmética muestral
             DS la desviación estándar muestral

Determinación del porcentaje de exposiciones que supera el VL con un nivel de confianza del 70%

P es la fracción de exposiciones que supera el VL,  con un nivel de confianza del 100(1−α)%  y 1-P es la fracción de exposiciones que están por debajo o igualan al VL, con el mismo nivel de confianza.
1-α es el nivel de confianza de la decisión de conformidad que se va a verificar, en este caso 0,7.

En la distribución normal N(σ,S), se puede establecer un intervalo de confianza unilateral en torno al valor de la variable X1-P, que deja a su izquierda una fracción acumulada de exposiciones 1-P, con un nivel de confianza del 70%, cuyo límite superior de confianza (LSC), de dicho intervalo unilateral, sea igual al VL (Figura 2). 

Figura 2

Si ahora se tipifica la variable concentración (X) mediante Z =  , en la distribución normal estándar N(0,1) resultante, se puede establecer asimismo un intervalo del confianza unilateral, en torno a cierto Z1-P, tal que deja a su izquierda en una cola la fracción acumulada de exposiciones 1- P, con un nivel de confianza del 70%, cuyo LSC de dicho intervalo unilateral sea igual a (VL- )/S = UR[4]. Este UR es uno de los parámetros del anexo informativo F de la norma.

Por otro lado, si  y S son la media y desviación estándar de una muestra aleatoria de tamaño n ≤ 30, de una población normal N(µ,σ) de la que se desconoce la varianza σ2 de la población, el estadístico T:                      

Sigue una t de Student no centrada, con n-1 grados de libertad[5], en que el parámetro de no centralidad es δ = -zP√n  = z1-P √n; [Lyles y Kupper (1996)[6]; Johnson y Welch (1940)[7]], que es de la forma:

                                          

Donde Z =           variable tipificada ~ N(0,1)         

              se distribuye como una de n-1 grados de libertad

En esta distribución t se puede establecer, con un nivel de confianza del 100(1−α)%, un intervalo de confianza unilateral cuyo LSC sea UR.√n (Figura 3). Y a partir del valor Xt de t1-α(n-1,δ) igual a UR.√n se puede obtener el parámetro de no centralidad         δ= Z1-P √n  y, por ende, el valor buscado de la variable tipificada  Z1-P = δ / √n.



Figura 3. Distribución t de Student no centrada

Este valor de la variable tipificada Z1-P es tal que Pr(Z ≤ Z1-P) representa la fracción de todas las exposiciones (medidas y no medidas) que, con un nivel de confianza del 70%, no supera o iguala el VL. Y, por lo tanto, Pr(Z > Z1-P) será la fracción de todas exposiciones que excede el VL.

Para terminar la prueba estadística, tal como se formula en la parte normativa de la norma, solamente quedaría comprobar si Pr(Z > Z1-P) es menor del 5%. De ser así, todas las exposiciones en el GES estarían en conformidad con el criterio de VL utilizado.

Esta sería la explicación de la prueba estadística según se formula en la parte normativa y el modus operandi será mejor explicarlo con un caso práctico. Se supone que ya se ha comprobado que el agrupamiento del GES es adecuado.


Caso 1. Ejemplo práctico de determinación del porcentaje de exposiciones que excede el VL


Se ha configurado un GES de 4 trabajadores expuestos a TDI (VL = 36 µg/m3) que han sido muestreados durante tres días. Con el resultado que figura en la siguiente tabla I.  

Tabla I
Trabajador1
µg/m3
Trabajador 2
µg/m3
Trabajador 3
µg/m3
Trabajador 4
µg/m3
Día 1
9,66
5,66
1,92
Día 2
10,95
Día 3
1,75
0,69

1) Comprobación del tipo de distribución
Se elige la distribución lognormal.

2) Comprobación de que el porcentaje de exposiciones que supera el VL es inferior al 5%

Esta primera comprobación se hace sin tener en cuenta el nivel de confianza.
Se debe obtener P95 = MG x DSG1,645
Donde MG = 3,34 y DSG = 3,00
Como P95 = 3,34 x 3,001,645 = 20,35 es menor que el VL, se continúa con la prueba.

3) Obtención de UR

UR = [ln(VL)-ln(MG)]/ln(DSG)] = (3,58352 – 1,20597)/3,00 = 2,164

4) Obtención del valor Xt de ; t1-α(n-1,δ) = U R.√n

Valor de la variable Xt de t1-α(n-1,δ)  = 2,164.√6 = 5,301 (Figura 4).


Figura 4. Localización del valor  Xt = t0,7(n-1,δ) 

5) Obtención del parámetro de no centralidad δ

Se puede obtener δ de dos maneras: 1) mediante la función 𝑝t(Xt, n-1, 𝛿) = 0,70 de código R y tras un proceso iterativo para 𝑝𝑡(5.301, 5, 𝛿) = 0,70 se obtendría δ = 3,985. Aunque es más inmediato 2) utilizar el Keisan online calculator de Casio[8] (Figura 5).

Figura 5. Keisan online calculator de Casio

6) Obtención del valor de la  variable tipificada  Z1-P

Se obtiene Z1-P = δ / √n = 3,985/ √n = 1,627
Y a partir del valor obtendremos el porcentaje 100(1-P)% de exposiciones que no superan o igualan al VL y, de este modo, comprobaríamos si el 100P% de exposiciones que superan el VL o, en su caso, el ln(VL), es menor del 5%, condición de conformidad, o no.

Pr(Z ≤ 1,627) = 0,948  y Pr(Z > 1,627) = 0,052 => 5,2%      No Conformidad


De todas las herramientas habitualmente utilizadas, la única que proporciona el dato de porcentaje de exposiciones que no superan el VL con el nivel de confianza exigido es HYGINIST.

Ahora bien, entre los requisitos que la norma establece para la redacción del informe, uno de ellos indica que se especifique la comparación de los resultados de las mediciones con el valor límite. Se ha realizado la prueba estadística conforme a lo que se indica en la parte normativa pero no disponemos aún de la información que debe reflejar el informe. Veamos cómo se puede solventar esto.







[1] O sobre la fracción 99,9 sin ningún nivel de confianza (Anexo D de la primera versión).
[2] Este nivel de tolerancia (< 5%) es generalmente aceptado desde que Leidel, Bush y Linch, de NIOSH, lo establecieran en Occupational exposure sampling strategy manual. DHEW (NIOSH) publication nº 77-173.
[3] W es el estadístico obtenido al realizar el test y Wα es un valor tabulado para un nivel de significancia α y un tamaño de muestra determinado. Si W < Wα la suposición de normalidad debe rechazarse.

[4] En el caso de distribución lognormal UR = [ln(VL)-ln(MG)]/ln(DSG).
[5] Tugle R.M. lo aplicó por vez primera a la Higiene industrial en [The NIOSH Decisión Scheme. AIHA Journal, 42, 493-498 (1981)] y en [Assessment of Occupational Exposure Using One-Sided Tolerance Limits, AIHA Journal, 43, 338-346 (1982)].  
[6] En [On strategies for comparing occupational exposure data to limits. AIHA Journal. 1996 Jan;57(1):6-15].
[7] En [Applications of the Non-Central t-Distribution Jan 1940. Biometrika]. 
[8] https://keisan.casio.com/exec/system/1234508566 (introduciendo Xp = 0.7UR y n-1 se obtiene δ).
[9] https://keisan.casio.com/menu/system/000000000540 (introduciendo  se obtendría el 100(1-P)% de exposiciones que no supera o iguala al VL).



Descarga esta entrada (848k)