Publicaciones tecnicales por los CIL

Pruebas de competencia de laboratorio: Propuestas para límites que equilibren los riesgos de activar falsas alertas y la falta de alertas verdaderas

Las pruebas de aptitud se basan en puntuaciones que no deben superar los límites (normalmente 2 y 3 para el sesgo) y comprueban si los participantes pertenecen a la población principal. Estos límites son siempre convencionales y los riesgos teóricos α asociados no son siempre los mismos (los límites 2 y 3 corresponden al 2,275 % y al 0,135 %, mientras que la norma ISO 5725-2 considera riesgos del 1 % y del 5 %). La práctica habitual de utilizar 2 niveles de advertencia permite distinguir entre rendimientos dudosos y malos. Sin embargo, con estos límites no se tienen en cuenta las probabilidades de no declarar los resultados de los participantes como valores atípicos (riesgo β). En este estudio, definimos una zona «dudosa» como aquella en la que tanto los riesgos α como β son bajos y equilibrados, en lugar de ignorar el riesgo β. Esto evita las situaciones habituales en las que β es muy grande, es decir, PT con una potencia muy baja. Determinamos los límites correspondientes para evaluar el sesgo y la repetibilidad con α=β=1 % a un nivel de confianza del 90 %. En cuanto al sesgo, estas «bandas de duda» son similares a las habituales cuando n=110, se amplían para valores más bajos de n y viceversa. También determinamos los límites utilizando métodos no paramétricos, que luego expresamos como rangos en lugar de puntuaciones. Como era de esperar, esto es menos eficiente y potente, y solo debe utilizarse cuando no se pueden utilizar métodos paramétricos.

Véase el texto completo en inglés: Proposals for balanced limits of alerts

Véase el texto completo en francés: Propositions de limites d’alertes équilibrées

Ensayos de aptitud para la repetabilidad

La repetibilidad es una característica principal del rendimiento de un laboratorio. Sin embargo, la norma ISO 13528 no proporciona mucha información al respecto y las herramientas de la norma ISO 5725-2 (es decir, el algoritmo de Cochran y las puntuaciones k de Mandel) están pensadas para identificar valores atípicos más que para evaluar el rendimiento de los participantes. Para abordar esta cuestión, desarrollamos una nueva «puntuación zr» basada en la conocida ecuación de distribución de las estimaciones de las desviaciones estándar. Se discuten las condiciones de validez de cualquier evaluación de la repetibilidad (es decir, parámetros estadísticos adecuados, homocedasticidad, métodos para determinar un valor asignado de repetibilidad, heterogeneidad de los especímenes de prueba y relación con el esquema de experimentos, valores atípicos, ...). El esquema de PT debe estar bien diseñado para poner a la luz los verdaderos valores de las desviaciones estándar de repetibilidad de los participantes. Se utilizó un estudio de Monte-Carlo para comprobar la eficacia y la potencia de la evaluación de la repetibilidad, utilizando zr-score, Mandel k-scores y el algoritmo de Cochran (los métodos de la norma ISO 13528 parecían muy deficientes y no se incluyeron). zr-score parecía ser el más sencillo y el más eficaz de los 3. Además, los 3 métodos parecían bastante potentes para detectar todos o casi todos los valores atípicos, incluso con sólo 10 participantes.

Véase el texto completo en inglés: Proficiency tests for repeatability

Véase el texto completo en francés: Essais d'aptitude pour la répétabilité

Intervalos de confianza en desviaciones estándar anidadas (o en varianzas anidadas)

En muchas situaciones, es necesario calcular las desviaciones típicas (DT) a partir de un diseño anidado. Esto suele ocurrir en procedimientos de control de calidad y en comparaciones entre laboratorios. En tales situaciones, los fundamentos para calcular las DT son bien conocidos, pero los métodos existentes para calcular el intervalo de confianza (IC) sobre ellas son bastante insatisfactorios. En particular, no tienen en cuenta en absoluto los valores negativos que se encuentran a menudo para las varianzas estimadas correspondientes. Este artículo proporciona ecuaciones que describen bien las distribuciones de las varianzas de los niveles anidados y su dispersión, siempre que se conozcan sus valores reales. Se consideran tanto los casos de 2 niveles anidados como los de más de 2 niveles anidados. Invertirlas para averiguar el IC sobre los valores verdaderos de las varianzas en función de sus estimaciones es desgraciadamente imposible cuando se desconocen las varianzas de los niveles inferiores. Sin embargo, este artículo propone ecuaciones de aproximación que pueden utilizarse cuando cabe esperar que el impacto de las varianzas de los niveles inferiores sea bajo. También se proponen métodos para comprobar si se cumple esta condición. Cuando no es así, es necesario aumentar el número de repeticiones en los niveles inferiores para obtener una determinación aceptable del IC.

Véase el texto completo en inglés: Intervals of confidence on nested standard deviations

Véase el texto completo en francés: Intervalles de confiance sur écarts-types emboîtés

Intervalos de confianza sobre cuantiles de distribuciones gaussianas

En determinadas situaciones, normalmente cuando hay que hacer declaraciones de conformidad, hay que estimar los valores de los cuantiles de una distribución gaussiana. Si bien el cálculo de una estimación cuantílica es sencillo, el cálculo del intervalo de confianza asociado no lo es en absoluto. El conocimiento de este tipo de intervalo de confianza es especialmente necesario cuando se requieren niveles de confianza para las decisiones de conformidad, ya se trate de límites mínimos o máximos o de valores característicos. Este documento proporciona la base técnica para su cálculo, tablas de límites de intervalos de confianza calculados por el método de Monte Carlo en función del cuantil deseado y del nivel de confianza, un archivo Excel para calcularlos, los números mínimos de valores necesarios para obtener un intervalo de confianza dado y fórmulas empíricas para estimarlos para los valores habituales de cuantil deseado y nivel de confianza.

Véase el texto completo en inglés: Intervals of confidence on estimates quantile of a Gaussian distribution

Véase el texto completo en francés: Intervalles de confiance sur les estimations de quantiles de distributions gaussiennes

Garantizar la fiabilidad de las determinaciones de incertidumbre de los resultados de las pruebas.

Los resultados de CompaLab CEL (comparaciones entre laboratorios) muestran que las incertidumbres son significativamente subestimadas por los participantes. Puede establecerse una gradación de métodos de ensayo, desde los principalmente metrológicos hasta los métodos cuyas fuentes de incertidumbres son principalmente cualitativas. Las incertidumbres están globalmente bien determinadas para los primeros, mientras que están globalmente subestimadas por un factor 10 o más para los últimos. Esto se debe probablemente a la elección masiva del método B de la GUM para determinarlas, sea cual sea el método de ensayo. Sin embargo, el método B es eficaz en metrología, pero no cuando existen importantes fuentes cualitativas de incertidumbre. La GUM también carece de orientaciones sobre algunas cuestiones específicas de los ensayos. Además, los resultados de las CEL y de la vigilancia de la calidad de los laboratorios pueden reutilizarse para el método A de la GUM, que proporciona estimaciones bastante mejores de las incertidumbres y requiere mucho menos tiempo y dinero que el método B. Cuando la determinación precisa de las incertidumbres es importante, deberían organizarse experimentos colaborativos del método A (es decir, CEL diseñadas específicamente), cuyos resultados pueden utilizarse después en programas internos de vigilancia de la calidad muy eficaces. La determinación de las incertidumbres debería comenzar siempre por una aclaración sobre el uso que se pretende hacer de ellas y una recopilación de la información disponible sobre la precisión de las pruebas. De ello depende en gran medida el método más adecuado para determinar las incertidumbres y, en la mayoría de los casos, la respuesta no es el método B.

Véase el texto completo en inglés: Reliability of uncertainties of test results

Véase el texto completo en francés: Fiabilité des déterminations d'incertitude

Comparaciones interlaboratorios para ensayos de dureza: interpolación de los valores asignados en función de las cargas

Se investiga la posibilidad de evaluar en un ensayo de aptitud de laboratorio los resultados de ensayo de dureza de una escala Brinell o Vickers determinada cuando se dispone de una cantidad suficiente de resultados de ensayo para escalas adyacentes. Se han encontrado 5 métodos diferentes para determinar el valor asignado y 2 métodos diferentes para determinar la desviación típica de aptitud, la desviación típica de repetibilidad y la incertidumbre sobre el valor asignado. La mejor opción depende de las condiciones de ensayos interlaboratorios. Se describe un procedimiento para tratar las distintas opciones posibles y proponer parámetros que permitan comprobar la adecuación de cada una de ellas para ayudar a la elección de la más adaptada. Se realiza una evaluación de los resultados obtenidos con este procedimiento sobre los resultados del CompaLab ILC obtenidos durante los años 2017-2023, obteniéndose diferencias muy pequeñas en la puntuación de los participantes para las escalas disponibles. Cuando el tamaño de los datos de entrada es grande, es incluso probable que la puntuación de salida sea más eficiente que la habitual.

Véase el texto completo en inglés: ILC about hardness: Interpolation of VA according to load

Véase el texto completo en francés: CIL de duretés : Interpolation des VA selon les charges

Rankits apropiados para gráficos de probabilidad normal y gráficos de probabilidad de desviación estándar

Los gráficos de probabilidad normal suelen utilizarse para comprobar si una distribución puede considerarse gaussiana, visualizar si algunas cifras pueden ser valores atípicos y, mediante una regresión lineal, estimar su valor medio y su desviación típica. Del mismo modo, los "gráficos de probabilidad SD", basados en la distribución de las estimaciones de la desviación típica, podrían ser muy útiles para alcanzar objetivos similares: comprobar si se puede aceptar o no una hipótesis de homocedasticidad, visualizar las estimaciones que probablemente sean atípicas y estimar la verdadera desviación típica subyacente. En la práctica, es necesario un cambio de variable para cambiar el rango de cada valor en una probabilidad acumulada correspondiente y una transformación gaussiana inversa para obtener un "rankit" que se utilizará como ordenadas para estos gráficos. Para determinar las probabilidades acumuladas adecuadas se suelen utilizar ecuaciones en forma de (i-a)/(N+1-2a) con 0 ≤ a ≤ 1. De hecho, al menos para valores pequeños de N, la elección del valor de "a" tiene un impacto importante en las conclusiones que se extraigan posteriormente. En este documento:

Discute los fundamentos de estas ecuaciones;
Evalúa su adecuación para una serie de situaciones y tipos de leyes de distribución;
Propone ecuaciones para determinar los valores de "a" en función de N, que proporcionan mejores rangos que los utilizados habitualmente y permiten estimar valores medios y/o desviaciones típicas sin ningún sesgo para una serie de situaciones;
Propone una forma precisa de determinar curvas envolventes de confianza para diagramas de probabilidad normal y diagramas de probabilidad de cualquier distribución cuya función acumulativa sea conocida.

Véase el texto completo en inglés: Appropriate rankits for normal probability plots

Véase el texto completo en francés: Rankits appropriés pour tracés de probabilités cumulées

Riesgos beta en los ensayos de aptitud

Resumen:

Se aplica el método de Monte Carlo a los esquemas de EA (ensayos de aptitud) para investigar su eficacia. Se calculan las probabilidades de que los valores z computados sean superiores a 3 mientras que el valor verdadero es inferior a 2 y de que los valores z computados sean inferiores a 2 mientras que los valores verdaderos son superiores a 3 para una serie de situaciones: número de participantes de 5 a 30, diversas proporciones de repetibilidad sobre reproducibilidad y número de resultados de pruebas por participante, introducción o no de valores atípicos con z de 3,5 a 10. Para cada situación se discuten las probabilidades de no detectar valores atípicos verdaderos y de desencadenar falsas alertas. Para cada situación, se analizan las probabilidades de no detectar verdaderos valores atípicos y de desencadenar falsas alertas. Se proponen orientaciones y claves para comprobar y mejorar la eficacia de los programas de EA reales.

Resumen de conclusiones:

La relación λ=σr/(σL×Nr) es de principal importancia para controlar la eficiencia de un esquema de EA, incluso más que el número de participantes. Los proveedores de EA deben entonces cuidar Nr, número de resultados de pruebas por participante que solicitan;
Incluso en condiciones adversas, el riesgo α es siempre muy bajo (menos del 0,7%);
Los algoritmos robustos mejoran la eficiencia del programa de EA (es decir, el riesgo β) con un ligero gasto en el riesgo α (que siempre sigue siendo muy bajo). Esto se debe a una estimación significativamente mejor de la desviación típica de referencia cuando hay un valor atípico entre los participantes y cuando se utilizan estos algoritmos robustos;
Un número de 6 participantes es suficientemente grande para detectar a un participante fuertemente atípico siempre que se den buenas condiciones de EA (es decir, un valor bajo de λ);
El TP con un número bajo de participantes es (casi) siempre mejor que ningún EA.

Las normas de referencia ISO 5725-2 e ISO 13528 recomiendan no organizar una CIL con menos de 12 participantes. Esto tiene sentido para la norma ISO 5725-2, cuyo objetivo es determinar el rendimiento de un método de ensayo. Tiene menos sentido para la norma ISO 13528, cuyo objetivo es comprobar el rendimiento de un laboratorio. Evidentemente, cuando no se organiza ningún Ensayo de Aptitud, el riesgo β es del 100%: ¡cualquier laboratorio que tenga un problema nunca podrá darse cuenta en absoluto! En consecuencia, para los métodos de ensayo que son realizados por un pequeño número de laboratorios, es obviamente mejor organizar PT con 6 participantes que nada. En esos casos, el proveedor de EA debe tener especial cuidado con el número de resultados de pruebas por participante que solicita, para garantizar un valor λ adecuado y, en consecuencia, asegurar una eficiencia lo mejor posible.

Véase el texto completo en inglés: Beta risks in proficiency testing

Véase el texto completo en francés: Risques béta lors d'essais d'aptitude

Publicación científica relacionada (en inglés)