Publications techniques en lien avec les CIL

Essais d’aptitude des laboratoires : Propositions de limites pour équilibrer les risques de fausse alerte et de défaut de vraies alertes

Les EA reposent sur des scores qui ne doivent pas dépasser certaines limites (généralement 2 et 3 pour le biais) afin de vérifier si les participants appartiennent à la population principale. Ces limites sont toujours conventionnelles et les risques α théoriques associés ne sont pas toujours les mêmes (les limites 2 et 3 correspondent à 2,275 % et 0,135 %, tandis que la norme ISO 5725-2 considère des risques de 1 % et 5 %). La pratique habituelle consistant à utiliser 2 niveaux d'alerte permet de distinguer les performances douteuses et les mauvaises. Cependant, les probabilités de ne pas déclarer les résultats des participants comme des valeurs aberrantes (risque β) ne sont pas prises en compte par ces limites. Dans cette étude, nous avons défini une zone « de doute » comme celle où les risques α et β sont faibles et équilibrés plutôt que d'ignorer le risque β. Cela évite les situations habituelles où β est très élevé, c'est-à-dire un EA avec une puissance très faible. Nous avons déterminé les limites correspondantes pour évaluer le biais et la répétabilité avec α=β=1 % à un niveau de confiance de 90 %. Pour le biais, ces « bandes de doute » sont proches des bandes habituelles lorsque n=110, plus larges pour des valeurs inférieures de n et vice-versa. Nous avons également déterminé des limites à l'aide de méthodes non paramétriques, qui sont alors exprimées sous forme de rangs plutôt que de scores. Sans surprise, cette méthode est moins efficace et moins puissante et ne devrait être utilisée que lorsque les méthodes paramétriques ne peuvent pas être utilisées.

Télécharger le document: Propositions de limites d’alertes équilibrées

Essais d'aptitude pour la répétabilité

La répétabilité est l'une des principales caractéristiques de la performance d'un laboratoire. Cependant, la norme ISO 13528 ne fournit pas beaucoup d'informations à ce sujet et les outils de la norme ISO 5725-2 (l'algorithme de Cochran et les k-scores de Mandel) sont destinés à identifier les valeurs aberrantes plutôt qu'à évaluer les performances des participants. Pour résoudre ce problème, nous avons développé un nouveau « zr-score » basé sur l'équation bien connue de la distribution des estimations des écarts types. Les conditions de validité de toute évaluation de la répétabilité sont discutées (paramètres statistiques adéquats, homoscédasticité, méthodes pour déterminer une valeur assignée de répétabilité, hétérogénéité des spécimens testés en relation avec le plan d’évaluation, valeurs aberrantes, ...). Le plan d’essais d’aptitude doit être conçu pour bien mettre en lumière les vraies valeurs des écarts types de répétabilité des participants. Une étude Monte-Carlo a été utilisée pour vérifier l'efficacité et la puissance de l'évaluation de la répétabilité, en utilisant le zr-score, les k-scores de Mandel et l'algorithme de Cochran (les méthodes de l'ISO 13528 sont apparues très peu performantes et n'ont pas été incluses). Le zr-score apparait le plus simple et le plus efficace des trois. En outre, les trois méthodes apparaissent assez puissantes pour détecter toutes ou presque toutes les valeurs aberrantes, même avec seulement 10 participants.

Télécharger le document: Essais d'aptitude pour la répétabilité

Intervalles de confiance sur écarts-types emboîtés (ou sur variances imbriquées)

Dans de nombreuses situations, les écarts types (ET) doivent être calculés à partir d'un plan emboîté. Cela se produit généralement dans les procédures de contrôle de la qualité et dans les comparaisons interlaboratoires. Dans de telles situations, les bases du calcul des écarts-types sont bien connues, mais les méthodes existantes pour calculer l'intervalle de confiance (IC) sur ces écarts-types sont plutôt insatisfaisantes. En particulier, elles ne tiennent pas du tout compte des valeurs négatives souvent rencontrées pour les variances estimées correspondantes. Cet article fournit des équations qui décrivent bien les distributions des variances des niveaux emboîtés et de leur dispersion, à condition que les vraies valeurs de ces variances soient connues. Les cas de 2 niveaux imbriqués et de plus de 2 niveaux imbriqués sont pris en compte. L'inversion de ces équations pour trouver l’IC sur les valeurs réelles des variances en fonction de leurs estimations est malheureusement impossible lorsque les variances des niveaux inférieurs sont inconnues. Toutefois, cet article propose des équations approchées qui peuvent être utilisées lorsque l'on peut s'attendre à ce que l'impact des variances des niveaux inférieurs soit faible. Des méthodes permettant de vérifier si cette condition est remplie sont également proposées. Si ce n'est pas le cas, le nombre de répétitions aux niveaux inférieurs doit être augmenté pour obtenir une détermination acceptable de l’IC.

Télécharger le document: Intervalles de confiance sur écarts-types emboîtés

Intervalles de confiance sur les quantiles de distributions gaussiennes

Dans certaines situations, typiquement lorsque des déclarations de conformité doivent être déclarées, les valeurs du quantile d'une distribution gaussienne doivent être estimées. Si le calcul d'une estimation de quantile est facile, le calcul de l'intervalle de confiance qui lui est associé ne l'est pas du tout. La connaissance de ce type d'IC est particulièrement nécessaire lorsque des niveaux de confiance concernant les décisions de conformité sont requis, que les spécifications soient des limites minimales ou maximales ou des valeurs caractéristiques. Ce document fournit les bases techniques de leur calcul, des tables de limites d'IC calculées par la méthode de Monte-Carlo en fonction du quantile et du niveau de confiance souhaités, un fichier Excel permettant de les calculer, les nombres minimaux de valeurs nécessaires pour obtenir un intervalle de confiance donné, ainsi que des formules empiriques permettant de les estimer pour les valeurs habituelles de quantile et de niveau de confiance souhaités.

Télécharger le document: Intervalles de confiance sur les estimations de quantiles de distributions gaussiennes

Assurer la fiabilité des déterminations d'incertitudes sur les résultats d'essais

Les résultats des CIL (comparaisons interlaboratoires) CompaLab montrent que les incertitudes sont largement sous-estimées par les participants. Une gradation des méthodes d'essai peut être établie, allant de méthodes principalement métrologiques à des méthodes dont les sources d’incertitude sont principalement qualitatives. Les incertitudes sont globalement bien déterminées pour les premières alors qu'elles sont globalement sous-estimées d'un facteur 10 ou plus pour les dernières. Cela provient probablement d'un choix prépondérant de la méthode B du GUM pour les déterminer, quelle que soit la méthode d'essai. Or, si la méthode B est efficace en métrologie, elle ne l'est pas en présence de sources d'incertitude qualitatives importantes. Le GUM manque également de recommandations sur certaines questions spécifiques aux essais. En outre, les résultats des CIL et de la surveillance de la qualité des laboratoires peuvent être réutilisés en méthode A du GUM, qui fournit de bien meilleures estimations des incertitudes et demande beaucoup moins de temps et d'argent que la méthode B. Lorsqu'une détermination précise des incertitudes est importante, des expériences collaboratives selon la méthode A (c'est-à-dire des CIL dédiées) devraient être organisées, dont les résultats peuvent ensuite être utilisés dans des programmes internes de surveillance de la qualité très efficaces. La détermination des incertitudes devrait toujours commencer par une clarification de leur utilisation prévue et une collecte des informations disponibles concernant la précision des essais. La méthode la plus appropriée pour déterminer les incertitudes dépend fortement de ces éléments et, dans la plupart des cas, la réponse n'est pas la méthode B du GUM.

Télécharger le document : Fiabilité des déterminations d'incertitude

Comparaisons inter-laboratoires d’essais de dureté : interpolation des valeurs assignées en fonction des charges

La possibilité d'évaluer les résultats d'essais de dureté d'une échelle Brinell ou Vickers donnée dans le cadre d'un essai d'aptitude de laboratoire lorsqu'un nombre suffisant de résultats d'essais est disponible pour les échelles adjacentes est étudiée. 5 méthodes différentes ont été trouvées pour déterminer la valeur assignée et 2 méthodes différentes ont été trouvées pour déterminer l'écart-type de biais, l'écart-type de répétabilité et l'incertitude sur la valeur assignée. La meilleure option dépend des conditions d'essais interlaboratoires. Une procédure est décrite pour traiter les différentes options possibles et proposer des paramètres pour vérifier l'adéquation de chacune d'entre elles afin de faciliter le choix de la plus adaptée. Une évaluation des résultats obtenus avec cette procédure sur les résultats des CIL CompaLab obtenus au cours des années 2017-2023 a été réalisée, conduisant à de très faibles différences dans la cotation des participants pour les échelles disponibles. Lorsque la taille des données d'entrée est importante, la cotation de sortie est même susceptible d'être plus efficace que la cotation habituelle.

Télécharger le document : CIL de duretés : Interpolation des valeurs assignées selon les charges

Rankits appropriés pour les tracés de droites de Henry et les tracés de droites de distribution d’estimateurs d’écart-types

Les droites de Henry sont habituellement utilisées pour vérifier si une distribution peut être considérée comme gaussienne, pour visualiser si certaines données sont susceptibles d'être aberrantes et, à l'aide d'une régression linéaire, d'estimer sa valeur moyenne et son écart-type. De la même manière, les tracés de « droites de distribution ET », basés sur la distribution des estimations de l'écart-type, pourraient être très utiles pour atteindre des objectifs similaires : vérifier si une hypothèse d'homoscédasticité peut être acceptée ou non, visualiser les estimations susceptibles d'être aberrantes, et estimer l’écart-type vrai sous-jacent. Dans la pratique, un changement de variable est nécessaire pour changer le rang de chacune des valeurs en une probabilité cumulée correspondante puis une transformation gaussienne inverse pour obtenir un "rankit" à utiliser comme ordonnée pour ces graphiques. Une équation de la forme (i-a)/(N+1-2a) avec 0 ≤ a ≤ 1 est généralement utilisée pour déterminer les probabilités cumulées adéquates. De fait, au moins pour les petites valeurs de N, le choix de la valeur "a" a un impact important sur les conclusions qui en sont tirées. Ce document :

Examine les fondements de ces équations ;
Evalue leur adéquation pour une série de situations et de types de lois de distribution ;
Propose des équations pour déterminer les valeurs de « a » en fonction de N, ce qui fournit de meilleurs rankits que ceux habituellement utilisés et permettent la détermination sans biais de moyennes et/ou d’écarts-types pour un certain nombre de cas ;
Propose une méthode précise pour déterminer les courbes enveloppes de confiance pour les tracés de droites de Henry et les tracés de probabilités cumulées de n'importe quelle distribution dont la fonction cumulative est connue.

Télécharger le document : Rankits appropriés pour tracés de probabilités cumulées

Risques Béta en fonction du nombre de participants

Résumé :

La méthode de Monte Carlo a été appliquée aux plans d’études d’essais d’aptitude (EA) pour étudier leur efficacité. Les probabilités que les valeurs z calculées soient supérieures à 3 alors que la valeur réelle est inférieure à 2 et que les valeurs z calculées soient inférieures à 2 alors que les valeurs réelles sont supérieures à 3 sont calculées pour une série de situations différentes : nombre de participants de 5 à 30, différents rapports de répétabilité sur reproductibilité et nombre de résultats d’essais par participant, introduction ou non de valeurs aberrantes avec z de 3,5 à 10. Pour chaque situation, les probabilités de ne pas détecter les vraies valeurs aberrantes et de déclencher de fausses alertes sont discutées. Des conseils et des clés sont proposés pour vérifier et améliorer l'efficacité des programmes réels d’EA.

Résumé des conclusions :

Cette étude démontre que :

Le rapport λ=σr/(σL×Nr) est d'une importance capitale pour contrôler l'efficacité d'un programme d’EA, plus encore que le nombre de participants. Les fournisseurs de services d'EA doivent alors se soucier de N_r, nombre de résultats d'essais par participant qu'ils demandent ;
Même dans des conditions défavorables, le risque α est toujours très faible (moins de 0,7%) ;
Les algorithmes robustes améliorent l'efficacité du programme d’EA (c'est-à-dire le risque β) au détriment du risque α (qui reste cependant toujours très faible). Cela provient d'une estimation nettement meilleure de l'écart-type de référence lorsqu'une valeur aberrante est présente parmi les participants lorsque ces algorithmes sont utilisés ;
Un nombre de 6 participants est suffisant pour détecter des résultats fortement aberrants, à condition que de bonnes conditions d’EA (c'est-à-dire une faible valeur de λ) soient présentes ;
Un EA avec un faible nombre de participants est (presque) toujours meilleure que l'absence d’EA.

Les normes de référence ISO 5725-1 et ISO 13528 recommandent de ne pas organiser de CIL avec moins de 12 participants. Cela fait sens pour l'ISO 5725-1, dont l’objectif est de déterminer la performance d'une méthode d'essai. Cela a moins de sens pour l'ISO 13528, dont l’objectif est de vérifier la performance d'un laboratoire. De toute évidence, lorsqu'aucun essai d’aptitude n'est organisé, le risque β est de 100% : tout laboratoire ayant un problème ne peut jamais s'en rendre compte ! Par conséquent, pour les méthodes d'essai qui sont exécutées par un petit nombre de laboratoires, il est évidemment préférable d'organiser un EA avec 6 participants plutôt que rien. Dans ces cas, le fournisseur d’EA doit prendre un soin particulier pour définir le N_r qu'il demande, afin d'assurer une valeur λ correcte et par conséquent une efficacité aussi bonne que possible.

Télécharger le document : Risques béta lors d'essais d'aptitude

Voir la Publication scientifique correspondante (en anglais)