Automatisme

Un système de sécurité SIL3 peut en cacher un autre

Simplex, redondant, tripliqué. Comment peuvent-ils tous être certifiés pour un même niveau de sécurité et quelles sont leurs différences?
Dans les applications de systèmes de sécurité, de nombreuses technologies ont été utilisées. Les premières étaient sur la base de relais, une solution « Fail Safe » simple et efficace qui a fait ses preuves.
Dans les années 60, des solutions à base de semi-conducteurs ont été introduites pour remplacer ces relais. Ces systèmes apportaient des caractéristiques supplémentaires sans apport logiciel. En 1969, les automates programmables sont arrivés sur le marché, pour des applications de sécurité, se substituant ainsi aux versions relais. Des problèmes inhérents à la technologie des automates programmables conventionnels ont vite été détectés, dans leur mise en œuvre, sur des applications de sécurité. Il s’agissait principalement du manque de diagnostics fiables. Des automates de sécurité TMR (triples redondants) pour les applications de contrôle critique et de sécurité ont été développés au début des années 80. La concurrence entre fournisseurs était rude et chacun tentait de se différencier.
Un des premiers éléments différenciateurs mis en place fut la certification par des tiers. Le premier système de sécurité fut certifié par un organisme allemand (suivant la norme DIN 19250), qui maintenant effectue les certifications en considérant les Safety Integrity Level (Niveau d’Intégrité de Sécurité) SIL niveau 1/2/3 et 4 suivant les préceptes de la norme CEI 61508. Après les systèmes de sécurité tripliqués, une technologie redondante 1oo2D avec diagnostics est apparue. Ces systèmes ont aussi été certifiés pour des applications de sécurité de niveau SIL3 et sont entrés en concurrence avec les automates TMR. Les arguments étaient « moins d’électronique, moins cher, des performances identiques ». Certains systèmes simplex ont même été certifiés pour une utilisation en environnent SIL3. Simplex, redondant, tripliqué. Comment peuvent-ils tous être certifiés pour un même niveau de sécurité et quelles sont leurs différences?
Le Dilemme
Différents systèmes ont été développés par différents fabricants selon les régions du monde et les applications. Nombre de ces sociétés fournissent des solutions globales pour une large gamme d’applications industrielles allant des machines aux procédés en discontinu et continu. Un système de sécurité est un système de sécurité, n’est-il pas vrai ? Pas vraiment. Les exigences pour une petite protection machine ne sont pas les mêmes que celles pour les grosses applications dans un procédé continu. Cela n’empêche pas les fournisseurs d’essayer de pousser les solutions dans différentes applications. Les Anglais ont longtemps utilisé l’expression « A chaque cheval sa course » afin de décrire combien des applications différentes nécessitent des solutions différentes. Malheureusement, si vous ne possédez qu’un marteau (une solution), tout ressemble à un clou (une application idéale).
Les fournisseurs se concentrent naturellement sur la promotion de la certification de leurs systèmes (à juste titre, car obtenir une telle certification démontre une réalisation importante). Malheureusement, si l’on se concentre uniquement sur la sécurité, on n’aborde pas tous les problèmes. La disponibilité des installations est souvent aussi importante que la sécurité. C’est pour cette raison que certains systèmes (exemple le Feu & Gaz) sont conçus pour actionner sur commande à émission et non à manque, une action non nécessaire peut non seulement stopper la production, mais causer des détériorations de matériel et des accidents corporels.
Certifications vis-à-vis d’une norme
Les normes selon lesquelles les systèmes de sécurité sont certifiés (ex : CEI61508 : fonction de sécurité électrique / électronique / électronique programmable pour systèmes de sécurité) sont fondées sur l’exécution d’une tâche, et non la prescription. En d’autres termes, ces normes n’exigent pas explicitement une redondance pour atteindre des niveaux d’intégrité importants, pas plus qu’ils n’obligent à utiliser certaines technologies ou des intervalles de tests manuels ou automatiques. Ainsi, les normes abordent uniquement la sécurité (ex : le système va-t-il s’arrêter lorsqu’il est censé le faire?), pas la disponibilité en ligne (ex : le système va-t-il ne pas s’arrêter alors qu’il n’est pas censé le faire ?)
Avant de pouvoir comparer quelques systèmes et comprendre les exigences des normes, nous devons avant tout définir et couvrir quelques sujets de base.
Proportion de défaillances non dangereuses (Safe Failure Fraction)
Les défaillances des systèmes de sécurité ont été longtemps classées en deux catégories : non dangereuses (safe) et dangereuses. Les défaillances non dangereuses conduisent à un déclenchement intempestif et une perte de production. Les défaillances dangereuses sont celles qui empêchent le système de répondre à une véritable exigence. Des diagnostics internes sont utilisés afin de détecter au mieux une présence de défaut, mais ils ne peuvent jamais garantir une efficacité à 100%. Pour cette raison, il existe quatre catégories de défaillances, telles que montrées dans la Figure 1.
Figure 1: Catégories de défaillances
La proportion de défaillances non dangereuses (SFF=Safe failure fraction), une expression récemment utilisée dans les normes de l’industrie, se définit par la somme des défaillances non dangereuses plus les défaillances dangereuses détectées, divisée par le total de toutes les défaillances. Dans la répartition montrée dans la Figure 1, qui n’est qu’un exemple à titre illustratif, la SFF est de 75%.
Tolérance aux fautes matérielles
La redondance et la tolérance aux fautes ne sont pas identiques. La redondance est un terme vague sujet à une mauvaise interprétation. La définition de tolérance aux fautes est plus précise, mais elle aussi ne donne pas toute l’explication.
Une tolérance aux fautes matérielles de N signifie que N+1 fautes peuvent causer une perte de la fonction de sécurité. En d’autres termes, un système non redondant a une tolérance aux fautes de 0. Un système Un sur Deux (1oo2) et un système Deux sur Trois (2oo3) ont une tolérance aux fautes de 1, car 2 défauts simultanés provoqueraient une perte des fonctions de sécurité. Une tolérance aux fautes de 2 nécessite une architecture 1oo3 ou 2oo4.
Le Tableau 1 fait la liste des exigences de tolérance aux fautes afin d’atteindre les différents niveaux d’intégrité fondés sur la proportion de défaillances non dangereuses, suivant la norme CEI 61508.
Tableau 1: Exigences de tolérance aux fautes matérielles pour les éléments de type B (suivant CEI 61508 pour certification SIL)
Les éléments sont considérés de type B quand:
a) le mode de défaillance d’au moins un composant constituant n’est pas bien défini, ou
b) en présence de défaut, le comportement du sous-système ne peut pas être complètement déterminé, ou
c) il existe un manque de données sûres concernant les défaillances d’après l’expérience terrain de façon à appuyer les réclamations concernant les taux de défaillances dangereuses détectées et non détectées.
Les systèmes programmables fondés sur des logiciels sont considérés de type B.
Le vrai impact de la redondance
Quelques termes sont mal compris tels que la redondance. Aussi étrange que cela paraisse, double (Dual) n’est pas toujours meilleur que simple (Single) et triple (Triple) n’est pas toujours meilleur que double. Cela dépend du mode de défaillance.
Single (Simplex 1oo1)
Démarrons par un cas de base, dans un système d’architecture Un sur Un (1oo1) sans redondance. Imaginons une probabilité de défaillance non dangereuses (déclenchement intempestif) de 0,04 (4%) par an. En d’autres termes, sur 100 systèmes installés, 4 vont causer un déclenchement intempestif chaque année ou 1 système sur 25, ou une durée moyenne avant défaillance non dangereuse (MTTFsafe) de 25 ans.
Imaginons que la probabilité d’une défaillance dangereuse est de 0,02 (2%) par an. Vous pouvez voir cette hypothèse telle que 2 systèmes sur 100 ne vont pas réagir à une condition de sécurité sur une période d’un an, ou qu’1 système sur 50 ne répondra pas à une condition de sécurité par an, ou une durée moyenne avant défaillance dangereuse (MTTFdanger) de 50 ans. A ce stade, ces chiffres sont justes à titre comparatif.
Dual (double 1oo2)
Un système de sécurité Dual Un sur Deux (1oo2) dispose de sorties digitales câblées en série (si l’on considère des contacts fermés et alimentés). Chaque canal peut déclencher le système d’arrêt d’urgence. Dans la mesure où il y a 2 fois plus d’éléments électroniques, il y 2 fois plus de déclenchements intempestifs. Donc les 4% de risque d’un élément simple deviennent 8% pour des éléments doubles. Vous pouvez donc voir cette équation telle que 8 systèmes sur 100 pouvant déclencher intempestivement une action par an, ou 1 système sur 12,5 par an ou un MTTFsafe de 12,5 ans.
Un système de sécurité Dual Un sur Deux (1oo2) aura une défaillance dangereuse seulement si les 2 canaux ont une défaillance dangereuse en même temps. Si un élément était collé, l’autre ne serait pas alimenté et cela arrêterait le système. Quelle est la probabilité pour que deux défaillances se produisent simultanément ? C’est la probabilité d’une défaillance d’un seul élément au carré. Donc la probabilité que deux canaux défaillent en même temps est très faible (0,02 x 0,02 = 0,0004). Vous pouvez voir cette situation telle que 4 systèmes sur 10 000 ne répondront pas sur une année ou bien 1 système sur 2500 ne répondra pas sur un an, ou un MTTFdanger de 2 500 ans.
En d’autres termes, un système 1oo2 est très sûr (la probabilité d’une défaillance dangereuse est très faible), mais le système est victime de deux fois plus de déclenchements intempestifs, ce qui n’est pas plus avantageux au point de vue perte de production.
Figure 2: L’impact de la redondance
Dual (Double 2oo2)
Un système de sécurité Dual (double 2oo2) dispose de sorties câblées en parallèle et les deux canaux doivent être mis hors tension pour déclencher un arrêt d’urgence. Ce système aura une défaillance dangereuse sur un défaut simple d’un seul canal. Comme ce système possède 2 fois plus d’éléments électroniques qu’un système simple, il y a deux fois plus de risque d’obtenir une défaillance dangereuse. Donc les 0,02 d’un système simple sont doublés à 0,04. Nous pouvons considérer cette hypothèse telle que 4 systèmes sur 100 ne répondront pas à une demande sur une année écoulée, ou 1 système sur 25 ou un MTTFdanger de 25 ans.
Pour qu’un déclenchement intempestif se produise avec ce type de système, les deux canaux doivent être victimes d’une défaillance non dangereuse en même temps. Comme dans le cas précédent, la probabilité d’une double défaillance est le résultat d’une simple défaillance au carré. Les défaillances dues à des déclenchements intempestifs dans ce système sont rares (0,04 x 0,04 = 0,0016). Nous pouvons considérer cette hypothèse telle que 16 systèmes sur 10 000 pouvant générer un déclenchement intempestif par an ou 1système sur 625 ou un MTTFsafe de 625 ans.
Donc un système 2oo2 protège contre les déclenchement intempestifs (c’est-à-dire que la probabilité d’une défaillance non dangereuse est très faible) mais le système est moins fiable qu’un système simple, ce qui n’est pas souhaitable du point de vue de la sécurité. Ceci ne signifie que pas que les systèmes 2oo2 sont « mauvais », ou ne doivent pas être conçus. Si la probabilité de défaillance sur demande suffit aux besoins du niveau SIL du client, ce système est suffisamment sûr.
Triple (2oo3)
Les systèmes de sécurité TMR (Triple Modularité Redondant) ont été créés à la fin des années 1970 et commercialisés au début des années 80. Le choix de la triplication était très simple : les premiers automates programmables offraient des diagnostics limités. Par exemple, s’il n’y avait que deux signaux et qu’ils étaient discordants, il n’était pas toujours possible de déterminer lequel était correct. L’addition d’un troisième canal résolvait le problème. On peut supposer que le canal en désaccord est fautif et qu’il est mis en minorité par les deux autres. Un système 2oo3 est un système à vote majoritaire. Ce qu’indiquent deux canaux ou plus sera effectué par le système.
Ce qui étonne les clients au début, c’est que les systèmes 2oo3 ont un taux de déclenchements intempestifs supérieur à celui des systèmes 2oo2 et une probabilité de défaillance dangereuse plus forte que les systèmes 1oo2 (se référer à la figure 2 pour la comparaison des chiffres). C
rtains pensent donc initialement, « Attendez une minute, cela n’est pas possible ! ». En vérité, ceci est intuitivement évident si l’on y réfléchit seulement un instant.
Avec un système 1oo2, de combien de défauts simultanés avez-vous besoin pour obtenir une défaillance dangereuse ? Deux. Avec un système 2oo3, de combien de défauts simultanés avez- vous besoin pour obtenir une défaillance dangereuse ? Deux. Un système tripliqué possède plus de composants électroniques, d’où trois fois plus de combinaisons de défaillances simultanées ! (A+B, A+C, B+C)
Avec un système 2oo2, de combien de défauts simultanés avez-vous besoin pour obtenir un déclenchement intempestif ? Deux. Avec un système 2oo3, de combien de défauts simultanés avez-vous besoin pour obtenir un déclenchement intempestif ? Deux.
Même chose, un système tripliqué possède trois fois plus de combinaisons de défaillances simultanées! Un système tripliqué est en quelque sorte un compromis. Globalement, il est aussi bon dans les deux modes de fonctionnement, mais il n’est pas aussi bon que les deux systèmes Dual pris séparément. Cependant, un système Dual traditionnel n’est bon que dans un mode de fonctionnement ou dans un autre, mais pas dans les deux à la fois.
1oo2D
Si vous regardez attentivement les chiffres de la figure 2, vous pouvez voir que le système 1oo2 est plus sûr que le 2oo3 et que le 2oo2 obtient de meilleurs résultats contre les déclenchements intempestifs que le 2oo3. Si l’on pouvait concevoir un système Dual pour obtenir les meilleurs résultats des deux modes Dual, celui-ci pourrait surpasser les résultats d’un système tripliqué, du moins en théorie.
Les améliorations intervenues dans les composants et les logiciels depuis le début des années 80 sont telles que les défaillances dans les automates programmables Dual redondants peuvent aujourd’hui généralement être diagnostiquées de façon à détecter lequel des deux canaux est correct s’ils sont en désaccord.
L’industrie fait souvent référence à cette technologie relativement récente en la nommant 1oo2D, le D se rapportant aux diagnostics liés à des sorties accessoires. La théorie est une chose, la pratique en est une autre. Les utilisateurs potentiels doivent vérifier avec attention auprès des utilisateurs actuels de ce genre de systèmes. Des utilisateurs ont rapporté avoir désactivé intentionnellement certains diagnostics internes dus à des déclenchements intempestifs (causés par des discordances entre les deux canaux que le système ne pouvait pas interpréter). On peut discuter sur le fait de faire fonctionner un tel système contre les spécifications requises à la fois dans les manuels de sécurité et dans les certifications.
Quand un Simplex n’est pas vraiment un Simplex
Comment un système Simplex peut-il être certifié SIL3 ? C’est simple, c’est une question de diagnostics. Dans le tableau 1, on voit que si l’on peut montrer que la SFF (Fraction de défaillances non dangereuses) excède 99%, le système peut atteindre le niveau SIL3 avec une tolérance aux fautes de 0. Mais comment un tel système peut-il atteindre un niveau aussi élevé de diagnostics ? C’est simple, c’est une question de redondance. Parfaitement, de redondance! Ce n’est pas parce qu’un système possède un simple processeur et une carte E/S qu’il est Simplex. En fait, il y a des circuits et des traitements redondants (ou même des processeurs à l’intérieur) qui fonctionnent selon une configuration typique 1oo2. Un tel système utilise différents logiciels compilés à partir du même code source et traités de manière différente, en réalité comme un 1oo2.
Comme démontré précédemment, alors que le principe 1oo2 est sûr (ce qui est couvert par toutes les normes et les agences de certification), de tels systèmes provoquent davantage de déclenchements intempestifs. Dès que les canaux sont en discordance – et cela arrive au bout d’un certain temps – le système déclenchera un arrêt de sécurité. Le système est sûr, mais pas vraiment disponible. Ceci convient bien dans le domaine de la protection de machines (c’est la raison pour laquelle certains de ces systèmes ont été créés, à l’origine) où si une presse industrielle sur trente s’arrête, l’impact sur les opérations globales n’est pas important. Appliquer ce système dans une raffinerie (où un arrêt peut coûter plus de 1 000 000 $/jour) et c’est une toute autre histoire. La disponibilité est souvent aussi importante que la sécurité.
Quand un Quad (QMR) n’est pas vraiment un Quad
Certains systèmes se réclament comme étant de redondance quadruple (2004D). Les futurs clients sont invités à vérifier ceux parmi ces systèmes qui le sont véritablement. Ces systèmes avaient été développés à l’origine comme des 1oo2D; à cause de limites de temps de fonctionnement en mode dégradé (à savoir, combien de temps ils étaient autorisés à continuer à fonctionner en présence d’un défaut détecté tel que 72 heures) il est devenu difficile de leur trouver des débouchés et de les vendre par rapport à leurs concurrents TMR qui n’avaient pas des restrictions aussi strictes. Pour les fournisseurs de Dual, la solution au problème consistait à augmenter la redondance des processeurs (Quad). Les modules E/S restent toujours Simplex ou redondant, ils ne sont pas Quad. Les systèmes Quad ont les mêmes performances de sécurité et les mêmes taux de déclenchements intempestifs que les systèmes de configuration 1oo2D, seule la restriction de temps en mode dégradé a changé.
Conclusion
Il n’y a rien de faux par essence avec les systèmes certifiés SIL3 disponibles aujourd’hui sur le marché, ils sont simplement différents. Malheureusement, si l’on se concentre simplement sur les certifications de sécurité pour en déduire que tous les systèmes SIL3 sont des articles similaires que l’on peut comparer uniquement au niveau du prix, on se situe très loin de la vérité.
Des différences considérables existent entre les systèmes, la plupart se rapportant à la disponibilité en ligne à savoir :
– les modifications ou ajouts en ligne sans perdre l’aspect sécurité ou arrêter l’automate
– la prévention contre les déclenchements intempestifs
– le mode d’utilisation des ces systèmes suivant les applications :
ESD fail safe commande à manque
F&G run safe commande à émission
– Etc.
Il faut plus d’électronique pour être tolérant aux fautes, et plus d’électronique coûte davantage. Si l’on considère les coûts liés au temps de perte de production dans la plupart des usines à procédé industriel continu, le coût légèrement plus élevé des systèmes à logique tripliquée s’avère facilement être une dépense justifiée et prudente et souvent insignifiante en prenant la totalité du projet incluant l’ensemble de la prestation, instrumentation de terrain associée, installation, mise sous tension, mise en service et mise en production.
Auteur : Paul Gruhn, PE, CFSE ICS Triplex, Houston, TX
Traduction : Hervé BODINIER ICS Triplex, Chatou, France

j45p58

Ces articles peuvent vous intéresser :