2-04-2008 9:32 Pagina 1 L’argomento oggetto di questo quaderno prende in considerazione un requisito cardine per la moderna progettazione di componenti e sistemi. L’affidabilità e, più in generale, la “Dependability” stanno assumendo, infatti, un ruolo sempre più determinante in molti settori soprattutto nei casi in cui occorre assicurare elevate prestazioni funzionali e di sicurezza. In questo contesto gli Autori hanno voluto realizzare un quaderno applicativo rivolto sia ai tecnici sia ai progettisti nonché a coloro che all’interno dell’azienda curano le diverse fasi del ciclo di vita di un prodotto. Obiettivo primario è fornire una corretta interpretazione della terminologia, in riferimento anche alla normativa vigente, e trattare gli elementi di base dell’affidabilità e della disponibilità. Successivamente si presentano e si commentano le più importanti e consolidate tecniche di “Dependability”. Infine, nell’ottica di fornire un pratico “strumento” di lavoro, il quaderno riporta per i diversi argomenti trattati una serie di esempi applicativi. Autori Marcantonio Catelani è Professore Ordinario di Affidabilità e controllo qualità presso la Facoltà di Ingegneria di Firenze. La sua attività di ricerca si svolge prevalentemente nei settori dell’affidabilità, della diagnostica e qualificazione di componenti e sistemi, del controllo della qualità e del miglioramento dei processi. Fa parte del CT 56 - “Affidabilità” del CEI ed è coordinatore di gruppi di ricerca, anche applicata, sulle tematiche citate. E-mail: [email protected] Loredana Cristaldi è Professore Associato di Misure Elettriche ed Elettroniche presso il Dipartimento di Elettrotecnica del Politecnico di Milano. La sua attività di ricerca è svolta principalmente nei campi delle misure di grandezze elettriche in regine distorto e dei metodi di misura per l’affidabilità, il monitoraggio e la diagnosi di sistemi industriali. E-mail: [email protected] Massimo Lazzaroni è Professore Associato di Misure Elettriche ed Elettroniche presso il Dipartimento di Tecnologie dell’Informazione della Università degli Studi di Milano. La sua attività di ricerca è rivolta alle misure per le applicazioni industriali, per la diagnostica dei sistemi industriali, per l’Affidabilità e il Controllo della Qualità. Fa parte del CT 85 - “Strumenti di misura delle grandezze elettromagnetiche” del CEI. E-mail: [email protected] Lorenzo Peretto è Professore Associato di Affidabilità e Controllo di Qualità presso il Dipartimento di Ingegneria Elettrica dell’Università di Bologna. La sua attività di ricerca riguarda lo studio e la previsione dell’affidabilità di sistemi complessi, lo sviluppo di modelli di fenomeni di degradazione di dispositivi elettronici, il progetto e lo sviluppo di strumentazione innovativa per la misura della qualità dell’energia elettrica. Fa parte del CT 56 - “Affidabilità” del CEI. E-mail: [email protected] Paola Rinaldi è ricercatore confermato nel raggruppamento ING/INF 07 (Misure Elettriche ed Elettroniche) presso il Dipartimento di Elettronica Informatica e Sistemistica dell’Università di Bologna. La sua attività di ricerca è svolta principalmente nel campo della Affidabilità e del Controllo della Qualità. E-mail: [email protected] € 12,00 ASSOCIAZIONE ITALIANA “GRUPPO MISURE ELETTRICHE ED ELETTRONICHE” cop 34x24 nuova I QUADERNI DEL GMEE N° 1 E G E M L’affidabilità nella moderna progettazione: un elemento competitivo che collega sicurezza e certificazione Unità del GMEE di: Bologna, Firenze, Milano Politecnico, Milano Statale - Crema I QUADERNI DEL GMEE N° 1 L’affidabilità nella moderna progettazione: un elemento competitivo che collega sicurezza e certificazione Collana “I Quaderni del GMEE” - n° 1 a cura dell’Associazione “Gruppo Misure Elettriche ed Elettroniche” Con il gentile supporto di Tutti i diritti di riproduzione, traduzione, adattamento anche parziale sono riservati a norma di legge e a norma delle convenzioni internazionali. Videoimpaginazione: la fotocomposizione, Torino Stampa: La Grafica Nuova, Torino Finito di stampare nel mese di Aprile 2008 ISBN 978-88-903149-0-2 A&T Affidabilità & Tecnologia Via Palmieri, 63 - 10138 TORINO Tel. 011/536.34.40 - Fax 011/536.32.44 E-mail: [email protected] WEB: www.affidabilita.com Prefazione Con questo Quaderno ha inizio la Collana dei “Quaderni del GMEE”, curata dalla Associazione Italiana Gruppo di Misure Elettriche ed Elettroniche – GMEE ed edita dalla A&T - Affidabilità & Tecnologia. Il GMEE, nella sua ormai più che ventennale attività di ricerca nell’ambito delle misure e della metrologia, ha maturato, nelle sue Unità di Ricerca e nei suoi Soci, un bagaglio di competenze ed esperienze che è sembrato giusto mettere a disposizione, in una forma semplice e orientata all’applicazione, di tutto il mondo tecnico e produttivo, e non solo di quello scientifico. Questo primo Quaderno, sul tema quanto mai attuale dell’affidabilità, tocca problematiche in cui le misure rivestono un ruolo sempre più -critico e fondamentale: in un mercato sempre più globalizzato, ma ancora estremamente eterogeneo, la vera sfida è sull’affidabilità e la qualità del -prodotto. Riuscire a misurare l’affidabilità, e, ancor di più, a stimarla in via preventiva attraverso tecniche di stima e misura mirate, è una sfida nella sfida: vincerla significa essere sulla buona strada per competere con successo. Agli Autori di questo Quaderno va dunque il ringraziamento mio personale e di tutto il GMEE. Uno di loro, l’amico prof. Gaetano Iuculano, past President del GMEE, che tanto ha voluto questo Quaderno e tanto ha contribuito a creare le competenze che vi sono riportate, purtroppo non è più con noi e non ha, per pochi mesi, fatto a tempo a vederlo realizzato. A lui vogliamo dedicare, come ultimo, sincero e condiviso ringraziamento, questo Quaderno. Franco Ferraris Presidente GMEE QUADERNI DI PROSSIMA PUBBLICAZIONE – Introduzione alla sensoristica industriale (Parte I) – La compatibilità elettromagnetica per chi fa misure e prove – L’arte della misura del tempo presso le cortigiane (e altre curiosità sulle misure, le istituzioni e i personaggi che hanno fatto la metrologia) – I sistemi internazionali per le misure – Misure di energia elettrica (metodi, sistemi, normative) – Introduzione alla sensoristica industriale (Parte II) Indice Pag. Prefazione 1 1. L’affidabilità come requisito della qualità 5 5 6 8 Il concetto di qualità misurabile Conformità è sinonimo di affidabilità? Alcune definizioni Guasti, avarie e loro classificazione 2. Il concetto di affidabilità “statistica” Le caratteristiche dell’affidabilità L’approccio frequentista e le grandezze sperimentali Le grandezze di previsione 3. L’analisi di affidabilità in fase di progettazione Affidabilità di strutture serie, parallelo e miste Configurazione funzionale serie Il concetto di ridondanza: la configurazione funzionale parallelo Configurazione funzionale k su n 4. Il concetto di affidabilità fisica e le prove di laboratorio Le sollecitazioni Il degrado dei componenti L’approccio previsionale I modi di guasto Le prove di laboratorio: prove su componenti e sistemi 5. Banche dati e calcolo del tasso di guasto Le prime raccolte di dati Banche dati della seconda generazione Banche dati della terza generazione Calcolo del tasso di guasto – Un esempio in ambito elettronico 10 10 10 12 16 16 16 18 22 24 24 27 28 29 30 33 33 34 35 36 4 Quaderno n. 1 - GMEE Pag. 6. Sistemi riparabili e disponibilità Il tempo medio al ripristino: Mean Time To Repair/Restore (MTTR) Il tempo medio tra guasti: Mean Time Between Failures (MTBF) Il significato di Disponibilità nel ciclo di vita del prodotto La Disponibilità istantanea Dependability: valutazione del “livello di fiducia” riferita al corretto funzionamento del sistema I requisiti di Dependability 7. Tecniche e metodi a supporto della fidatezza 7.1 Tecniche quantitative Valutazione della disponibilità mediante modelli analitici Modelli di Markov Matrice di transizione ed equazione fondamentale Diagrammi di Stato Caso 1 - Analisi di un sistema con un elemento Caso 2 - Analisi di sistema con due elementi Valutazione della Affidabilità Calcolo della Affidabilità, Inaffidabilità e Disponibilità Analisi di Markov per un sistema: caso applicativo 7.2 Tecniche qualitative Analisi dei modi e degli effetti di guasto (FMEA) FMEA - Procedura operativa Il concetto di criticità Analisi dei modi e degli effetti di guasto e della loro criticità (FMECA) FMECA basata sul concetto di rischio FMECA basate sul tasso di guasto Procedura e documenti di analisi Analisi dell’albero dei guasti (FTA) 7.3 Metodologia del Design of Experiments (DOE) 38 38 40 40 41 41 43 44 45 45 46 48 49 49 50 51 51 52 57 58 59 63 68 68 71 72 74 78 4 Quaderno n. 1 - GMEE Pag. 6. Sistemi riparabili e disponibilità Il tempo medio al ripristino: Mean Time To Repair/Restore (MTTR) Il tempo medio tra guasti: Mean Time Between Failures (MTBF) Il significato di Disponibilità nel ciclo di vita del prodotto La Disponibilità istantanea Dependability: valutazione del “livello di fiducia” riferita al corretto funzionamento del sistema I requisiti di Dependability 7. Tecniche e metodi a supporto della fidatezza 7.1 Tecniche quantitative Valutazione della disponibilità mediante modelli analitici Modelli di Markov Matrice di transizione ed equazione fondamentale Diagrammi di Stato Caso 1 - Analisi di un sistema con un elemento Caso 2 - Analisi di sistema con due elementi Valutazione della Affidabilità Calcolo della Affidabilità, Inaffidabilità e Disponibilità Analisi di Markov per un sistema: caso applicativo 7.2 Tecniche qualitative Analisi dei modi e degli effetti di guasto (FMEA) FMEA - Procedura operativa Il concetto di criticità Analisi dei modi e degli effetti di guasto e della loro criticità (FMECA) FMECA basata sul concetto di rischio FMECA basate sul tasso di guasto Procedura e documenti di analisi Analisi dell’albero dei guasti (FTA) 7.3 Metodologia del Design of Experiments (DOE) 38 38 40 40 41 41 43 44 45 45 46 48 49 49 50 51 51 52 57 58 59 63 68 68 71 72 74 78 L’Affidabilità come requisito della Qualità 5 1. L’Affidabilità come requisito della Qualità Il concetto di qualità misurabile Nell’attuale contesto tecnologico, caratterizzato sempre più da repentini ed importanti sviluppi, il concetto di disponibilità assume un ruolo di primaria importanza nella progettazione e realizzazione di un prodotto, sia esso un componente o un sistema. In termini generali, possiamo pensare ad un prodotto come il risultato di una serie di attività tra loro correlate ed interagenti, normalmente sviluppate all’interno di un processo produttivo, le quali, trasformando elementi in ingresso quali materie prime, tecnologie e risorse, consentono di ottenere, in uscita al processo, il prodotto desiderato. Affinché si possa esprimere un giudizio sul livello qualitativo del prodotto così ottenuto può essere utile richiamare la definizione del termine Qualità fornita dalla norma UNI EN ISO 9000 che, a tale proposito, recita: “Qualità è il grado in cui un insieme di caratteristiche intrinseche soddisfa i requisiti”. Appare chiaramente evidente che qualunque considerazione sulla corretta progettazione e realizzazione del prodotto, e quindi sulla conseguente verifica del livello di qualità, non può prescindere da una preliminare definizione delle sue caratteristiche che, in maniera molto approssimata, possono essere classificate come qualitative e/o quantitative. Scendendo più nel dettaglio, seguendo ancora la norma precedentemente citata, la caratteristica può essere di natura fisica (ad esempio meccanica, elettrica, chimica), funzionale (la velocità di un’auto, la capacità di memoria di un elaboratore), legata al tempo (requisiti di affidabilità, manutenibilità, disponibilità), e così via. Tuttavia, indipendentemente dalla loro natura e sempre nell’ottica di esprimere una valutazione oggettiva sulla “qualità” del prodotto, è necessario che tali caratteristiche siano adeguatamente definite in termini misurabili; solo in questo caso è possibile verificarne il soddisfacimento ai requisiti, cioè alle esigenze espresse o implicite manifestate da chi è interessato ad acquistare od usare il prodotto in oggetto. Occorre, in altri termini, misurare e tenere sotto controllo la capacità che il prodotto ha di “fare ciò che è richiesto”, per il quale è stato cioè progettato e realizzato; tale capacità deve essere valutata anche nel tempo affinché il prodotto sia in grado di mantenere l’attitudine a fornire le proprie prestazioni ogniqualvolta ne venga fatta richiesta. Quanto detto mette in chiara evidenza la molteplicità e l’eterogeneità delle caratteristiche che possono contraddistinguere un prodotto, anche se di semplice realizzazione tecnologica, e di conseguenza l’importanza di una loro corretta individuazione e misurazione per verificare non solo il raggiungimento degli obiettivi di progetto ma anche, e soprattutto, per intraprendere eventuali azioni di miglioramento orientate a garantire livelli qualitativi sempre crescenti. 6 Quaderno n. 1 - GMEE Conformità è sinonimo di affidabilità? Alcune definizioni Poiché l’oggetto della presente pubblicazione riguarda l’affidabilità ed il suo impatto come requisito essenziale per una corretta e moderna progettazione orientata alla competitività, focalizziamo l’attenzione sulle caratteristiche di prodotto legate al tempo. Come già accennato nel paragrafo precedente, oltre l’affidabilità, esse riguardano anche la manutenibilità, la disponibilità e la sicurezza. Soprattutto in determinati contesti tecnologici, e per certe applicazioni, si parla infatti di requisiti RAMS (Reliability, Availability, Mainainability, Safety) per una appropriata definizione del ciclo di vita del prodotto. Occorre però non confondere il concetto di conformità con il significato, molto diverso, associato ai requisiti RAMS. In questo paragrafo cercheremo di fornire, per quanto possibile, una visione di insieme sufficientemente esaustiva in merito alla terminologia essenziale, rimandando il lettore ai riferimenti bibliografici per gli ulteriori dettagli ed approfondimenti. Consideriamo un generico elemento (entità o item), sia esso un componente piuttosto che un dispositivo, un sottosistema, una unità funzionale, una apparecchiatura o un sistema. La norma CEI 56-50 definisce elemento tutto ciò che può essere considerato individualmente e che può svolgere una o più funzioni opportunamente definite. Per Conformità (Conformity) si intende la rispondenza dei parametri funzionali dell’elemento (le prestazioni) a valori prestabiliti in sede di progetto (specifiche). La conformità è definita e misurabile attraverso grandezze deterministiche come ad esempio il valore nominale e la tolleranza, la percentuale di elementi difettosi, etc. Diremo che un elemento è conforme se possiede la “capacità tecnica” per fare ciò che è richiesto e per il quale è stato progettato e realizzato. Fissate determinate condizioni di impiego tale capacità deve poi essere mantenuta nel tempo. Questa attitudine viene comunemente denominata Affidabilità (Reliability). L’affidabilità è, infatti, definita [CEI 56-50], in termini qualitativi, come “l’attitudine dell’elemento a svolgere la funzione richiesta in condizioni date per un dato intervallo di tempo. In tal senso l’affidabilità rappresenta, a tutti gli effetti, una delle prestazioni dell’elemento esprimibile quantitativamente attraverso una probabilità. Stabilito infatti un determinato intervallo temporale ed assumendo che l’elemento sia in grado di eseguire la propria funzione all’inizio di tale intervallo (cioè che sia conforme e siano stabilite le condizioni di impiego a tempo “zero”), l’affidabilità corrisponde con la probabilità che l’elemento sia in grado di eseguite la funzione richiesta, nell’intervallo assegnato ed in condizioni stabilite [CEI 56-50]. L’affidabilità può essere determinata attraverso modelli matematici (legge dell’affidabilità) oppure misurata, o stimata, attraverso parametri statistici come ad esempio il tempo medio al guasto, il tempo medio tra guasti, etc. Come sarà più chiaro in seguito, lo studio dell’affidabilità consente di valutare non solo la conformità di un dispositivo nel tempo ma anche di effettuare confronti tra soluzioni progettuali diverse, a parità di prestazioni funzionali, come pure di individuare, all’interno di un apparato, i sottosistemi o gli elementi critici che potrebbero portare l’apparato stesso in una condizione di avaria o di malfunzionamento e sui quali occorre quindi intervenire. Per tale motivo l’affidabilità riveste un ruolo assolutamente determinante nella moderna progettazione e costituisce un elemento di competitività anche in ottica di maggior sicurezza. Tuttavia un apparato posto in esercizio, ancorché affidabile, è comunque interessato da un inevitabile degrado delle proprie prestazioni che lo porta, in tempi più o meno rapidi, a modificare o perdere la propria capacità tecnica. Occorre quindi ripristinarne il corret- L’Affidabilità come requisito della Qualità 7 to funzionamento ogni qual volta si manifesti una interruzione o quanto meno un degrado inaccettabile delle prestazioni. Per tale motivo la conoscenza dei requisiti di affidabilità non è sufficiente per rappresentare, in maniera esaustiva, le prestazioni di un elemento durante il proprio ciclo di vita. Occorre prendere in considerazione anche il concetto di ripristino. La norma CEI 56-50 introduce, a tale proposito, il concetto di fidatezza (dependability), intesa come l’insieme delle proprietà che descrivono la disponibilità e i fattori che la condizionano cioè affidabilità, manutenibilità e logistica della manutenzione. In base alla definizione data appare evidente che la fidatezza fornisce una descrizione generale dell’entità, in termini non quantitativi. Per specificarne, invece, in maniera quantitativa il suo comportamento nel tempo, e quindi per descriverlo, prevederlo, misurarlo, migliorarlo, garantirlo e certificarlo, occorre stabilire, oltre all’affidabilità già introdotta precedentemente, le prestazioni di disponibilità, manutenibilità e logistica della manutenzione, le cui definizioni [CEI 56-50] sono di seguito riportate. Disponibilità (availability): attitudine dell’entità ad essere in grado di svolgere la funzione richiesta in determinate condizioni a un dato istante, o durante un dato intervallo di tempo, supponendo che siano assicurati i mezzi esterni eventualmente necessari. Manutenibilità (maintainability): attitudine dell’entità in assegnate condizioni di utilizzazione a essere mantenuta o riportata in una stato nel quale essa può svolgere la funzione richiesta, quando la manutenzione è eseguita nelle condizioni date, con procedure e mezzi prescritti. Supporto logistico di manutenzione (maintenance support performance): attitudine di una organizzazione della manutenzione, in date condizioni, a offrire dietro richiesta le risorse necessarie alla manutenzione dell’entità, conformemente ad una data politica di manutenzione. Come per l’affidabilità anche le prestazioni di disponibilità e di manutenibilità possono essere studiate attraverso modelli matematici e misurate sia tramite parametri statistici, quali ad esempio il tempo medio di riparazione e il tempo medio di ripristino, sia attraverso parametri di altra natura tra cui la disponibilità operativa. Per determinate applicazioni è fondamentale introdurre il concetto di sicurezza (safety) inteso come assenza di rischi inaccettabili e determinabile attraverso livelli di integrità alla sicurezza SIL (Safety Integrity Level). Combinando questo concetto con quelli precedentemente definiti è possibile parlare, sempre per certe applicazioni ed in termini generali, dei requisiti RAMS. Come appare dalla definizione, la sicurezza è legata alla valutazione del rischio (risk), intendendo con questo termine la combinazione tra il probabile tasso di accadimento di una situazione potenzialmente pericolosa, ed il cui verificarsi può causare danno a persone o cose, e le conseguenze che ne derivano. L’analisi del rischio può essere fatta ricorrendo a tecniche quali FMECA trattate nel Capitolo 7. È evidente quindi che la disponibilità, l’affidabilità, la manutenibilità e la sicurezza sono di per se caratteristiche essenziali per definire, controllare, mantenere e migliorare le prestazioni di un dispositivo nel tempo. Per tale motivo vengono spesso indicate quali “elementi chiave” nella specificazione dei requisiti di prodotto e come tali devono essere considerate, alla stregua delle prestazioni funzionali, informazioni “in ingresso” per una corretta progettazione. Una loro valutazione a posteriori, a dispositivo ultimato, è un chiaro indice di cattiva progettazione di sistema e, come tale, rappresenta una soluzione che dal punto di vista ingegneristico non può ritenersi valida. Intervenire sulle prestazioni di disponibilità di un apparato già realizzato o, ancor peggio in esercizio, comporta costi a volte insostenibili sia per il cliente che per l’azienda e comunque una 8 Quaderno n. 1 - GMEE perdita di immagine, in termini di qualità, per chi immette il prodotto sul mercato. A questo si aggiunge la responsabilità da prodotto difettoso e le conseguenze, anche di natura giuridica, che in un rapporto cliente-fornitore potrebbero nascere a seguito di una cattiva interpretazione, o del mancato rispetto, di certi requisiti di fidatezza stabiliti in sede contrattuale. Guasti, avarie e loro classificazione L’intervallo di tempo durante il quale un dispositivo funziona correttamente si conclude quando un qualsiasi fenomeno di degradazione determina una variazione inaccettabile delle prestazioni nominali di corretto impiego. In questa circostanza cessa l’attitudine, da parte dell’elemento, ad eseguire la funzione richiesta e si manifesta quindi l’evento denominato guasto (failure). Il guasto è, pertanto, il passaggio da uno stato di corretto funzionamento ad uno stato di non funzionamento che può essere, a seconda dei casi, totale o parziale. Il tempo al primo guasto (time to first failure) rappresenta la durata di tempo complessiva del tempo di funzionamento dell’elemento dall’istante in cui esso si trova in uno stato di funzionamento fino al momento in cui vi è l’insorgenza del guasto. Il tempo al primo guasto, o semplicemente tempo al guasto, rappresenta quindi la variabile aleatoria che caratterizza il manifestarsi dell’evento “guasto”. L’evidenza oggettiva del guasto prende il nome di modo di guasto; il manifestarsi di un circuito aperto, l’assenza di un segnale in ingresso, la presenza di una valvola che rimane chiusa, sono esempi di modi di guasto. Le circostanze legate al progetto, alla realizzazione o all’impiego di un elemento che hanno portato al guasto rappresentano la causa di guasto; con il termine meccanismo di guasto si intende, invece, il processo chimico, fisico o di altra natura che ha generato il guasto. I guasti possono essere classificati secondo vari criteri. Una prima importante classificazione viene fatta in funzione delle cause responsabili del loro accadimento; si riportano di seguito i termini più ricorrenti le cui definizioni sono tratte dalla norma CEI 56-50: a) guasti per impiego improprio, attribuibili all’applicazione di sollecitazioni superiori ai valori massimi sopportabili dal dispositivo; b) guasti primari, la cui causa diretta o indiretta non è attribuibile al guasto di un altro dispositivo; c) guasti indotti o secondari, generati dal guasto di altro dispositivo; d) guasti per deficienza intrinseca o guasti infantili, attribuibili a debolezze costruttive intrinseche al dispositivo le cui cause sono normalmente individuabili nel processo produttivo, si manifestano durante il primo periodo di funzionamento; e) guasti casuali, dovuti a fattori incontrollabili, si verificano durante il periodo di “vita utile” del componente e presentano una probabilità di accadimento indipendente dal tempo; f) guasti per invecchiamento o per usura, generati dai fenomeni chimico-fisici di degradazione sono caratterizzati da una probabilità di accadimento che aumenta con il passare del tempo. Alcune di queste definizioni sono utili per comprendere il significato di particolari zone che caratterizzano l’andamento temporale della funzione tasso di guasto trattata nel Capitolo 2. Una diversa classificazione, funzione delle conseguenze che si hanno a seguito del manifestarsi di un guasto, porta a definire: L’Affidabilità come requisito della Qualità 9 g) guasti critici, guasti che possono causare, con elevata probabilità, danni a persone o conseguenze materiali non accettabili ad altre parti del sistema; h) guasti di primaria importanza, quelli che, pur diversi dai precedenti, possono ridurre la funzionalità del sistema del quale fanno parte; i) guasti di secondaria importanza, quelli che non riducono la funzionalità del sistema. Tale classificazione risulta particolarmente utile nello sviluppo di tecniche di analisi della disponibilità quali, ad esempio, l’analisi dei modi e degli effetti di guasto e delle relative criticità (FMECA) e l’analisi dell’albero delle avarie (FTA), trattate nel Capitolo 7. Considerando invece l’entità del guasto anche a livello di sistema si possono individuare: j) guasti totali, quando le variazioni delle prestazioni del dispositivo sono tali da comprometterne in maniera completa il funzionamento; k) guasti parziali, la variazione di una o più prestazioni non impedisce il completo funzionamento; l) guasti intermittenti, costituiti dalla successione, generalmente casuale, di periodi di funzionamento e periodi di guasto, senza che si intervenga sul dispositivo con azioni di manutenzione. Il manifestarsi di un guasto porta il dispositivo in uno stato di avaria (fault), caratterizzato dall’inabilità ad eseguire una funzione richiesta, non comprendente l’inabilità durante la manutenzione preventiva o altre azioni pianificate [CEI 56-50]. E’ opportuno quindi non confondere il concetto di guasto inteso come evento, con il concetto di avaria, associato ad un particolare stato di sistema. Analogamente a quanto fatto per i guasti, anche le avarie possono essere classificate secondo opportuni criteri su cui non entreremo in merito. Si ritiene utile invece, a chiusura del paragrafo, riportare il significato di alcune importanti attività che possono essere intraprese quando un dispositivo è in avaria. Tali attività si diversificano a seconda delle finalità ed in particolare riguardano: Diagnosi di avaria (fault diagnosis): insieme delle operazioni eseguite ai fini della rilevazione di avaria, della localizzazione di avaria e dell’identificazione delle cause dell’avaria. Rilevazione di avaria (fault recognition): riconoscimento di un’avaria. Localizzazione di avaria (fault localization): insieme delle operazioni volte a identificare la o le sottoentità in avaria, al livello di intervento appropriato. Per inciso, con livello di intervento si intende un appropriato livello di suddivisione del dispositivo (più propriamente in questo caso il sistema) per quanto riguarda l’azione di manutenzione. Correzione di avaria (fault correction): insieme delle operazioni eseguite dopo la localizzazione dell’avaria, intese a ristabilire l’abilità dell’entità in avaria ad eseguire la funzione richiesta. Ripristino (restoration, recovery, restore): l’evento corrispondente al recupero da parte dell’entità della attitudine ad eseguire la funzione richiesta, dopo un’avaria. Riparazione (repair): insieme di operazioni di manutenzione correttiva, cioè eseguita a seguito della rilevazione di un’avaria, effettuate sull’entità. Altre importanti definizioni sono riportate nella norma CEI 56-50: terminologia sulla fidatezza e sulla qualità del servizio, a cui si rimanda per approfondimenti. 10 Quaderno n. 1 - GMEE 2. Il concetto di affidabilità “statistica” Le caratteristiche dell’affidabilità La definizione di affidabilità presentata al Capitolo 1 rappresenta quindi una “specifica” (specifica di affidabilità) per la quale bisogna definire una “metrica” che ne consenta anche una valutazione quantitativa e comparativa. Si osservi che il concetto di “svolgere la funzione richiesta” non può che essere complementare a quello di guasto [CEI 56-50, 191-04-01]. Quindi così come al guasto si associa un tempo di vita (noto come “tempo al guasto”) la valutazione quantitativa dell’affidabilità passa attraverso la valutazione della affidabilità come “prestazione”, ovvero attraverso la valutazione del tempo medio fino al guasto MTTF (Mean Time To Failure), del tasso di guasto λ e, come si vedrà per i sistemi riparabili, del tempo medio tra guasti MTBF (Mean Time Between Failures). L’approccio frequentista e le grandezze sperimentali Si cercherà di arrivare alla definizione di affidabilità partendo dalla definizione “empirica” ricavata dall’analisi dei dati di guasto. Si considerino n elementi identici e statisticamente indipendenti che vengano messi in esercizio al tempo t=0 nelle stesse condizioni. Indichiamo con ns(t) il sottoinsieme degli elementi n che non si sono ancora guastati al generico istante di tempo t (elementi sani al tempo t). Fissato un intervallo ∆t = t n − t n −1 , si consideri il rapporto tra ns(t) e il numero complessivo di dispositivi: n s (t ) (2.1) n Dal momento che la definizione di probabilità basata sul concetto di frequenza relativa determina la probabilità di un evento proprio come rapporto tra il numero delle volte in cui si presenta un certo evento A e il numero complessivo di esperimenti, la funzione espressa dal rapporto (2.1), RN(t), esprime di fatto una probabilità che definiremo affidabilità empirica. Dalla funzione affidabilità è quindi possibile ricavare la funzione di ripartizione “Inaffidabilità”, che in termini empirici indicheremo con FN(t), come: n g (t ) FN (t ) = 1 − R N (t ) = (2.2) n dove si è indicato con ng(t) il numero di elementi che si sono guastati al tempo t, tenendo presente che: ns(t) + ng(t) = n. L’andamento dei guasti riportato in Figura 2.1 suggerisce inoltre la definizione di un istogramma Figura 2.1: Andamento dei guasti su sperimentale delle frequenze relative, dove ∆t (inR N (t ) = di un lotto di n componenti. 11 Il concetto di affidabilità “statistica” tervallo tra un rilievo e il successivo) rappresenta la larghezza delle classi la cui altezza è data da: n g (t + ∆t ) − n g (t ) f N (t ) = (2.3) n ⋅ ∆t Dalla (2.2) e dalla (2.3) si ha: F (t + ∆t i ) − FN (t i ) f N (t ) = N i con t i ≤ t ≤ t i + ∆t (2.4) ∆t i Indicando con t1, t2, . . tn i tempi al guasto osservati relativamente agli n elementi presi in considerazione (Figura 2.1), è possibile definire la media empirica dei tempi al guasto MTTFN (Mean Time To Failure) come: t + t + ... + t n MTTFN = 1 2 (2.5) n Definendo come “Tasso di guasto istantaneo” la funzione data dal rapporto tra la probabilità dell’evento e la durata dell’intervallo di osservazione, avremo che, in termini empirici, è possibile esprimere il tasso di guasto attraverso il rapporto tra gli elementi che si sono guastati nell’intervallo (t, t+∆t] e il numero di elementi ns(t) funzionanti al tempo t, ovvero: f (t ) n 1 n g (t + ∆t ) − n g (t ) = f N (t ) ⋅ = N λN (t ) = ⋅ (2.6) n s (t ) n s (t ) R N (t ) ∆t Appare evidente che il tasso di guasto è il reciproco di un tempo e per tale motivo usualmente espresso in ore -1. Esempio applicativo 1 Si considerino n =172 unità sottoposte a prova; si ottengono, relativamente ai loro guasti, i dati riportati in Tabella 2.1. Le funzioni empiriche affidabilità e densità di probabilità, valutate in base alle relazioni (2.1) e (2.4), presenteranno l’andamento riportato in Figura 2.2 e 2.3 (nelle Tabelle 2.2 e 2.3 se ne riportano i risultati). 1 0,9 0,8 0,7 RE (t) 0,6 0,5 0,4 0,3 0,2 0,1 0 0 1000 2000 3000 4000 5000 6000 t (ore) Figura 2.2: Andamenti della funzione empirica RE(t) relativa ai dati dell’esempio applicativo 1. 12 Quaderno n. 1 - GMEE Tabella 2.1: Dati di guasto relativi all’esempio applicativo 1. Intervallo di Unità trovate guaste tempo (ore) alla fine dell’intervallo 0 – 1000 59 1000 – 2000 24 2000 – 3000 29 3000 – 4000 30 4000 – 5000 17 5000 – 6000 13 Totale guasti 172 Figura 2.3: Funzione empirica densità relativa ai dati dell’esempio 1. Tabella 2.2: Valutazione della funziona empirica affidabilità. t (ore) RE (t) 0 1000 2000 3000 4000 5000 6000 1,0 (172-59)/172=0,657 0,517 0,348 0,174 0,075 0 Tabella 2.3: Funzione empirica densità. ∆t 0-1000 1001-2000 2001-3000 3001-4000 4001-5000 5001-6000 fe(t) [10-3] 0,343-0,00=0,343 0,140 0,169 0,174 0,099 0,075 Il tasso di guasto presenterà l’andamento riportato in Figura 2.4 (in Tabella 2.4 si riportano i risultati): Figura 2.4: Andamento tasso di guasto. Tabella 2.4: Tasso di guasto. ∆t 0-1000 1001-2000 2001-3000 3001-4000 4001-5000 5001-6000 λE(t) [10-3] 0,343 0,212 0,326 0,500 0,569 1 Le grandezze di previsione Si osservi che, invocando la legge dei grandi numeri, è possibile, per le grandezze empiriche prima definite, fare una sorta di “passaggio al limite” quando ∆t→0; ciò consente la definizione, partendo dalle (2.1) e (2.2), della funzione “Affidabilità” e della funzione di distribuzione cumulativa “Inaffidabilità”. R(t) esprime la probabilità che il sistema non si guasti nell’intervallo (t , t + dt ) e, dualmente, F(t) esprime la probabilità che il sistema si guasti nello stesso intervallo. Dalle (2.2) e (2.4) è possibile ricavare la funzione densità di probabilità di guasto come: dF (t ) dR (t ) f (t ) = =− (2.7) dt dt 13 Il concetto di affidabilità “statistica” da cui si determina la probabilità che il sistema si guasti nell’intervallo (t ,t + dt ) . ∞ Senza scendere nei dettagli analitici si ricorda però che ∫ f (t )dt = 1 , esprime il con0 cetto secondo cui il dispositivo è comunque destinato a guastarsi con il trascorrere del tempo. Analogamente a quanto fatto per le funzioni di affidabilità, è possibile determinare il valore teorico del tempo medio al guasto (MTTF) passando dall’approccio frequentista (2.5) all’approccio previsionale. Richiamando la definizione di valore medio teorico data in statistica è facile dimostrare che, nota la funzione di affidabilità R(t) del dispositivo: ∞ ∫ MTTF = R (t )dt (2.8) 0 da cui si evince chiaramente che il tempo medio al guasto per il dispositivo preso in considerazione rappresenta l’area sottesa dalla funzione di affidabilità. Qualora si stia analizzando un sistema avente affidabilità RS(t), in analogia alla (2.8), si ottiene il tempo medio al guasto di sistema (MTTFS) come: ∞ ∫ MTTFS = R S (t ) dt (2.9) 0 Ovviamente sia MTTF che MTTFS sono espressi in ore. L’ormai consueto passaggio al limite ci consente, partendo dalla (2.6), di esprimere il “Tasso di guasto istantaneo” come f (t ) λ (t ) = (2.10) R (t ) Che può essere anche espresso come: 1 dR (t ) d λ (t ) = − = − log (R (t )) (2.11) R (t ) dt dt I modelli di tasso di guasto Il modello di tasso di guasto più diffuso è noto come modello “a vasca da bagno”; l’andamento relativo (Figura 2.5) consente di evidenziare tre zone caratterizzate da andamenti differenti: 1) la zona immediatamente seguente l’inizio della vita del dispositivo, caratterizzata da un elevato tasso di guasto, che decresce però rapidamente nel tempo; tale zona è detta di “mortalità infantile”. Tale andamento deriva dall’esistenza di una frazione “debole” della popolazione di componenti che manifestano guasti durante le prime ore di funzionamento 2) una zona a tasso di guasto pressoché costante ed il cui valore è determinato soprattutto dal livello delle sollecitazioni cui è sottoposto il componente o il sistema; Figura 2.5: Curva a “vasca”. 14 Quaderno n. 1 - GMEE 3) una terza zona, nota anche come wear out, caratterizzata da un tasso di guasto rapidamente crescente. È questo il periodo dei guasti “per usura” dei dispositivi. Il poter parlare di una zona (punto 2) in cui il tasso di guasto può ritenersi pressoché costante e auspicabilmente di ampia durata come avviene nel caso di componenti o sistemi elet- Figura 2.6: Andamenti assunti dalle funtronici, ha una ricaduta molto interessante zioni Affidabilità nel caso λ=costante. nella valutazione delle prestazioni di affidabilità. Richiamando l’espressione (2.11) e considerando quale condizione iniziale che l’affidabilità al tempo zero sia massima, pari ad 1, si determina la legge fondamentale dell’affidabilità valida per qualunque andamento del tasso di guasto: t R (t ) = e − ∫ λ (t )dt (2.12) Richiamando la curva a vasca ed ipotizzando di trovarsi nella zona 2 (ipotesi valida soprattutto in ambito elettrico ed elettronico), la (2.12) si semplifica notevolmente diventando: 0 R (t ) = e − λt (2.13) 1 (2.14) Sostituendo la (2.13) nella (2.8) si ha: MTTF = λ Quindi, ricapitolando, possiamo fare le seguenti considerazioni: a) nel caso di un componente, noto il tasso di guasto che potrà essere calcolato ad esempio con l’ausilio di banche dati (Capitolo 5), è immediato ricavare il tempo medio al guasto secondo la (2.14); b) noto il tasso di guasto è possibile tracciare la curva di affidabilità (Figura 2.6) da cui si evince che l’area sottesa, in virtù della (2.8) rappresenta l’MTTF. Analoghe considerazioni valgono nel caso si prenda in considerazione un sistema, per le cui espressioni di affidabilità si rimanda a quanto riportato nel Capitolo 3. Esempio applicativo 2 In Figura 2.7 sono riportati gli andamenti dell’affidabilità in condizioni di tasso di guasto costante per due dispositivi che presentano diverso valore di λ. Se ci poniamo, ad esempio, al tempo t =2•103 h, si nota che il dispositivo 1, per il quale si ha λ1=0,25•103 h -1, presenta una probabilità di corretto funzionamento pari a circa 62%, a differenza del secondo dispositivo che, con tasso di guasto λ2 = 0,5•10-3 h–1, , raggiunge un valore pari a circa 37%. Fissata invece l’affidabilità, ad esempio 0,25, dal confronto degli stessi grafici si nota che l’intervallo di corretto funzionamento per il secondo dispositivo è circa il doppio del primo. L’informazione che si ottiene analizzando le due curve è di estrema importanza al fine di intervenire in maniera preventiva sulle prestazioni di affidabilità dell’apparato, sia in termini di ottimizzazione delle condizioni di impiego, sia di scelta appropriata dei componenti per assicurare la funzione richiesta al sistema stesso, sia di revisione progettuale. 15 Il concetto di affidabilità “statistica” Come verrà illustrato successivamente, il calcolo del tasso di guasto può essere fatto ricorrendo all’impiego di opportune Banche dati. La legge esponenziale rappresenta, grazie anche alla sua semplicità, il modello più diffuso nell’ambito degli studi affidabilistici, ma non è, comunque, l’unico modello utilizzabile, disponendo di dati sperimentali, per descrivere gli eventi di guasto. Ad esempio la distribuzione Log-normale viene utilizzata per l’elaborazione dei dati di guasto tratti dai test di vita accelerati per componenti a semiconduttore mentre la distribuzione di Weibull è utilizzata come modello per descrivere la mortalità infantile. 1 Dispositivo # 1, λ1 Dispositivo # 2, λ2 0.9 Affidabilità, R(t) 0.8 0,25 10-3h-1 0,50 10-3h-1 0.7 0.6 1 0.5 0.4 2 0.3 0.2 0.1 0 0 1 2 3 4 5 6 Tempo (x1000 ore) 7 8 9 Figura 2.7: Confronto tra dispositivi che presentano diverso valore di tasso di guasto. 10 16 Quaderno n. 1 - GMEE 3. L’analisi di Affidabilità in fase di progettazione Introduzione In generale possiamo considerare un sistema come un insieme di elementi, siano essi sottosistemi o componenti, tra loro interconnessi al fine di garantire una o più prestazioni funzionali. L’affidabilità, e quindi la disponibilità, di tale sistema dipende pertanto dalle prestazioni di affidabilità e di disponibilità degli elementi che lo costituisco e da come questi sono tra loro interconnessi. Lo studio delle relazioni di legame tra i sottosistemi prende il nome di analisi dell’affidabilità combinatoria e si concretizza, dal punto di vista grafico, attraverso un diagramma a blocchi che chiameremo Reliability Block Diagram (RBD). In questo capitolo tratteremo alcune delle configurazioni funzionali più comuni, dette configurazioni canoniche, la cui combinazione origina le configurazioni miste. Per ogni configurazione funzionale, che non deve essere confusa con la corrispondente configurazione elettrica, sarà possibile determinare i modelli matematici dell’affidabilità e, di conseguenza, il valore del tempo medio al guasto relativo al sistema (MTTFS). Come sarà più evidente in seguito l’MTTFS potrà essere determinato attraverso una combinazione, più o meno complessa, dei valori di tasso di guasto degli elementi costituenti. Affidabilità di strutture serie, parallelo e miste Configurazione funzionale serie La configurazione funzionale serie, il cui diagramma a blocchi è riportato in Figura 3.1, rappresenta il modello affidabilistico più semplice e più comune in certi contesti, come ad esempio quello elettronico. Considerato il sistema S costituito da n elementi Ei , per i = 1,… n, diremo che il sistema è operativo se e solo se tutti gli elementi Ei sono correttamente funzionanti. Figura 3.1: Diagramma a blocchi di affidabilità per la configurazione funzionale serie. Nell’ipotesi semplificativa di eventi indipendenti per cui si assume che il comportamento di ogni elemento Ei , in termini di corretto funzionamento o di guasto, non dipenda L’analisi di Affidabilità in fase di progettazione 17 dal comportamento assunto dagli altri elementi, l’affidabilità del sistema corrisponde con la produttoria dell’affidabilità dei singoli blocchi, ovvero: n R S (t) = ∏ R (t) (3.1) i i =1 Assumendo, inoltre, la condizione di guasto casuale ed indicato con λ i il tasso di guasto costante associato al generico elemento Ei per cui si ha che R i (t) = e − λ i t , la precedente equazione diventa: n R(t) = ∏ R (t) = i n − ∑ λ i e i =1 t = e − λS t (3.2) i =1 Nelle ipotesi assunte, la (3.2) mette in evidenza un’importante proprietà della configurazione funzionale serie secondo cui il tasso di guasto λS del sistema può essere determinato attraverso la somma dei tassi di guasto λ i degli elementi costituenti, ovvero: n λS = ∑λ , (3.3) i i =1 in h-1. Conseguentemente, il tempo medio al guasto per il sistema, in ore, vale: n MTTFS = ∑ 1 = 1/ λi λS i =1 (3.4) È pertanto sufficiente conoscere il tasso di guasto di ciascun elemento per determinare il valore dell’MTTFS. Per apparati elettronici il calcolo può essere fatto con tecniche di “predizione di affidabilità” ricorrendo ad opportune banche dati, come riportato nel Capitolo 5. Dall’analisi della relazione (3.2) emergono le seguenti importanti considerazioni che caratterizzano la configurazione funzionale serie. a) Essendo l’affidabilità, fissato il tempo, un numero compreso tra 0 ed 1, si deduce che l’affidabilità del sistema S è inferiore al più piccolo valore di affidabilità degli elementi costituenti, ovvero: R S (t) ≤ min {R i (t)} ; i = 1, ⋅ ⋅ ⋅ n (3.5) i Esempio applicativo 1 Per giustificare la precedente proprietà consideriamo un sistema costituito da tre elementi E1 , E2 , E3 il cui RBD è riportato in Figura 3.2. Figura 3.2: RBD per un sistema costituito da tre elementi in configurazione serie. Se i valori di affidabilità di ciascun elemento, al generico tempo t, valgono rispettivamente 0,4; 0,7; 0,9, la probabilità di funzionamento del sistema, allo stesso tempo, diventa 0,252. L’esempio, anche se elementare, consente di fare la seguente considerazione pratica: la presenza di un elemento intrinsecamente debole all’interno della configurazione serie penalizza fortemente l’affidabilità della struttura. Pertanto, anche migliorando le prestazioni degli altri due elementi, la probabilità di funzionamento del sistema 18 Quaderno n. 1 - GMEE Figura 3.3: Affidabilità di sistema con tre elementi in configurazione serie. risulterà essere comunque inferiore al 40%. b) La probabilità di funzionamento del sistema diminuisce all’aumentare del numero di elementi che lo costituiscono. Esempio applicativo 2 Si riportano in Figura 3.3 le curve di affidabilità per tre elementi con tasso di guasto costante λ1 < λ2 < λ 3. La curva in basso, relativa al sistema serie, mostra chiaramente come l’elevato tasso di guasto del terzo elemento influisca in maniera negativa sull’affidabilità totale la quale, assumendo valore 1 a tempo zero, decresce esponenzialmente in funzione del tasso di guasto λS = λ1 + λ2 + λ 3. Esempio applicativo 3 Considerazioni analoghe possono essere fatte esaminando i valori riportati in Tabella 3.1. Assumendo valori di affidabilità anche elevati per il singolo elemento, appare evidente che l’affidabilità di sistema, fissato il tempo t, decresce all’aumentare del numero di elementi che lo costituiscono. Se consideriamo, ad esempio, un RBD con 20 elementi disposti in configurazione funzionale serie, che considereremo identici per semplicità di trattazione, la probabilità di funzionamento del sistema, allo stesso istante t, supera il 65% solo se l’affidabilità del singolo è maggiore di 0,98. Il concetto di ridondanza: la configurazione funzionale parallelo La configurazione funzionale parallelo, detta anche configurazione ridondante (o ridondanza attiva), assume un ruolo determinante ogniqualvolta occorre incrementare Tabella 3.1: Influenza dei valori di affidabilità di elemento sulle prestazioni di sistema. Affidabilità elemento ► Numero di elementi di sistema ▼ 1 5 10 20 50 0,8 0,85 0,9 0,95 0,98 0,99 0,98 0,90392 0,81707 0,66761 0,36417 0,99 0,95099 0,90438 0,81791 0,60501 Affidabilità di sistema ▼ 0,8 0,32768 0,10737 0,01153 1,47•10-5 0,85 0,44370 0,19687 0,03876 2,96•10-4 0,9 0,59049 0,34868 0,12158 5,15•10-3 0,95 0,77378 0,59874 0,35849 0,07694 19 L’analisi di Affidabilità in fase di progettazione l’affidabilità di un sistema. L’RBD per tale configurazione è riportato in Figura 3.4 da cui si evince come la continuità operativa del sistema tra ingresso e uscita sia assicurata dal corretto funzionamento anche di uno solo dei componenti allocati in parallelo. Viceversa, il sistema è in avaria quando tutti gli elementi sono guasti. Considerando quest’ultima definizione e richiamando per semplicità di trattazione le ipotesi fatte per la configurazione serie secondo cui gli eventi sono indipendenti ed il tasso di guasto è costante, si ha che l’inaffidabilità di sistema corrisponde con il prodotto delle inaffidabilità degli elementi: n FS (t ) = ∏ F (t ) i E1 Ei En SISTEMA Figura 3.4: RDB per la configurazione funzionale parallelo. i =1 (3.6) da cui è immediato ricavare l’affidabilità di sistema come: n R S (t ) = 1 − FS (t ) = 1 − ∏ n Fi (t ) = 1 − i =1 ∏ (1 − e λ ) . − it (3.7) i =1 Di conseguenza il tempo medio al guasto di sistema vale: ∫ +∞ MTTFS = R S (t )dt (3.8) 0 Considerando, a titolo di esempio, un sistema costituito da due elementi indipendenti connessi in parallelo ed aventi tasso di guasto costante pari a λ1 e λ2, dalla (3.7) si ottiene la seguente espressione dell’affidabilità: R S (t ) = e − λ1t + e − λ2t − e − (λ1 + λ2 )t (3.9) ed in virtù della (3.8) 1 1 1 MTTFS = + − (3.10) λ1 λ2 λ1 + λ2 Nell’ipotesi semplificativa secondo cui i due elementi posti in ridondanza siano identici: 3 MTTFS = (3.11) 2λ da cui si evince chiaramente un incremento del 50% dell’MTTFS rispetto al caso di elemento singolo avente lo stesso tasso di guasto. Tale concetto è alla base dell’allocazione di ridondanza come metodologia per aumentare l’affidabilità di sistema. In analogia con quanto fatto in precedenza per la configurazione funzionale serie, anche per il parallelo è possibile trarre le seguenti considerazioni. a) Fissato il tempo, l’affidabilità totale del sistema è superiore al più elevato valore di affidabilità degli elementi costituenti, per cui possiamo scrivere che: R S (t ) ≥ max {R i (t )} ; i = 1, ⋅ ⋅ ⋅ n (3.12) i 20 Quaderno n. 1 - GMEE Esempio applicativo 4 La proprietà può essere dimostrata considerando un sistema costituito da tre elementi E1, E2, E3 il cui RBD è riportato in Figura 3.5. Se i valori di affidabilità per ciascun elemento, al generico tempo t, valgono rispettivamente 0,4; 0,7; 0,9, la probabilità di funzionamento del sistema, allo stesso istante, diventa 0,982. b) La probabilità di funzionamento del sistema aumenta all’aumentare del numero di elementi che lo costituiscono. E 1 = 0,4 E 2 = 0,7 E 3 = 0,9 Figura 3.5: RBD per un Esempio applicativo 5 sistema costituito da tre A titolo di esempio si riporta in Tabella 3.2 il risultato di affi- elementi in configurazione dabilità di sistema ottenuto collegando in configurazione fun- parallelo. zionale parallelo un massimo di 6 elementi che, per semplicità, assumeremo essere identici con valore di affidabilità, fissato il tempo, pari a 0,8. Dai risultati riportati in tabella si osserva che con due elementi in parallelo si ottiene un notevole incremento di affidabilità, pari al 20% rispetto alla configurazione con elemento singolo. L’incremento è, ovviamente, sempre positivo all’aumentare del numero di elementi in ridondanza attiva ma, come era logico attendersi, di entità sempre minore e comunque tale da non giustificare il costo dell’intervento di miglioramento. L’esempio proposto mette in evidenza l’importanza della configurazione parallelo quale tecnica di incremento dell’affidabilità di sistema. Come ulteriore applicazione si riporta di seguito un esempio di allocazione di ridondanza attiva per una configurazione serie. Preme ricordare che la ridondanza attiva trattata in questo paragrafo non deve essere confusa con la ridondanza in attesa (o ridondanza stand-by). In termini generali questa configurazione, che non tratteremo in questo contesto, prevede il funzionamento di un sistema A e l’intervento di un sistema B qualora A assuma uno stato di avaria. Un blocco di diagnostica D controlla il corretto funzionamento di A e fa intervenire B all’occorrenza. E’ evidente che per questa configurazione l’affidabilità dell’intero sistema dipende dall’affidabilità dei blocchi A, B, D secondo un legame di probabilità condizionata. Esempio applicativo 6 Supponiamo di considerare l’RBD per una configurazione serie (Figura 3.6.a) in cui è stato a priori individuato l’elemento Ei quale elemento Tabella 3.2: Incremento di affidabilità per una configuraa più elevato tasso di guasto. zione in ridondanza attiva. Una possibile soluzione per Numero di Affidabilità Incremento di Incremento di di sistema affidabilità (a) affidabilità (b) incrementare l’affidabilità di elementi sistema potrebbe riguardare 1 0.800000 ----l’inserimento di una ridon- 2 0.960000 0.160000 20.00 % danza attiva come riportato in 3 0.992000 0.032000 24.00 % Figura 3.6.b. Una tale confi- 4 0.998400 0.006400 24.80 % gurazione prende usualmente 5 0.999680 0.001280 24.96 % il nome di “allocazione di ri- 6 0.999936 0.000256 24.99 % dondanza”. (a) rispetto alla configurazione del passo precedente (b) rispetto alla configurazione iniziale con elemento singolo L’analisi di Affidabilità in fase di progettazione 21 Figura 3.6: RBD: (a) configurazione funzionale serie; (b) allocazione di ridondanza. Considerando le (3.1) e (3.7) è immediato ricavare l’espressione dell’affidabilità di sistema come: (3.13) RS (t ) = (2 − Ri (t )) ⋅ Rserie (t ) Riprendendo l’esempio 1 ed applicando la relazione precedente in cui si posiziona l’allocazione di ridondanza sull’elemento E1, con valore di affidabilità pari a 0,4, si ottiene una probabilità di funzionamento complessiva per l’intero sistema pari a 0,4032, ottenendo pertanto un incremento del 60% rispetto al valore iniziale di 0,252 della serie. Esempio applicativo 7 Un confronto tra le configurazioni canoniche con due elementi uguali e indipendenti funzionalmente in serie ed in parallelo, e l’andamento dell’affidabilità con singolo elemento avente lo stesso tasso di guasto costante, è riportato in Figura 3.7. Le configurazioni serie e parallelo possono essere opportunamente combinate tra loro originando le cosiddette configurazioni miste. Per queste, mantenendo le ipotesi fatte e richiamando le (3.1) e (3.7), è immediato determinare sia l’andamento temporale dell’affidabilità sia il valore di MTTFS. Esempio applicativo 8 Un sistema costituito da sette sottosi3 R S (t ) = 2 e − λ t − e − 2 λt ; MTTF S = stemi ciascuno dei quali caratterizzato 2λ da un diverso tasso di guasto, costante b) elemento singolo: nel tempo, è rappresentato attraverso 1 l’RBD di Figura 3.8. Come si può osR S (t ) = e − λt ; MTTFS = servare, siamo in presenza di una confiλ gurazione mista per la quale sono applic) due elementi in serie: cabili le relazioni delle configurazioni 1 R S (t ) = e − 2 λt ; MTTFS = serie e parallelo precedentemente tratta2λ te. Figura 3.7: Confronto tra configurazioni canoniLa struttura presenta infatti una configu- a) due elementi in parallelo: che con elementi aventi lo stesso tasso di guasto. 22 Quaderno n. 1 - GMEE Figura 3.8: Configurazione mista. razione serie-parallelo in cui le entità E1, E 2 , E 3 del ramo superiore sono tra loro in serie ed in parallelo con la serie E4, E5 del ramo inferiore. Il tutto è in serie con gli elementi E6 , E7 . Si ottiene quindi: R(t) = e − (λ1 + λ 2 + λ 3 + λ 6 + λ 7 ) t + e − (λ 4 + λ 5 + λ 6 + λ 7 ) t − e − ( λ1 + λ 2 + λ 3 + λ 4 + λ 5 + λ 6 + λ 7 ) t (3.14) e di conseguenza : 1 1 1 MTTFS = + − λ1 + λ 2 + λ 3 + λ 6 + λ 7 λ 4 + λ 5 + λ 6 + λ 7 λ1 + λ 2 + λ 3 + λ 4 + λ 5 + λ 6 + λ 7 Configurazione funzionale k su n Un caso particolare di configurazione intermedia tra le due precedentemente citate è quello in cui il sistema risulti operativo se almeno k dei suoi n elementi funzionano regolarmente. La configurazione è chiamata anche ridondanza k-out-of-n , con k ≤ n. Possiamo quindi pensare a questo tipo di configurazione come una struttura in cui k elementi sono in ridondanza attiva ed i rimanenti (n-k) in attesa. Tipico è l’esempio di una fune di acciaio formata da n fili che resiste alla sollecitazione prevista se almeno k dei suoi fili sono integri. Per il calcolo dell’affidabilità di questa configurazione si ricorre alla distribuzione binomiale ipotizzando che il generico elemento del sistema possa assumere solo due condizioni, condizione di corretto funzionamento e condizione di avaria. In virtù della definizione data per questa configurazione ed indicando con R(t) l’affidabilità del generico elemento, l’affidabilità di sistema può essere espressa come: n R S (t ) = n (R (t )) i (1 − R (t )) n − i i =k i ∑ (3.15) n n! il coefficiente binomiale, con 0! = 1. essendo = i i ! ( n − i )! Assumendo la condizione di tasso di guasto costante avremo: n n −i n -λ t i e R S (t ) = 1 − e -λ t (3.16) i =k i da cui è immediato calcolare il tempo medio al guasto di sistema come: +∞ n n -λ t i MTTFS = (1 − e -λt ) n −i dt (3.17) e 0 i =k i E’ interessante osservare che per k =1 questa configurazione coincide con la parallelo, mentre per k=n si identifica con la configurazione serie. ∫ ∑ ( )( ∑ ( ) ) L’analisi di Affidabilità in fase di progettazione 23 Esempio applicativo 9 Si vuole determinare la probabilità di funzionamento del sistema 2 su 3 ad un tempo pari a 104 ore considerando che il tasso di guasto del generico elemento vale 3•10-5 h-1. In virtù della 3.16 il modello analitico dell’affidabilità vale: 3 3− i 3 3 3 −iλt e R S (t ) = 1 − e −λt = e − 2 λt 1 − e − λt + e − 3 λt = 3e −2 λt - 2e −3 λt 2 3 i =2 i ( ∑ ) ( ) Considerando il valore del tasso di guasto assegnato, l’affidabilità di sistema al tempo 104 ore vale 0,833. Esempio applicativo 10 In Tabella 3.3 ed in Figura 3.9 si riportano a confronto i risultati e gli andamenti dell’affidabilità per diverse configurazioni funzionali k su n, nelle ipotesi che hanno condotto a determinare le espressioni (3.16) e (3.17). Tabella 3.3: Caratteristiche di affidabilità per configurazioni k su n. Configurazione Modello di affidabilità MTTFS a Elemento singolo e − λt 1/ λ b 1-out-of-2 2e −λt − e −2 λt 9 / (6 λ ) c 1-out-of-3 3e − λt − 3e −2 λt + e −3λt 11 / (6 λ) d 2-out-of-3 3e − λt − 2e −3 λ t 5 / (6 λ ) 1 0.9 0.8 0.7 0.6 c R(t) 0.5 b 0.4 0.3 a 0.2 d 0.1 0 0 50 100 1/ 150 200 2/ 250 Figura 3.9: Affidabilità di sistema per diverse configurazioni funzionali con elementi aventi lo stesso tasso di guasto. 24 Quaderno n. 1 - GMEE 4. Il concetto di affidabilità fisica e le prove di laboratorio Introduzione L’affidabilità fisica si basa sull’idea di poter effettuare “l’analisi della vita” di un componente attraverso la definizione di un modello. In qualunque ambito, sia esso meccanico piuttosto che elettrico o elettronico, la definizione di un modello passa attraverso la definizione delle relazioni che sono necessarie per inquadrare univocamente lo stato del componente/sistema, ovvero gli “ingressi” (per es. le condizioni di carico), i “fattori di influenza” (ambientali, meccanici, elettrici etc. ) e, non ultime, le prestazioni richieste. Quanto detto precedentemente porta quindi ad una formalizzazione in termini di equazioni dove compaiono delle variabili che rappresentano il fenomeno che ha dato origine alla definizione del modello, gli ingressi e le misure. Nello studio dell’affidabilità fisica è bene fare un’osservazione di carattere generale: qualunque tipo di materiale (e, generalizzando, di componente) è in grado di immagazzinare “energia” proveniente dall’ambiente esterno, il limite di tale immagazzinamento è rappresentato dalla capacità di ricezione dei legami delle particelle elementari. Tale capacità determina quindi la definizione di un valore critico oltre il quale ovviamente il meccanismo di conservazione lascia il posto al meccanismo di modifica dei legami strutturali: ciò porta al raggiungimento del punto di rottura del materiale (componente) stesso. Come è facile immaginare, l’anisotropia dei materiali determina una non regolare distribuzione dell’energia con la conseguente rottura per valori inferiori al valore critico teorico. L’interazione con il mondo esterno non è quindi “deterministicamente” prevedibile perché all’aspetto molecolare dei materiali vanno associate le metodologie di scambio energetico con l’ambiente esterno: quantità, forma, dinamica dello scambio determinano quindi una diversa evoluzione dei processi. Il valore critico può essere raggiunto attraverso processi di degrado istantanei (la sollecitazione è di entità e dinamica tali da eccedere la resistenza del materiale) o lenti: in questo caso si instaurano fenomeni di affaticamento. Le sollecitazioni La definizione di un modello per un componente che sia utile ai fini della definizione di parametri affidabilistici presuppone quindi che vengano ben interpretati due aspetti fondamentali dello studio “fisico” dell’affidabilità ovvero i meccanismi di guasto ed i tipi di guasto. I meccanismi di guasto sono legati alle sollecitazioni applicate al dispositivo: come sollecitazioni, dal punto di vista dello studio del meccanismo, si inquadrano sia le modalità di utilizzo durante il normale funzionamento che i fattori di influenza legati all’ambiente di utilizzo. A seconda del contesto operativo i fattori di influenza che, cumulandosi, arrivano a causare un’avaria possono essere di tipo differente. Per esempio Il concetto di affidabilità fisica e le prove di laboratorio 25 per i componenti elettronici la sollecitazione è spesso la "temperatura di lavoro" del componente, mentre per componenti di impianti chimici può essere la capacità di corrosione del fluido che opera nel sistema. È possibile suddividere in tre tipologie i principali fattori di influenza, ovvero: o fattori di influenza climatici (l’aumento della temperatura ambiente rende meno agevole la dissipazione del calore: ciò ovviamente incide sul comportamento dei componenti elettronici ma anche su altre tipologie di componenti, si pensi ad esempio agli isolamenti delle macchine elettriche). o meccanici (vanno considerati gli shock legati all’installazione ed al trasporto ma, in particolare, le vibrazioni a cui sono soggetti i dispositivi durante il loro normale funzionamento); o elettrici (interferenze di tipo elettromagnetico, legate alle caratteristiche dell’alimentazione od alla mutua interferenza tra apparati). In generale ogni dispositivo è soggetto ai fattori di influenza: è ovvio che è proprio la tipologia di dispositivo e di utilizzo dello stesso a rendere un fattore predominante rispetto agli altri. Dal momento che le modalità di utilizzo dei componenti e dei materiali ha un forte impatto sull’affidabilità dei sistemi (si ricordi a questo proposito la definizione data nel Capitolo 1), lo studio dei modelli è stato affiancato, in ambito normativo, dalla definizione di parametri e di “griglie” da utilizzare per la selezione e la qualificazione dei materiali/componenti oltre che per la definizione degli standard operativi. Per capire l’importanza di questo sforzo basti pensare, relativamente alle condizioni ambientali, alle classificazioni definite in ambito elettronico dai diversi enti nazionali ed internazionali (per esempio ETSI ed IEC). Le norme prodotte specificano, infatti, i limiti di stress e le condizioni di prova relativamente a: temperatura, umidità, precipitazioni, radiazioni, sabbia, rumore, vibrazioni, shock elettrico e meccanico. Le norme classificano gli ambienti definendo per ognuno di essi i valori dei parametri ambientali caratteristici (temperatura, umidità relativa, vibrazioni, etc.). Si veda a questo proposito la Tabella 4.1 relativa alle condizioni normali standardizzate. La tabella riportata fa riferimento a temperature intese come baricentro di quel particolare diagramma, che mostra le combinazioni dei valori possibili della temperatura dell’aria e dell’umidità relativa, noto come climatogramma. Nel climatogramma sono individuate varie zone (si prenda ad esempio la Figura 4.1): o una zona più interna che Tabella 4.1: Esempio di classificazione ambientale. rappresenta le condizioSOTTOCLASSE T (°C) (baricentro AMBIENTE CLASSE ni incontrate nel 90% AMBIENTE climatogramma) Standard 25 del tempo; Climatizzato Speciale 30 Con parziale controllo della 25 o una zona intermedia ritemperatura ferita a condizioni amSenza controllo di temperatura al riparo 25 di strutture in muratura bientali limite “normaPROTETTO Senza controllo di temperatura con 30 NON Climatizzato effetto serra li”; Senza controllo di temperatura con 30 o una zona più esterna riventilazione naturale senza effetto serra Senza controllo di temperatura in 30 ferita a condizioni amcontenitore, per apparati di linea Mobile (abitacolo e vano portabagagli) 30 bientali “eccezionali” Clima freddo 15 (ad esempio un guasto al Clima freddo temperato 15 Clima caldo temperato 20 sistema di condizionaALL’ARIA NON Protetto Clima caldo temperato 25 LIBERA mento, ove esistente). (tropicale) a Clima caldo secco Clima caldo secco temperato 25 25 26 Quaderno n. 1 - GMEE La funzionalità degli apparati deve essere garantita nella zona intermedia, in quella più esterna è ammesso un degrado reversibile. Per inciso occorre ricordare che anche nelle banche dati di affidabilità, trattate nel Capitolo 5, si fa riferimento, attraverso il parametro ЛE (Fattore ambientale), ad una classificazione di ambienti operativi. Ci si potrebbe chiedere se sia possibile trovare una relazione che leghi le sollecitazioni imposte alla resistenza del componente; da un punto di vista teorico ciò consentirebbe la progettazione di dispositivi per i quali non esisterebbe la condizione di rottura. In realtà sia il carico che la resistenza del componente seguono di fatto una loro distribuzione statistica. Nell’ipotesi di una distribuzione di tipo normale (si osservi che in letteraFigura 4.1: Esempio di climatogramma. tura sono comunque presenti studi in cui tale analisi viene compiuta analizzando distribuzioni diverse) si può ipotizzare che l’affidabilità dipenda dalla distanza che esiste fra le code delle due distribuzioni (Figura 4.2); tale distanza porterebbe quindi a definire un margine di sicurezza. In realtà è lo studio dei parametri caratteristici della distribuzione (media e deviazione standard) che consente la definizione quantitativa di tale margine. Indicando infatti con L ed S (Figura 4.3) i valori medi e con σL e σS le deviazioni standard delle distribuzioni rispettivamente della resistenza del dispositivo e della sollecitazione applicata è possibile definire il margine di sicurezza (MS) ed un secondo indice (LR) che tenga conto della forma della sollecitazione come: MS = S −L σ S2 + σ L2 ; LR = σL σ S2 + σ L2 (4.1) La probabilità che avvenga un guasto è ovviamente legata alla distanza delle due distribuzioni mentre il numero di dispositivi coinvolti è legato oltre che a tale distanza anche alla forma delle distribuzioni. Come è evidenziato dai grafici di Figura 4.3, mentre la (a) rappresenta la condizione ideale in (b) e (c) sono riportati due possibili casi in cui potrebbe insorgere il guasto: in (b) il margine di sicurezza è basso in quanto pur avendo una distribuzione della sollecitazione molto stretta è proprio la campana della resistenza ad allargarsi. Come evidenziato in figura, la probabilità di guasto interessa solo una piccola frazione dei dispositivi che rispondono a tale legge. In (c) è S L invece rappresentata una situaFigura 4.2: Relazione tra stress e resistenza. Il concetto di affidabilità fisica e le prove di laboratorio 27 zione che presenta una criticità maggiore: la probabilità di guasto per sollecitazione interessa infatti una frazione decisamente più consistente di dispositivi. Quanto detto, con particolare riferimento al caso (b), fornisce un elemento di indagine assai utile nel controllo qualità: lì dove i requisiti di affidabilità sono stringenti ma i controlli sull’intero lotto non sono possibili (si pensi ai dispositivi dove è prevalente la presenza di componenti elettronici), si può attuare una strategia di prove tali da sottoporre i dispositivi ad un overstress che elimini quelli la cui resistenza appartiene alla coda della distribuzione. Le precedenti considerazioni sono alla base dell’implementazione delle prove di screening che hanno come obiettivo, tra l’altro, quello di evidenziare la percentuale di componenti intrinsecamente deboli che caratterizzano la zona dei guasti prematuri (o per deficienza intrinseca) della curva a vasca di Figura 4.3: Analisi dei legami. cui si è parlato nel Capitolo 2. Si può tentare di quantificare quanto descritto precedentemente attraverso un esempio. E’ il caso di una valvola di regolazione; dal data sheet fornito dal costruttore si vede che tale valvola può lavorare ad una pressione massima di 14000 kPa (lo scarto tipo è del 5%). L’affidabilità del dispositivo, qualora venga utilizzato per una condotta entro la quale il fluido esercita una pressione di 10000 kPa (lo scarto tipo previsto è di 1300 kPa) è stimabile a partire dal margine di sicurezza: MS = S −L σ S2 + σ L2 = 14000 − 10000 700 2 + 1300 2 ≅ 2,71 (4.2) Da cui, riprendendo le tavole relative alle distribuzioni normali, si ha che l’affidabilità: R = F ( MS ) = 0,9966 (4.3) Il degrado dei componenti Come è immaginabile, solo nel caso puramente ideale un dispositivo, sottoposto all’azione delle sollecitazioni, mantiene inalterate le proprie caratteristiche; in realtà la resistenza del dispositivo subisce un degrado e quindi, di conseguenza, si modificano le caratteristiche nominali del dispositivo stesso. Richiamando l’ipotesi di distribuzione normale presentata al paragrafo precedente, si può ipotizzare un’evoluzione nel tempo della resistenza del componente sottoposto alle sollecitazioni esterne del tipo indicato in Figura 4.4. Definire un andamento come quello di Figura 4.4 presuppone la conoscenza del comportamento del dispositivo attraverso una caratterizzazione che può passare attraverso un modello analitico ma sicuramente passa dalle prove di vita eseguite sui dispostivi della stessa famiglia. 28 Quaderno n. 1 - GMEE L’approccio previsionale Lo studio sia dei meccanismi che dei tipi di guasto ha lo scopo di aiutare nella definizione di modelli affidabilistici del comportamento del dispositivo, ovvero, in termini quantitativi, nella definizione delle variazioni del tasso di guasto in funzione dei fattori di influenza e delle caratteristiche tecnologiche. E’ bene sottolineare che i modelli così definiti non forniscono una rappresentazione del comportamento fisico dei meccanismi di guasto dei componenti, ma rappresentano la Tempo miglior stima dei migliori dati osservati. Figura 4.4: Degrado della resistenza. Ciò implica che l’utilizzo dei modelli in ambito affidabilistico è plausibile solo se le specifiche in base alle quali tali dispositivi/materiali verranno applicati siano assimilabili alle condizioni in cui i dati sono stati determinati. Quanto detto precedentemente è di validità generale è ovvio inoltre che il modo e l’intensità con cui le grandezze di influenza interagiscono su materiali e dispositivi dipende dal tipo e dall’utilizzo degli stessi. Uno dei fattori di influenza i cui effetti riguardano materiali dispositivi e processi è la temperatura; dal momento che molti processi (reazioni chimiche, diffusione di gas etc.) subiscono delle accelerazioni all’aumentare della temperatura, è possibile definire, per questo fattore di influenza, una sorta di modello di validità generale. Tale modello è noto come modello di Arrhenius: R = H ⋅ eEa KT (4.4) (R = velocità di attivazione, H = costante tipica del processo, K = costante di Boltzmann, 8,623 • 10-5 eV/K, Ea =energia di attivazione del processo di degradazione, in eV, T = temperatura espressa in K). Nel caso dei componenti elettronici la formulazione di un modello analitico in grado di descrivere le variazioni del tasso di guasto è facilitata dal fatto che se da un lato è possibile identificare nella temperatura un fattore d’influenza che interessa diverse famiglie di componenti vi è dall’altro il vantaggio di poter contare su di una mole consistente e coerente di dati (i componenti elettronici vengono prodotti in quantità elevate e con un elevato grado di unificazione). Per quanto riguarda il modello di Arrhenius (in Figura 4.5 se ne riporta l’andamento su carta logaritmica) si ha: λ2 = λ1 ⋅ e Ea K (1/ T1 −1/ T2 ) (4.5) dove λ1 tasso di guasto, in h-1, alla temperatura T1 (K) In realtà il modello di Arrhenius, se pur largamente utilizzato e rielaborato, non è da utilizzare in modo diffuso: i meccanismi di guasto di molti componenti elettronici “moderni” non mostrano infatti la sensibilità alla temperatura indicata nel modello (Figura 4.6). Sulla scia del modello di Arrhenius sono stati definiti diversi modelli che tengono Il concetto di affidabilità fisica e le prove di laboratorio 29 conto dei diversi fattori di influenza; quella che potremmo definire come formula base è la seguente: λ = λ0 ⋅ π E ⋅ π S ⋅ π T .... ⋅ π K (4.6) (λ0 = tasso di guasto in condizioni di riferimento; πE = fattore ambientale; πS = fattore legato allo stress elettrico; πT = fattore legato alla temperatura; πK = fattori peculiari del componente). Tale formula è stata adottata nello standard US MIL-HDBK-217, standard di cui si parlerà nel Capitolo 5 (relativo alle banche dati); l’ipotesi di base è quella di distribuzione esponenziale. Figura 4.5: Modello di Arrhenius. Figura 4.6: Legame temperatura affidabilità per componenti elettronici. I modi di guasto I modi di guasto descrivono, da un punto di vista funzionale o sub-funzionale, il modo in cui un componente può guastarsi; distinguere il modo di guasto diventa necessario quando è importante conoscere le eventuali conseguenze del guasto sul sistema. Nei paragrafi precedenti si è visto come i meccanismi di guasto che innescano processi quali corrosione, usura, vibrazioni, fratture, ossidazione, etc. giocano un ruolo importante nella fisica del guasto. E’ bene ricordare però che le cause di guasto spesso vanno ricercate al di fuori del componente stesso (un componente può guastarsi a causa di uno stress eccessivo causato da guasti a “monte”). Si distinguono generalmente tre diverse condizioni operative: attività continua, standby ed attività intermittente (componenti che operano in standby sono normalmente passivi). Partendo dalle condizioni operative è possibile definire due categorie per le cause di guasto: la prima classificazione riguarda i guasti che avvengono quando il componente è chiamato in servizio dalle condizioni di standby (demand-related), la seconda è relativa ai guasti che interessano i componenti durante le condizioni di attività continua ( timerelated); per i componenti chiamati ad operare in entrambe i modi, si possono avere, ovviamente, entrambi i tipi di guasto. Alla categoria già esistente di guasto totale (noto in letteratura come catastrophic failure), categoria contraddistinta dalla perdita completa della funzionalità, ne vanno aggiunte altre due, legate al fatto che un guasto può presentarsi mediante un graduale allontanamento del prodotto dalle prestazioni nominali: degraded failure e incipient failure; la prima descrive casi in cui si ha una perdita di capacità funzionale ma il dispositivo è ancora capace di fornire una prestazione superiore al livello minimo richiesto, 30 Quaderno n. 1 - GMEE mentre la seconda si riferisce a casi in cui senza un intervento di manutenzione o riparazione avverrà una perdita di funzionalità. Inoltre i modi di guasto sono distinti in relazione alla sub-funzione quando si realizza l’indisponibilità: per chiarire basti pensare che per determinati dispositivi (per esempio un motore) il guasto può presentarsi in fase di avviamento o di spegnimento, ma è ovvio che le conseguenze di questi due tipi di guasto possono evolvere in modo diverso. Le prove di laboratorio: prove su componenti e sistemi Richiamando la Norma CEI 56-50, con il termine prova si intende un’operazione, o una serie di operazioni, eseguite al fine di valutare, quantificare e classificare una caratterista o un’altra proprietà di una entità. Per entità si intende, normalmente, un componente elementare, un sottosistema o un sistema più complesso. Per prova di laboratorio si intende, invece, una prova di conformità (atta a verificare una caratteristica dell’elemento) o una prova di determinazione (volta a stabilire una caratteristica dell’elemento) eseguita in condizioni prescritte e controllate, condizioni che possono simulare o non simulare quelle di esercizio. Una procedura immediata per determinare e misurare i parametri affidabilistici di una famiglia di componenti è quella di sottoporre, in laboratorio, un loro campione rappresentativo alle stesse sollecitazioni alle quali essi risultano soggetti in esercizio, sia come tipologia di sollecitazione (es. temperatura, umidità, etc.) che come livello (per la temperatura, 40°C, 55°C, etc.). In questo caso la prova si protrae fino a che la totalità del campione o gran parte degli elementi non si sono guastati. Parleremo, in questo caso, di prove di vita di lunga durata. Ricordando quanto detto a proposito della “curva a vasca” che caratterizza il tasso di guasto di un componente elettrico/elettronico (vedi Capitolo 2) e ricordando che la zona dei guasti casuali (parte centrale della curva a vasca) ha una estensione di centinaia di migliaia di ore, appare evidente che soprattutto per componenti elettronici questa categoria di prove di laboratorio risulta essere inadeguata in quanto produrrebbe informazioni sul comportamento del componente in tempi molto lunghi e pertanto confrontabili con l’obsolescenza tecnologica. Si parla pertanto di prove di vita accelerate, ovvero di prove in cui il campione di elementi viene sottoposto a livelli di sollecitazione superiori, in maniera più o meno accentuata, rispetto a quelli di normale impiego. Il rapporto tra il valore della sollecitazione applicata nel corso di questa prova ed il corrispondente valore che caratterizza le condizioni di normale impiego viene detto fattore di accelerazione. Obiettivo della prova accelerata è quello di accentuare i fenomeni di degradazione, senza alterare i meccanismi di guasto (definizione data nel Capitolo 1) predominanti, al fine di avere l’insorgenza del guasto in tempi più rapidi. L’utilità di questa categoria di prove va ricercata anche nella possibilità di effettuare confronti quantitativi tra dispositivi dello stesso tipo ma di differente origine, ad esempio provenienti da linee di produzione diverse o da diversi costruttori. Esse prendono in considerazione un’ampia varietà di sollecitazioni, sia di tipo strettamente climatico (freddo, caldo secco, caldo umido, etc.) sia, più in generale, di tipo ambientale (vibrazioni, ambienti corrosivi, etc.). Di seguito, in Tabella 4.2, si riporta una classificazione delle prove ambientali in ambito elettrico/elettronico tratta dalla norma CEI 50-2. Il concetto di affidabilità fisica e le prove di laboratorio Prova A B C D E F G J K 31 Tabella 4.2: Classificazione delle prove ambientali [CEI 50-2]. Sollecitazione ambientale Prova Sollecitazione ambientale Freddo L Polvere e sabbia Caldo secco M Pressione atmosferica (alta e bassa) Caldo umido (continuo) N Cambi di temperatura Caldo umido (ciclico) Q Ermeticità (ai liquidi, ai gas) Impulsi meccanici (urti e scosse) R Acqua (pioggia, gocciolamento) Vibrazioni (sinusoidali, aleatoS Radiazione (solare, escluse le elettromarie) gnetiche) Accelerazione costante T Saldatura Muffe U Robustezza dei terminali ( dei componenti) Atmosfere corrosive (es. nebbia salina) Le prove possono essere dettagliate in maniera più accurata in funzione del particolare tipo di sollecitazione: ad esempio, la prova U di robustezza dei terminali e dei dispositivi di montaggio integrati al componente può riguardare la trazione (Ua1), la compressione (Ua2), la piegatura (Ub), la torsione (Uc), la coppia torcente (Ud). Indipendentemente dalla natura della sollecitazione, dal livello e dalla durata, le prove di laboratorio, siano esse di conformità che di determinazione, vengono normalmente eseguite secondo la sequenza di seguito riportata: Fase 1 – Assestamento preliminare – E’ un’operazione eseguita sul dispositivo (o sul campione) in prova al fine di eliminare gli effetti dei suoi stati precedenti; l’assestamento preliminare potrebbe consistere, ad esempio, nel far stazionare per un certo periodo a temperatura ambiente (o di laboratorio) gli elementi prima di sottoporti ad un ciclo di sollecitazione. Fase 2 – Controlli e misure iniziali – Durante questa fase ci si accerta che tutti i componenti che sottoporremo successivamente alla prova siano perfettamente funzionanti (misura della conformità). Si assume la fase 2 come condizione di riferimento per le misure su componente. Fase 3 – Trattamento – I componenti vengono esposti alla sollecitazione secondo il profilo (profilo di sollecitazione) stabilito dalla norma o determinato con altri criteri. Un esempio potrebbe riguardare l’applicazione di una temperatura (Prova B – Caldo secco) per un certo intervallo di tempo usando un forno oppure l’applicazione di caldo-umido (prova D) mediante una camera climatica. Fase 4 – Riassestamento – Una volta applicata la sollecitazione occorre riportare i componenti nelle condizioni di riferimento alle quali si eseguono le misure per verificare il livello di degrado o l’insorgenza di un guasto. Il generico ciclo di prova caratterizzato dalle fasi precedentemente descritte può essere ripetuto secondo un’opportuna sequenza che prende il nome di sequenza di prova. In generale, nell’ambito delle prove di laboratorio si distinguono: o prova combinata, in cui due o più sollecitazioni ambientali agiscono simultaneamente sul dispositivo in prova; ne è un esempio la prova combinata caldo-umido; o prova composita, dove due o più sollecitazioni ambientali vengono applicate in stretta successione; l’intervallo di tempo tra le esposizioni ai diversi agenti ambien- 32 Quaderno n. 1 - GMEE tali ha influenza sul dispositivo in prova. Ne è un esempio la prova Z/AD: prova composita (Z) di freddo (A) e caldo umido ciclico (D). o sequenza di prova, in cui l’elemento è sottoposto successivamente a due o più sollecitazioni, ad intervalli di tempo ininfluenti su di esso. Si cita, ad esempio, la prova di saldatura (T), seguita dalla prova Na (cambi rapidi di temperatura) e dalla prova Ea (Accelerazioni non costanti – Urti). Si riportano in Tabella 4.3 alcuni dei principali effetti degli agenti ambientali considerati singolarmente. Tabella 4.3: Principali effetti degli agenti ambientali considerati singolarmente. Agente ambientale Temperatura elevata Umidità relativa elevata Alta pressione Radiazione solare Sabbia o polvere Atmosfere corrosive Pioggia Effetti principali Invecchiamento termico o ossidazione o fessurazione o reazione chimica Rammollimento, fusione, sublimazione Riduzione della viscosità Dilatazione Absorbimento e adsorbimento umidità Gonfiamento Perdita di resistenza meccanica Reazione chimica (corrosione, elettrolisi) Conduttività accresciuta degli isolanti Compressione, deformazione Reazioni chimiche, fisiche, fitochimiche Deterioramento della superficie Decolorazione Riscaldamento Formazione di ozono Abrasione e erosione Grippaggio Incrostazione Perdita di conducibilità termica Effetti elettrostatici Reazioni chimiche Aumento della conduttività Aumento delle resistenze di contatto Assorbimento di acqua Sbalzi di temperatura Erosione Corrosione Cambi rapidi di tem- Sbalzi di temperatura peratura Riscaldamento differenziato Accelerazione cost., Sollecitazioni meccaniche Vibrazioni Fatica Scosse e urti Risonanza Tipo di guasto risultante Difetto di isolamento, guasto meccanico, sollecitazione meccanica accresciuta, usura delle parti mobili dovuta alla dilatazione o alla perdita delle proprietà lubrificanti Rottura fisica, difetto di isolamento, guasto meccanico Guasto meccanico, (difetti di ermeticità) perdite Difetti di isolamento Usura accresciuta, guasto elettrico, guasto meccanico, sovrariscaldamento Usura accresciuta, guasto meccanico, guasto elettrico Guasto elettrico, fessurazione, perdite, deterioramento delle superfici Guasto meccanico, fessurazione, deterioramento della tenuta, perdite Guasto meccanico, aumento dell’usura delle parti mobili, deformazione della struttura Sistemi riparabili e disponibilità 33 5. Banche dati e calcolo del tasso di guasto Le prime raccolte di dati La nascita dei moderni databook avviene negli Stati Uniti ed ha come punto di partenza l’analisi dei dati di guasto raccolti in ambito militare e relativi a sistemi (equipaggiati con componenti elettronici) utilizzati durante il secondo conflitto. E’ proprio tra il 1943 ed il 1950 che apparve chiara la correlazione tra la frequenza dei guasti degli apparati di comunicazione e navigazione e la severità delle condizioni operative in cui essi si trovavano ad operare; già in questa fase venne posta particolare attenzione alle condizioni climatiche ovvero temperatura ed umidità. Questo allarme evocava a se la massima attenzione per le ricadute in termini di sicurezza delle truppe ma anche in termini di “disponibilità” degli apparati e dei relativi costi di manutenzione. Sulla base di ciò il Governo Americano, nel 1952, diede inizio ai lavori dell’AGREE (Advisory Group on the Reliability Electronic Equipment), un gruppo di consultazione che pubblicò, nel 1957, una relazione sulle specifiche e sulle prove relativamente all’affidabilità di tali apparati; è da questo atto che si innesca la nascita di mirate banche dati a supporto della progettazione. L’obbiettivo è quello di fornire una valutazione del tasso di guasto con un certo livello di confidenza. Nel 1953 la Radio Electronic Television Manufacturer’s Association (RETMA), che poi diventerà Electronic Industries Association (EIA), formò una commissione per le applicazioni elettroniche allo scopo di determinare metodi e procedure per la raccolta, l’analisi e la classificazione di dati affidabilistici. I risultati del lavoro della commissione vennero resi pubblici attraverso gli Electronics Applications Reliability Review bullettins; tali pubblicazioni rappresentano quindi la prima raccolta ragionata di dati messa a disposizione delle aziende: organizzazioni industriali quali Radio Corporation of America (RCA), General Electric (GE) e Motorola vi pubblicarono inoltre i risultati delle prove di vita da loro compiute sui componenti utilizzati. Una traccia di questo importante lavoro è contenuta nella prima edizione del MIL HDBK 217E (“Reliability prediction of electronic equipment”, edito dal Dipartimento della Difesa americana nel 1962). Il primo tentativo di definire un handbook che riportasse anche informazioni relativamente a componenti meccanici ed elettromecanici si ebbe nel 1959 con il Martin Titan Handbook noto come “Procedure and Data for Estimating Reliability and Maintainability”. Il pregio di questo handbook è quello di aver cercato di presentare i dati seguendo un criterio di standardizzazione; il Titan è infatti la prima raccolta dati in cui i tassi di guasto vengono espressi in funzione delle ore di funzionamento e che adotta la distribuzione esponenziale nel calcolo. Se da una parte i dati riportati soffrono del fatto di non essere supportati dalle corrette informazioni statistiche (non vengono riportati, infatti, la numerosità del campione testato, il numero di guasti rilevati e il numero di ore di osservazione) dall’altra questi dati sono supportati dalle informazioni sui modi di guasto. È sempre il Titan il primo a proporre dei fattori empi rici (“fattori K”) che tengono conto dei modi di impiego e dell’eventuale presenza di ridondanze. 34 Quaderno n. 1 - GMEE Banche dati della seconda generazione A partire dagli anni 60, sulla scia dell’esperienza legata al Titan Handbook e delle richieste provenienti dall’aviazione militare americana, si assiste alla nascita di programmi di raccolta ed organizzazione dei dati affidabilistici. Questo lavoro porterà alla definizione di handbook quali: • MIL-Handbook-217 • Failure Rate Data Bank (FARADA) • RADC Non Electronic Reliability Notebook. MIL-Handbook-217 Partendo dalle caratteristiche del Titan Handbook (tassi di guasto per 106 ore, distribuzione esponenziale, fattori π) il MIL-Handbook-217 raggruppa i componenti in categorie e sottocategorie connotati da fattori correttivi. Le ultime edizioni della 217 contengono ovviamente una mole di dati non indifferente che rendono quindi questa raccolta una delle più complete; sfortunatamente il modo come sono stati raccolti ed organizzati i dati fa si che le informazioni non sempre siano attendibili. I modelli contenuti nel MIL-HDBK-217 fanno riferimento solo ai difetti di produzione sui quali intervengono gli stress legati all’utilizzo; problemi legati al design, al trasporto e alle modalità di utilizzo non sono quindi tenute in conto dal modello. L’origine empirica dei dati alla base dell’handbook, non associata ad una effettiva analisi delle reali origini del guasto, fa si che tali dati non siano utilizzabili per identificare l’insorgere di eventuali problemi e non si possa quindi definire una confidenza statistica associata ai risultati ottenuti mediante tali modelli. In particolare le variazioni di tolleranza sono mascherate dall’uso dei fattori K e, inoltre, i tassi di guasto vengono considerati come misure fissate di un’apparecchiatura specifica e non come misura generale di una gamma di tipi di apparecchiature. Failure Rate Data Bank (FARADA) A partire dagli anni 70, sempre sulla spinta delle forze armate americane, venne sponsorizzato un programma di interscambio dei dati relativi alle apparecchiature vendute in ambito militare: questo programma, noto come GIDEP (Government/Industry Data Exchange Program) ha avuto il merito di mettere insieme oltre 400 partecipanti di cui l’80% sono organizzazioni industriali private. La raccolta promossa dal GIDEP è stata corredata dal primo sistema software per il trattamento dei dati, con il vantaggio di un aggiornamento veloce e di organizzazione secondo formati utili al loro trattamento statistico. L’handbook relativo, FARADA, fornisce oltre che i tassi di guasto (vengono ovviamente fornite le informazioni relative ai campioni origine di tali informazioni) anche informazioni relative ai tassi di sostituzione sulla popolazione di apparecchiature e, li dove disponibili, sui modi di guasto. I dati riportati provengono da esperienze sul campo, da test di vita accelerati e da test di affidabilità dimostrativi. Il problema legato all’analisi statistica adottata da questo handbook è che i dati provengono da popolazioni non omogenee; pur utilizzando la distribuzione chi-quadro per la definizione degli intervalli di confidenza, la media del tasso di guasto così stimata non è rappresentativa delle sottopopolazioni del campione. Uno dei problemi che accomuna i diversi database è l’uso, nella definizione degli intervalli di confidenza, delle solo tecniche statistiche. Sistemi riparabili e disponibilità 35 Altri manuali, che potremmo definire di seconda generazione e di impostazione analoga all’handbook MIL, sono quelli che si occupano di dati principalmente per dispositivi e componenti utilizzati in ambito telecomunicazioni; tra questi ricordiamo in particolare il Manuale RPP edito da Bell Core nel 1984, il Manuale HRD edito da British Telecom e il Manuale Italtel IRPH93 (questo manuale ha visto la collaborazione sia dei francesi del CNET che della British Telecom). Il manuale RPP riporta dati principalmente per dispositivi e componenti utilizzati in ambito telecomunicazioni e copre inoltre ben cinque differenti ambienti di utilizzo. Elemento comune che caratterizza questi database è il considerare componenti con tasso di guasto costante. Banche dati della terza generazione Appare evidente che uno degli obiettivi della definizione di un handbook dovrebbe essere quello di consentire l’utilizzo di dati adeguatamente connotati dalla loro incertezza; nasce quindi il problema, più volte affrontato ma non ancora risolto in modo univoco, di come definire l’incertezza delle misure di affidabilità. Non potendo fare riferimento ad una metodologia unica e condivisa, nella definizione dell’incertezza si passa dall’utilizzo dei quantili (si pensi all’handbook svedese TBOOK -Reliability Data of Components in Nordic Nuclear Power Plants) alla definizione di intervalli di confidenza (si pensi all’handbook italiano EIREDA - European Industry Reliability Data Handbook) o all’assenza di questa informazione (situazione tipica degli handbook utilizzati in ambito militare). L’attenzione dei database che potremmo definire di “terza generazione” si è comunque spostata dall’industria militare ed aerospaziale a tipologie di impianto intrinsecamente critiche come gli impianti nucleari civili, le piattaforme petrolifere e l’industria chimica. Moderne raccolte di dati affidabilistici di pubblico dominio sono: o IEEE-Std-500 (Piscataway, NJ, 1984) o OREDA (Offshore reliability data, Norvegia, 1984) o EIREDA (European Industry Reliability Data Handbook, Italia, 1991) o T-BOOK (Reliability Data of Components in Nordic Nuclear Power Plants, Svezia) o CCPS (Guidelines of the Center for Chemical Process Safety, New York, 1989) o NSWC-94/L07 - Handbook of Reliability Prediction Procedures for Mechanical Equipment. In particolare l’ultimo handbook citato, sviluppato dal Naval Surface Warfare Center – Carderock Division fornisce modelli di tasso di guasto per le classi fondamentali di componenti meccanici (cinghie, molle, cuscinetti, freni, frizioni per citarne alcuni) I modelli di tasso di guasto tengono conto dell’impatto sull’affidabilità dei componenti di alcuni fattori; per comprendere meglio basti pensare che per una molla i modi di guasto più comuni sono la rottura a fatica e l’eccesso di carico. L’affidabilità di una molla dipenderà dal materiale di cui è fatta, dall’ambiente di lavoro e dal modo con cui è stato eseguito il progetto. È ovvio che l’utilizzo di questi modelli richiede molti dati che potrebbero non essere noti all’utilizzatore. Altro aspetto di questo database è che nelle valutazioni non viene preso in esame un parametro relativo ai difetti di fabbricazione. È bene inoltre osservare che non esiste un “profilo” unico dell’utente delle banche dati: le informazioni raccolte sono, ovviamente, utili all’ingegnere progettista (che è interessato ai meccanismi di guasto ed ai modi di guasto), all’analista del rischio (le informazioni sulla disponibilità del sistema ovvero della probabilità di successo della missione passano attraverso la disponibilità dei componenti e dei relativi tassi di guasto) e, 36 Quaderno n. 1 - GMEE in modo sempre più presente, l’esperto di manutenzione, oggi più di ieri attento alle prestazioni del servizio. L’elemento critico nella progettazione di un handbook è il modo con cui viene progettata la raccolta dei dati e la definizione degli attributi che definiscono gli intervalli per le misure di affidabilità. Per comprendere meglio tale concetto si pensi ad esempio ad un componente molto semplice e largamente diffuso: i resistori; in realtà basterebbe sfogliare un qualunque catalogo anche per l’acquisto on line di questo “innocuo” componente per capire come la definizione dei parametri che lo caratterizzano sia fondamentale in quanto sotto la voce “resistori” vengono annoverati diverse tipologie del componente e con applicazioni d’uso delle più varie (giusto per fare un esempio dai resistori per circuiti stampati ai resistori per applicazioni in ambito trazione). Nei database della seconda generazione la determinazione delle corrispondenze fra gli attributi viene lasciata all’utilizzatore: ciò rappresenta una criticità in quanto sono le modalità di raccolta che consentono la disamina ottimale delle corrispondenze tra i diversi attributi. Nei database della terza generazione è stato invece implementato un approccio di tipo gerarchico che fornisce all’utilizzatore una guida quando la conoscenza degli attributi risulta insufficiente. Calcolo del tasso di guasto – Un esempio in ambito elettronico Si riporta in questo paragrafo un esempio di calcolo del tasso di guasto in ambito elettronico seguendo la procedura del MIL-HDBK 217. Come chiaramente esplicitato dalla definizione di affidabilità riportata nel Capitolo 1, qualunque valutazione di tasso di guasto , e quindi di affidabilità, non può prescindere dalla conoscenza dell’ambiente operativo in cui il sistema realizzato dovrà operare. Le banche dati in elettronica, e quindi anche la MIL-HDBK 217, effettuano una classificazione degli ambienti operativi in: o Ambiente fisso protetto: caratterizzato da elevata insensibilità all’ambiente atmosferico per quanto riguarda la temperatura nonché da controllo dell’umidità entro limiti definiti Un esempio è dato da apparati elettronici allocati in edifici in muratura. La MIL-HDBK 217 lo classifica come “ambiente terrestre protetto” (GB ,Ground benign), con temperatura ed umidità controllata ed assenza di sollecitazioni meccaniche, facilmente accessibile per attività di manutenzione. o Ambiente fisso non protetto: caratterizzato da sollecitazioni termiche e meccaniche determinate direttamente dalle condizioni climatiche naturali. Nella MIL-HDBK 217 è denominato “ambiente terrestre fisso” (GF, Ground fixed), caratterizzato da condizioni ambientali moderatamente controllate. E’ tipico degli apparati installati all’aperto quali, ad esempio, centraline elettroniche per il controllo del traffico e per il monitoraggio ambientale, apparati per telecomunicazioni e radar. o Ambiente mobile: sono presenti sollecitazioni meccaniche e gradienti termici di una certa severità, tipiche di apparati portatili o montati su mezzi mobili. Nella MILHDBK 217 è individuato con la sigla GM (Ground mobile). Occorre ricordare che in aggiunta ai precedenti, la MIL-HDBK 217 rispetto alle altre banche dati in elettronica, classifica ulteriori undici ambienti operativi tra cui quello navale (N), aeronautico (A), spaziale (S), fino ad ambienti caratterizzati da condizioni particolarmente critiche, con presenza di forti sollecitazioni per il componente. In tutte le banche dati di affidabilità l’ambiente operativo è individuato attraverso il fattore πE denominato, appunto, Environmental Factor. I modelli previsionali relativi a componenti elettronici presenti nelle banche dati fanno Sistemi riparabili e disponibilità 37 riferimento inoltre alle seguenti ipotesi: sistema in configurazione funzionale serie, guasti indipendenti e tasso di guasto costante. Si assume, inoltre, la legge di Arrhenius quale modello per la descrizione del fenomeno fisico-chimico di degradazione del componente che, come noto, mette in relazione il tempo al guasto con il livello di sollecitazione termica applicata. Sulla base di tali ipotesi è immediato calcolare il tasso di guasto di sistema sfruttando le relazioni della configurazione funzionale serie riportate nel Capitolo 3. Esempio applicativo 1 - Calcolo del tasso di guasto della lampada di segnalazione di un aereo da combattimento. Si fa l’ipotesi che la lampada sia posizionata sull’aereo, funzionante a 24 V c.c. con funzionamento costante su una zona abitata. Dalla MILHDBK217E (sez. 5.1.17) si ha, relativamente alle lampade, la seguente espressione: guasti λ p = λb ⋅ π u ⋅ π A ⋅ π E (5.1) 10 6 ore con: λb = 0,074·241,29 = 4,5 guasti/106 ore; πU = 1,0 è l’utilization factor; πA = 3,3 è l’application factor; πE = 4,0 è l’environmental factor. Si considerano per le condizioni ambientali le condizioni di dispositivo non protetto. Da cui: guasti λ p = 4 ,5 ⋅ 1,0 ⋅ 3,3 ⋅ 4 ,0 = 59 6 (5.2) 10 ore Per il calcolo dell’ MTTF: 1 1 MTTF = = = 1,7 ⋅ 10 4 ore (5.3) λ 59 ⋅ 10 −6 Esempio applicativo 2 - Calcolo del tasso di guasto di un ponte raddrizzatore a 4 diodi uguali. Dal punto di vista dell’affidabilità i quattro diodi risultano connessi in serie. Si osservi che, in termini di diagramma a blocchi, i quattro diodi che costituiscono il ponte vanno considerati in serie (si veda capitolo 3). Dalla MIL-HDBK217E si ha, per i diodi, la seguente espressione. guasti λ p = λb ⋅ π E ⋅ π Q ⋅ π C ⋅ π S ⋅ π T 6 (5.4) 10 ore Supponendo che il diodo sia “power rectifier fast recovery”, qualità JAN, a giunzioni metallurgiche e che sia utilizzato in ambiente “Ground Fixed” e che sia Vs=Vdmax/VRRM=0,78 e con temperatura di giunzione Tj=166° si ha: λE = 6,0; πQ = 2,4 è il quality factor; πC = 1,0 è il construction factor; πS = 0,547 è il voltage stress factor; πT = 28 è il temperature factor e λtotale = 4 ⋅λ p = 60 guasti 106 ore (5.5) Infine: MTTF = 1 λ = 6,7 ⋅ 104 ore e MTTFs = 1 λ = 1,7 ⋅ 10 4 ore . 38 Quaderno n. 1 - GMEE 6. Sistemi riparabili e disponibilità Quando si prendono in esame sistemi o componenti riparabili, viene definita oltre alla funzione di affidabilità anche quella di disponibilità. Come viene riportato nel Capitolo 1 la affidabilità viene definita come “la probabilità che un dispositivo adempia ad una specifica funzione fino ad un determinato istante in prefissate condizioni di impiego”; questo concetto non ammette quindi interruzioni del servizio. Da questa definizione si evidenzia che nel caso in cui sia prevista manutenzione, questa debba essere eseguita in intervalli di tempo diversi dai tempi di missione. Nel caso di sistemi riparabili la manutenzione rende il sistema non disponibile per il tempo necessario alla propria riparazione, quindi la disponibilità implica che il sistema possa anche non funzionare per determinati periodi. La disponibilità è dunque una funzione più generale che tiene conto sia della affidabilità del sistema sia degli aspetti manutentivi, quindi di un ritorno al funzionamento dopo un guasto. Le norme UNI 9910 e CEI 56-50 definiscono la disponibilità come l’attitudine di una entità a essere in grado di svolgere una funzione in determinate condizioni a un dato istante, o durante un dato intervallo di tempo, supponendo che siano assicurati i mezzi esterni eventualmente necessari. La disponibilità (Availability) di una macchina può anche essere definita come la percentuale di tempo, rispetto al tempo totale, in cui è richiesto il funzionamento stesso della macchina. Il tempo medio al ripristino: Mean Time To Repair/Restore (MTTR) Nel caso di componenti riparabili diventa fondamentale il parametro che esprime il tempo medio che intercorre tra l’insorgenza di un guasto ed il completamento della sua riparazione (ripristino); esso viene detto “Mean Time To Repair/Restore” e si indica con la sigla MTTR. Una proprietà dei sistemi riparabili è la Manutenibilità, definita come la misura della facilità con la quale un sistema può essere riparato una volta manifestatosi il malfunzionamento. La mantenibilità è la probabilità M(t) che il sistema malfunzionante possa essere riportato al suo corretto funzionamento entro il periodo t. Essa è strettamente correlata con la disponibilità poiché tanto più è breve l'intervallo di ripristino del stato tempo guasto guasto guasto guasto Figura 6.1: Comportamento di un sistema riparabile. 39 Sistemi riparabili e disponibilità corretto funzionamento, tanto più elevata sarà la probabilità di trovare il sistema funzionante ad un dato istante temporale. Per il valore estremo M(0) = 1, il sistema in oggetto sarà sempre disponibile. In analogia a MTTF (Mean Time To Failure), che caratterizza i dispositivi non riparabili, si fa riferimento a funzioni analoghe a quelle già definite per l’affidabilità per i sistemi riparabili. L’insieme di tali funzioni prende il nome di funzioni di manutenibilità (Tabella 6.1). Tabella 6.1: Analogia tra le funzioni di manutenibilità e le funzioni di affidabilità. Funzioni di manutenibilità Analoghe funzioni affidabilistiche g(t) M(t) N(t) µ (t) Densità di probabilità di riparazione normale Probabilità di riparazione (manutenibilità) Probabilità di non riparazione Tasso di riparazione (istantaneo) La definizione di MTTR è data da: MTTR = ∑t f(t) F(t) R(t) λ(t) i Distribuzione di probabilità di guasto Inaffidabilità Affidabilità Tasso di guasto istantaneo (6.1) ⋅ g ( t i ) ⋅ ∆t i i Per tali funzioni valgono relazioni formalmente identiche a quelle dell’affidabilità; perciò, indicando con t = 0 l’istante al quale si è verificato il guasto, si ha: g(t)⋅∆t probabilità che la riparazione termini nell’intervallo [t, t+∆t ] M(t) probabilità che la riparazione termini nell’intervallo [0, t] µ(t)⋅∆t probabilità che la riparazione termini nell’intervallo [t, t+∆t] condizionata al non completamento al tempo t. Caso particolare Se il tasso di riparazione µ(t) = costante, si ha: MTTR = componente Non Riparabile 1 (6.2) µ Terminologia 2 (di seguito utilizzata) Terminologia 1 Up Up Down Down MTTF Riparabile MTTF Up Up Down Down MTBF MTTR MTTF MTTR MTBF Figura 6.2: Definizioni per MTBF. 40 Quaderno n. 1 - GMEE Il tempo medio tra guasti: Mean Time Between Failures (MTBF). Il tempo medio tra i guasti (MTBF) può essere definito in due modi: - MTBF è MTTFS nei dispositivi riparabili; - MTBF è la somma del tempo medio fino al guasto MTTFS del dispositivo e del suo tempo medio di riparazione/ripristino MTTR. Può apparire più logico utilizzare la seconda definizione perché così facendo si mantiene la stessa terminologia per MTTF indipendentemente dal fatto che il dispositivo sia riparabile o non riparabile, considerando l’uno come estensione teorica dell’altro. In Figura 6.2 sono mostrate graficamente le differenze fra le due definizioni di MTBF. Il significato di Disponibilità nel ciclo di vita del prodotto La rappresentazione di Figura 6.3 illustra una scomposizione del tempo sia di funzionamento che di guasto negli elementi temporali su cui è basata l’analisi della disponibilità. Le lettere “C” e “P” rappresentano quei periodi di tempo attribuiti rispettivamente alla manutenzione correttiva (cioè manutenzione che viene eseguita dopo che il sistema si è guastato) e preventiva (cioè manutenzione che viene eseguita prima che il sistema si guasti), spesi in attesa di risorse necessarie all’espletamento della manutenzione. La disponibilità è dunque la probabilità di essere in grado di funzionare correttamente al momento in cui il funzionamento viene richiesto, cioè non fino ad un determinato istante come asserisce la definizione di affidabilità ma in un determinato istante, indipendentemente da eventuali guasti occorsi in precedenza e poi riparati. Questo concetto implica dunque che il dispositivo possa risultare non funzionante in determinati istanti. Un sistema può presentare valori elevati di disponibile nonostante esso mostri frequenti, ma molto brevi, periodi di malfunzionamento. La disponibilità è Tempo Totale TT OFF Time Up Time Operating Time OT Down Time Stand by Time ST TMT TCM ALDT TPM C P Legenda TT: Total Time, il tempo totale di utilizzo, Up Time: Tempo di funzionamento, Down Time: Tempo di non funzionamento, OT Operating time: parte dell’up time in cui si ha effettivo esercizio, ST Stand-by Time: parte dell’up time durante il quale si attende l’inizio di missione, non è effettivo esercizio ma il sistema è assunto come operante, TMT Total Maintenance Tim: Tempo totale di manutenzione, ALDT Administarative and Logistic Down Time: Tempo speso in attesa di ricambi e personale per la manutenzione, TCM Total corrective maintenance: Tempo totale di manutenzione correttiva, TPM Total preventive Maintenace: Totale di manutenzione preventiva. Figura 6.3: Scomposizione del tempo di un sistema riparabile. Sistemi riparabili e disponibilità 41 una buona misura per caratterizzare quei sistemi in cui sono accettabili malfunzionamenti, purché nella maggior parte delle circostanze il sistema funzioni in modo corretto. La definizione matematica di base della disponibilità A (Availability) è A= UpTime UpTime = TotalTime UpTime + DownTime (6.3) La attuale valutazione della disponibilità viene effettuata sostituendo agli elementi temporali altri parametri che realizzano le grandezze interessate. Si hanno così formulazioni differenti mirate a visualizzare obiettivi specifici. Sotto certe condizioni è necessario definire la disponibilità di un sistema riparabile con riguardo solo al tempo di esercizio ed alla manutenzione correttiva, ecco che la disponibilità così definita, anche detta disponibilità intrinseca (o stazionaria) (inherent availability) assume la forma: A= MTTF MTTF = MTTF + MTTR MTBF (6.4) In queste condizioni ideali vengono trascurati i tempi di attesa e associati alla manutenzione preventiva (MTTR è calcolato considerando solo i tempi di manutenzione correttiva). Tale grandezza (adimensionale e compresa tra 0 e 1) assume un doppio significato: - a posteriori, quello di “efficienza” di un sistema per il quale sono stati rilevati i parametri MTTF, MTTR, MTBF; - istantaneamente, quello di probabilità che il sistema sia disponibile (non in riparazione). Ovviamente il complemento a 1 della disponibilità assume la denominazione di “indisponibilità” U (Unavailability) con ovvio significato: MTTR (6.5) U = 1− A = MTBF + MTTR La Disponibilità istantanea La disponibilità stazionaria, o più semplicemente “disponibilità”, è il valore limite (t → infinito) di un’altra grandezza (variabile) che prende il nome di “disponibilità istantanea” A(t); tale grandezza rappresenta la disponibilità media, a priori, stimata su un tempo t. La disponibilità istantanea ha un andamento che dipende dalla condizione iniziale (all’istante t = 0 il sistema può essere “funzionante” o “guasto”); in ogni caso il valore limite A(t → infinito) è sempre A. Dependability: una valutazione del “livello di fiducia” riferita al corretto funzionamento del sistema Si fa riferimento al termine anglosassone Dependability anziché Fidatezza poiché risulta di gran lunga usato nel gergo tecnico comune. Generalmente sistemi affidabili vengono utilizzati in contesti in cui è necessario garantire una serie di prestazioni quali, per esempio, la sicurezza o la disponibilità di funzionamento; per cui, negli ultimi tempi, il termine affidabilità è stato sostituito da una sua generalizzazione identificata in inglese con il termine dependability, che in italiano corrisponde a: fiducia nel corretto funzionamento del sistema. Per definire la dependability è necessario per prima cosa definire i concetti di servizio e utente. Il servizio fornito da un sistema è il comportamento del sistema stesso, così come viene percepito dai suoi utenti 42 Quaderno n. 1 - GMEE Un utente di un sistema è un altro sistema che interagisce attraverso l'interfaccia del servizio. La funzione di un sistema rappresenta che cosa ci attendiamo dal sistema; la descrizione della funzione di un sistema è fornita attraverso la sua specifica funzionale. Il servizio è detto corretto se realizza la funzione del sistema. Un sistema è detto quindi dependable se ha una elevata probabilità di comportarsi secondo le proprie specifiche. Questo prevede innanzi tutto che il sistema sia disponibile. Inoltre, per fornire una specifica completa del sistema è necessario definire tutte le condizioni ambientali e operative richieste affinché il sistema fornisca il servizio desiderato. La dependability rappresenta dunque una misura di quanta fiducia possiamo riporre, in maniera giustificata, sul servizio fornito da un sistema. La progettazione e l'implementazione di sistemi "dependable" necessita di apposite metodologie per l'individuazione delle possibili cause di malfunzionamento, denominate comunemente “impedimenti”, ed anche di appropriate tecniche per rimuovere o almeno limitare gli effetti di queste cause. Di conseguenza, per affrontare il problema della dependability occorre sapere quali possono essere gli impedimenti e conoscere le tecniche per evitarne le conseguenze. I sistemi che utilizzano tali tecniche vengono denominati tolleranti i guasti (o Fault Tolerants). Gli impedimenti alla dependability assumono tre aspetti: guasto, errore e fallimento. In particolare, per quanto riguarda l’ultima definizione, si dice che è avvenuto un fallimento quando un sistema viola la sua specifica di servizio; il fallimento è quindi una transizione da un servizio corretto a un servizio non corretto. I periodi in cui il sistema non fornisce alcun servizio sono periodi di outage. La transizione inversa, da un servizio non corretto ad uno corretto, è detta restoration del servizio (Figura 6.4). I possibili fallimenti di un sistema possono essere suddivisi in classi di severità, rispetto alle possibili conseguenze del fallimento sul sistema e sull'ambiente esterno; una classificazione generalmente usata è quella che divide i fallimenti in benigni e catastrofici. La costruzione di sistemi dependable passa attraverso la prevenzione del verificarsi dei fallimenti. Per ottenere questo, è necessario capire il processo che porta al fallimento, che ha origine da una causa, interna o esterna al sistema, il guasto. Il guasto può rimanere dormiente per un certo periodo, fino alla sua attivazione. L'attivazione di un guasto porta ad un errore, la parte dello stato del sistema che può causare un successivo fallimento. Il fallimento è quindi l'effetto, osservabile esternamente, di un errore nel sistema. Gli errori sono in stato latente fino a che non vengono rilevati e/o non producono un fallimento. A fallimenti simili possono corrispondere errori molto diversi, così come lo stesso errore può essere causato da guasti diversi. I sistemi sono collezioni di componenti (elementi, entità) interdipendenti che interagiscono tra loro in accordo a specifiche predefinite, la catena guasto-errore-fallimento presentata in Figura 6.5 può quindi essere utilizzata per descrivere il fallimento del sistema, così come il fallimento di un sinFallimento golo componente. Il fallimento di un componente si verifica quando il servizio fornito devia dalla sua Servizio Servizio componente si manifesta alla sua interCorretto Non Corretto faccia, e diventa quindi un guasto per il sistema (Figura 6.4). Lo stesso fenomeno può essere quindi visto sia come un falliRestoration mento (del componente) che come un Figura 6.4: Stato di un sistema. 43 Sistemi riparabili e disponibilità guasto (del sistema). Il guasto può quindi portare a successivi guasti, così come un errore, attraverso la propagazione, può causare ulteriori errori; un fallimento del sistema si trova spesso al termine di una catena di errori propagati. I requisiti di Dependability Per misurare il livello di dependability che ha raggiunto il sistema in analisi, è necessario valutare un insieme di caratteristiche del sistema. Tali caratteristiche generalmente assumono un ruolo ed un importanza diversa in relazione ai requisiti del sistema stesso. I principali requisiti della dependability sono: Reliability (Affidabilità), Manteinability (Manutenibilità), Availability (Disponibilità), le cui definizioni sono già state riportate più sopra, Safety (Sicurezza), definita come la probabilità S(t) che il sistema non mostri malfunzionamenti nell'istante in cui gli è richiesto di operare, oppure che, anche se esso mostra un malfunzionamento, questo non comprometta la sicurezza di persone o impianti relazionati al sistema stesso (assenza di rischi inaccettabili, come definita nel Capitoli 1). In altre parole, essa è una misura sia della capacità del sistema di funzionare correttamente che della capacità di non provvedere correttamente alle sue funzionalità ma senza generare conseguenze rilevanti. E' da notare che la sicurezza differisce dall'affidabilità e dalla disponibilità, poiché queste ultime sono misure relative al corretto funzionamento e non includono effetti derivanti da malfunzionamenti. Collaudabillità, definita come la facilità con cui le diverse caratteristiche del sistema possono essere verificate attraverso attività di collaudo. Essa è chiaramente legata alla manutenibilità poiché più facilmente è possibile collaudare un sistema malfunzionante per individuare il componente guasto, più breve sarà l'eventuale intervallo di ripristino del corretto funzionamento. Performability, P(L,t), funzione del tempo, definita come la probabilità che il valore del livello di funzionalità del sistema al tempo t sia almeno pari ad L. E’ una misura della capacità del sistema di fornire una determinata quantità di lavoro in un intervallo di tempo, anche in presenza di guasti. Essa gioca un ruolo fondamentale nella progettazione di sistemi nei quali la presenza di guasti non implica la mancata effettuazione di alcune funzionalità, ma solamente una riduzione del livello con il quale esse vengono eseguite. Guasto Errore Guasto Errore Guasto Errore Fallimento Fallimento Fallimento Componente Sistema Figura 6.5: Catena guasto-errore-fallimento. 44 Quaderno n. 1 - GMEE 7. Tecniche e metodi a supporto della fidatezza In relazione alla fidatezza di un sistema realisticamente complesso (per il significato del termine fidatezza si rimanda al Capitolo 1) è possibile condurre una duplice valutazione: Valutazione probabilistica o quantitativa, il cui obiettivo é la stima degli attributi della dependability del sistema o delle sue componenti. Per una panoramica su alcune di queste tecniche si rimanda al paragrafo 7.1. Valutazione qualitativa, il cui scopo é capire come i malfunzionamenti dei componenti possono portare ad una perdita di funzioni, di prestazioni e a malfunzionamenti del sistema e, al contempo, quali possono essere le possibili conseguenze. Per una panoramica su alcune di queste tecniche si rimanda al paragrafo 7.2. I metodi quantitativi sono stati ampiamente studiati nella letteratura, e numerose tecniche ben collaudate sono state sviluppate e utilizzate con successo. In funzione del livello d’astrazione considerato per il sistema da analizzare, possono essere utilizzate tecniche analitiche (o assiomatiche), e sperimentali. La valutazione del comportamento di un sistema può essere fatta nei seguanti modi: Sperimentale (euristico): si usa un prototipo del sistema e le grandezze d’interesse sono stimate tramite dati statistici: o o o di gran lunga più costoso e complesso di quello analitico; prototipo del sistema spesso indisponibile; dependability di difficile valutazione in quanto necessita di lunghi tempi d’osservazioni; Analitiche e simulative: le grandezze sono ricavate direttamente da un modello matematico o grafico del sistema stesso (modellizzazione del sistema e dei suoi componenti). Tecniche e metodi a supporto della fidatezza 7.1 45 Tecniche quantitative Introduzione L’utilizzo delle tecniche quantitative si basa sulla descrizione analitica (tramite equazioni), o grafica (tramite diagrammi), del comportamento del sistema. Le misure sugli attributi della dependability sono ottenute in funzione dei parametri del modello, che tipicamente includono distribuzioni di probabilità per rappresentare l’aleatorietà dei fenomeni connessi ai malfunzionamenti. I sistemi sotto analisi si differenziano principalmente in due classi: sistemi discreti e continui. Nei sistemi discreti una o più quantità del sistema cambiano istantaneamente, ma soltanto in istanti di tempo separati; nei sistemi continui, invece, le quantità possono cambiare con continuità nel tempo. Un esempio di sistema discreto è la coda dei pacchetti di un computer in rete: lo stato del sistema cambia in istanti di tempo separati (a causa dell'uscita di un pacchetto dalla coda o dell'arrivo di un nuovo pacchetto); un esempio invece di sistema continuo è un treno, che ha velocità e posizione rispetto ad una stazione, che variano con continuità nel tempo. Spesso i sistemi sono alla stesso tempo discreti e continui, in base alle quantità che stiamo analizzando. Nei modelli analitici le componenti del sistema sono rappresentate attraverso variabili di stato e parametri, e le loro interazioni sono rappresentate attraverso relazioni fra queste quantità. Nei modelli simulativi invece si riproduce il comportamento dinamico del sistema nel tempo; la valutazione di questi modelli richiede l'esecuzione di un programma dedicato detto simulatore, che permette la rappresentazione dell'evoluzione temporale del sistema e che fornisce una stima delle misure di interesse. Le principali distinzioni utili nella classificazione dei modelli sono tra modelli statici e dinamici, tra modelli deterministici e stocastici e tra modelli continui e discreti. Un modello statico permette la rappresentazione di un sistema in un preciso istante temporale, che può risultare utile per ottenere informazioni sulle caratteristiche statiche del sistema; in un modello dinamico, invece, rappresentiamo l'evoluzione temporale del sistema, ad esempio attraverso l'interazione tra i componenti. Un modello è deterministico quando non contiene nessun componente che presenta comportamenti probabilistici; al contrario, un modello è stocastico quando contiene uno o più componenti che presentano un comportamento probabilistico. La distinzione tra modelli continui e discreti è simile a quella fatta per i sistemi continui e discreti: in questo caso, però, non andiamo a considerare se la quantità di interesse è continua, ma se, per gli obiettivi preposti, vogliamo rappresentare la quantità come variabile con continuità o meno nel tempo. I modelli utilizzati per l'analisi di sistemi informatici sono quasi sempre dinamici, stocastici e a stati discreti. Valutazione della disponibilità mediante modelli analitici I sistemi complessi possono dunque essere analizzati, per quanto riguarda il calcolo dell’affidabilità e della disponibilità, considerandoli costituiti da un insieme di entità variamente connesse. In particolare, nel calcolo delle suddette grandezze, è necessario prima individuare l’affidabilità e la disponibilità delle singole entità e poi, data la presenza di possibili ridondanze, individuare quali sono le configurazioni che permettono 46 Quaderno n. 1 - GMEE al sistema di funzionare secondo le specifiche di progetto e, infine, stabilire le connessioni tra i singoli guasti delle entità e quelli del sistema complessivo. Le entità, a loro volta, presentano indici d’affidabilità e di disponibilità che dipendono sia dalla qualità dei loro componenti e delle politiche di manutenzione, sia dalle loro interconnessioni. E così via fino a che non è più possibile identificare entità ulteriormente scomponibili L'utilizzo di una singola tecnica può non essere sufficiente in tutti i casi; in generale possono essere utilizzate combinazioni appropriate di queste tecniche per la costruzione e la soluzione del modello. Le tecniche di modellizzazione più utilizzatae sono i metodi combinatori e i processi di Markov. I metodi probabilistici dell’affidabilità combinatoria sono più semplici e intuitivi, sia nella fase di costruzione che di soluzione del modello, ma risultano spesso inadeguati nella rappresentazione delle dipendenze, spesso complesse, tra i diversi componenti del sistema; non permettono inoltre la rappresentazione di sistemi riparabili. Tali metodi presuppongono inoltre la conoscenza completa della struttura del sistema e sono di conseguenza applicabili quando esso è già stato definito in tutti i suoi dettagli costruttivi (es.: configurazioni serie, parallelo, etc.). I metodi canonici sono stati trattati nel Capitolo 3. Pertanto in luogo dei metodi combinatori si ricorre ai processi di Markov per modellare sistemi complessi, quando si vuole tenere conto del fattore di copertura e del processo di riparazione e/o manutenzione. I modelli di Markov sono costruiti per analizzare l’affidabilità e la disponibilità di un sistema costituito di più entità che possono guastarsi indipendentemente l’una dall’altra, e sono utilizzati anche per valutare la affidabilità, la disponibilità ma anche la sicurezza e le prestazioni. Modelli di Markov I Modelli di Markov sono caratterizzati, rispetto alle altre tecniche di valutazione della affidabilità, da una diversa rappresentazione dell’affidabilità: una matrice in luogo di un solo indice. La rappresentazione matriciale consente di studiare il comportamento del sistema, sotto determinate ipotesi, come un processo stocastico, studiandone l’evoluzione temporale (cosa non possibile con approcci diversi). Le tecniche markoviane consentono inoltre, a differenza delle altre, di tener conto della riparabilità e dell’ordine in cui si verificano i guasti. Il modello di Markov si basa sul diagramma a blocchi dell’affidabilità RBD, la rappresentazione grafica dell’affidabilità di un sistema, che permette di vedere sinteticamente l’effetto dell’inaffidabilità dei dispositivi elementari sul sistema complessivo; il modello si ottiene, quindi, associando le equazioni che descrivono le relazioni che legano le caratteristiche dei singoli componenti al livello immediatamente superiore di complessità, via via, fino al livello più alto di sistema. L’analisi di un sistema col modello di Markov fornisce un metodo analitico, uniforme e sintetico per il calcolo della disponibilità e di altre funzioni associate; inoltre risulta particolarmente utile per rappresentare graficamente le situazioni di guasto e di riparazione degli elementi componenti. Un sistema costituito da un numero N di componenti può assumere 2N configurazioni mutuamene escludentisi che prendono il nome di stati del sistema; ciò è dovuto al fatto che ogni singolo dispositivo può trovarsi in soli due stati anch’essi mutuamente escludentisi: corretto funzionamento o guasto. In altre parole, Markov definisce gli stati del sistema come quella combinazione che si può avere di funzionamento o non funzionamento dei vari componenti del sistema. Analoga- Tecniche e metodi a supporto della fidatezza 47 mente sono chiamate transizioni, i cambiamenti di stato del sistema (dovuti questi ultimi al cambiamento di stato dei singoli componenti) che nella loro successione cronologica descrivono l’evoluzione temporale del sistema (traiettoria). Il procedimento impone il calcolo della probabilità di trovare il sistema in ciascuno dei possibili stati e la determinazione dell’affidabilità del sistema si riduce alla somma delle probabilità che competono agli stati definiti come di successo, quelli cioè nei quali il sistema è considerato funzionante. Il principale problema nella costruzione di una catena di Markov é costituito dalla crescita esponenziale del numero degli stati con la complessità del sistema. L’esplosione del numero degli stati interviene quando si devono manipolare rappresentazioni molto compatte di processi stocastici di notevoli dimensioni. Tuttavia, per la risoluzione dei modelli sono stati sviluppati numerosi algoritmi ormai ben collaudati. Per poter applicare il modello omogeneo di Markov devono essere verificate le seguenti ipotesi: i) Il processo deve essere STAZIONARIO: il suo comportamento deve essere lo stesso qualunque istante si consideri e, di conseguenza, la probabilità di una transizione tra due stati deve rimanere identica durante l’intervallo di tempo considerato. Nel modello di affidabilità, ciò implica che il tasso di transizione tra due stati (sia esso di guasto λ, o di riparabilità µ) deve essere costante durante il tempo di osservazione; in altre parole, questo significa che la distribuzione della densità di probabilità della grandezza osservata sia esponenziale. ii) Il processo deve essere SENZA MEMORIA: secondo tale ipotesi il comportamento casuale futuro del sistema dipende unicamente dal suo stato attuale e non dagli stati precedenti, ossia dal modo in cui lo stato attuale sia stato raggiunto. Questo significa che la probabilità di transizione pij dipende soltanto dai due stati i e j mentre è del tutto indipendente da quelli che hanno preceduto lo stato i. In alcuni casi tale condizioni può essere considerata troppo semplificativa. All’istante iniziale lo stato del sistema corrisponde a quello in cui tutte le sue entità sono funzionanti; pertanto per determinare la probabilità che il sistema sia in uno stato s in un dato istante è necessario identificare solo le probabilità di transizione tra uno stato ed un altro (si ha praticamente un degrado continuo delle prestazioni se non sono previsti interventi di restore). Quando il processo non rispetta la stazionarietà, si ha cioè una funzione che lega le transizioni del sistema al tempo, si parla di processi non-markoviani. Esistono comunque delle tecniche per risolvere questi problemi in particolari condizioni. L’approccio Markoviano può essere applicato sia in un campo temporale continuo (processi di Markov) sia in un campo temporale discreto (catene di Markov). La differenza fra il considerare il tempo come una variabile continua o discreta è legata al valore del tempo da inserire nella funzione dell’affidabilità risultante. Gli stati possono essere classificati secondo le loro caratteristiche, in particolare chiamiamo: o insieme ergodico: un insieme di stati tale che una volta che il sistema vi sia entrato non sia più in grado di uscirne (rigorosamente un processo si dice ergodico se le medie temporali delle funzioni campionarie del processo convergono alla corrispondente media spaziale); o insieme transitorio: un insieme tale per cui una volta che una transizione abbia condotto il sistema al di fuori di esso, non possa più tornarvi; o stato assorbente: uno stato che una volta raggiunto dal sistema non può più essere abbandonato (un esempio di stato assorbente è quello legato al danneggiamento non 48 Quaderno n. 1 - GMEE riparabile di un dispositivo che, una volta guastatosi, non essendoci alcuna probabilità che si auto-ripari, obbligherà il sistema, entrato in tale stato, a non uscirne). I modelli di Markov si basano sul concetto di stato e su quello di transizione. Stato: rappresenta tutto ciò che deve essere conosciuto per descrivere il sistema in un dato istante. Nel caso di modelli di dependability uno stato rappresenta una possibile configurazione di entità sane ed entità guaste, (funzionamento o non funzionamento dei vari componenti del sistema) . Lo stato di partenza di ogni sistema è, solitamente, quello per il quale tutti i componenti sono funzionanti; stato successivo può essere il non funzionamento anche di un solo componente del sistema. Transizioni: descrivono i passaggi di stato al verificarsi di un evento: guasto di una entità nuova, riparazione di una entità guasta. Le transizioni di stato sono caratterizzate dal concetto di probabilità, come la probabilità di guasto di una entità o la probabilità di riparazione. I modelli di Markov sono caratterizzati da un certo numero di probabilità pij, ciascuna avente il significato di transizione dallo stato iniziale i allo stato finale j. Queste probabilità di transizione devono seguire alcune regole iniziali: 1) Definendo con z(t) la funzione di azzardo: R( t ) − R( t + δt ) z (t ) = (7.1) R( t ) ⋅ δt la probabilità di transizione dallo stato iniziale a quello finale, relativa all’intervallo di tempo δt, è individuata dal prodotto z(t) δt . Infatti si ha: R ( t ) − R ( t + δt ) F ( t + δt ) − F ( t ) z ( t ) ⋅ δt = = = P [( t < t ≤ t + δt ) /( t > t )] (7.2) R( t ) R(t ) 2) La probabilità che nell’intervallo δt avvengano due o più transizioni è un infinitesimo di ordine superiore e può quindi essere trascurata. Matrice di transizione ed equazione fondamentale Le probabilità di transizione pij possono essere raccolte in una matrice P, matrice di transizione, con l’indice di riga i che rappresenta lo stato di partenza e l’indice di colonna j che rappresenta quello di arrivo. La matrice di transizione gode di importanti proprietà: è quadrata ed è stocastica per righe, vale a dire che la somma degli elementi di ciascuna riga, che rappresentano le probabilità di permanere in uno stato o di uscire da esso, è uguale a 1. Se indichiamo con ρij il tasso di transizione dallo stato i allo stato j e con Pi,j la probabilità di transizione tra gli stessi due stati in ∆t, assumendo che l’intervallo di tempo ∆t sia infinitesimo e considerando infinitesima di ordine superiore rispetto a ∆t la probabilità che nello stesso ∆t avvengano 2 o più transizioni, possiamo scrivere: ρij∆t = z(t)∆t = λ∆t = Pij (7.3) Se Pi(t) è la probabilità di osservare il sistema nello stato i al tempo t, quella di osservarlo nello stesso stato al tempo t+∆t è data dalla somma della probabilità che compete ai due eventi mutuamente escludentisi: -il sistema era nello stato j all’istante t ed è passato allo stato i durante δt -il sistema era nello stato i all’istante t e non è passato in alcun altro stato durante δt Pi(t+∆t) = ∑i≠jρi,j∆tPj(t)+[1-∑i≠jρi,j∆t]Pi(t) (7.4) 49 Tecniche e metodi a supporto della fidatezza Sviluppando e dividendo per ∆t e passando al limite per ∆t →0 si ottiene un sistema di equazioni differenziali del primo ordine che, risolto per le date condizioni iniziali (solitamente 1 per lo stato di partenza e 0 per gli altri; si suppone cioè che il sistema sia con probabilità 1 nello stato iniziale), restituisce le probabilità di essere nei singoli stati in un certo istante. Come è facile intuire la complessità del sistema aumenta rapidamente con il numero di stati: per N componenti sono possibili 2N configurazioni e quindi 2N stati per i quali studiare le caratteristiche in termini di probabilità. Diagrammi di Stato. La rappresentazione grafica dei modelli di Markov si basa sull’utilizzo di simboli grafici per definire gli stati e le transizioni. In genere gli stati sono indicati con cerchi e le transizioni con segmenti di retta direzionali. 1-λδt 1 Caso 1 - Analisi di un sistema con un elemento a) Elemento non riparabile λδt La situazione più elementare è quella di un sistema fatto di un solo elemento non riparabile con tasso di guasto costanS0 S1 te che assume due soli stati: quello operativo (S0) e quello di guasto (S1). Figura 7.1: Diagramma di staDefiniamo le seguenti grandezze: to di un sistema formato da un - P0(t), probabilità che il componente funzioni al tempo t solo elemento non riparabile. - P1(t), probabilità che il componente sia guasto al tempo t - λ, tasso di guasto La probabilità che il sistema si trovi nello stato S0 all’istante t+dt è data dalla probabilità che esso si trovi nello stato S0 al tempo t moltiplicata per la probabilità che non si guasti nell’intervallo dt; se all’istante t si trova nello stato S1, la probabilità di tornare allo stato S0 è nulla essendo il componente non riparabile. Tali probabilità possono essere rappresentate mediante il diagramma di stato in Figura 7.1. Dal grafico di Figura 1 si possono scrivere le seguenti equazioni per le probabilità che il sistema si trovi nello stato S0 o S1 al tempo t+dt: P0 ( t + δt ) = P0 ( t )( 1 − λδ t ) + P1 ( t ) ⋅ 0 (7.5) P1 ( t + δt ) = P0 ( t )λδ t + P1 ( t ) ⋅ 1 Con un passaggio al limite si ottengono le seguenti equazioni differenziali del primo ordine dP0 (t ) = −λP0 (t ) dt (7.6) dP1 (t ) = λP (t ) 0 dt che possono essere risolte con i consueti metodi analitici, dopo aver stabilito le appropriate condizioni iniziali. Generalmente si assume che, per t = 0, l’elemento sia funzionante, ovvero che sia P0(0) =1 e P1(0) =0. b) Elemento riparabile Nel caso di un sistema costituito da un unico componente riparabile, con tasso di guasto λ e tasso di riparazione µ costanti nel tempo, il diagramma di stato si modifica 50 Quaderno n. 1 - GMEE nella forma indicata in Figura 7.2, dove la linea dallo stato S1 allo stato S0 rappresenta la probabilità di transizione dallo stato guasto a quello riparato. λδt Essa rappresenta la probabilità di transizione dallo stato µδt guasto a quello riparato, pari a µ⋅δt. S0 S1 Dal diagramma di stato di Figura 7.2 si ottengono le equaFigura 7.2: Diagramma di zioni per le probabilità che il sistema si trovi nello stato S0 stato di un sistema formato da o S1 al tempo t+dt: un elemento riparabili. P0 ( t + δt ) = P0 ( t )(1 − λδt ) + P1 ( t )µδt (7.7) P1 ( t + δt ) = P0 ( t )λδt + P1 ( t ) ⋅ (1 − µδt ) Le corrispondenti equazioni differenziali risultano: dP0 ( t ) = − λP0 ( t ) + µP1 ( t ) dt (7.8) dP1 ( t ) = λP0 ( t ) − µP1 ( t ) dt 1-λδt 1-µδt Caso 2 - Analisi di sistema con due elementi I sistemi di tipo serie e di tipo parallelo sono quelli più semplici da analizzare. Nonostante ciò, tali sistemi sono anche quelli di maggiore interesse. Infatti, l'analisi di sistemi più complessi può essere frequentemente ricondotta all'analisi di sistemi serie o parallelo. Si comincerà con l'analizzare semplici sistemi composti di due soli dispositivi. Si assumerà, inizialmente, che i guasti dei vari componenti siano indipendenti anche se questa ipotesi semplificativa non é sempre giustificata nella realtà. A questo proposito si pensi, ad esempio, al comportamento affidabilistico di due linee elettriche, non troppo distanti fra loro, poste in una zona soggetta a rischio sismico. Un terremoto di intensità sufficiente può mettere fuori servizio, contemporaneamente, entrambe le linee. Per i guasti legati ai terremoti non é pertanto possibile assumere che le due linee siano fra loro indipendenti. Se il sistema è composto da due elementi non riparabili gli stati possibili sono quattro, dovendo considerare anche i due casi in cui si guasti un solo elemento. Indicando con X1 e X2 i due elementi funzionanti e con X 1 , X 2 , gli stessi elementi guasti, si possono individuare 4 stati possibili: S 0 = X 1 X 2 S 1 = X 1 X 2 S i == (7.9) S 2 = X 1 X 2 S 3 = X 1 X 2 Il sistema di equazioni diviene: P0 (t + δt ) = P0 (t )[1 − (λ 01 + λ 02 )δt ] P1 (t + δt ) = P0 (t )λ 01δt + P1 (t )(1 − λ13δt ) P2 (t + δt ) = P0 (t )λ 02 δt + P2 (t )(1 − λ 23δt ) P3 (t + δt ) = P1 (t )λ13δt + P2 (t )λ 23δt + P3 (t ) (7.10) Tecniche e metodi a supporto della fidatezza 1-λ13δt S1 1-(λ01+ λ02) δt λ01δt 1 λ13δt S1 = X 1 X 2 51 Da cui, analogamente al caso di un sistema formato da un solo elemento, si possono scrivere le relative equazioni differenziali. S3 S0 Valutazione della Affidabilità Per valutare la funzione di affidabiliS2 tà il sistema deve contenere almeno uno 1-λ δt stato assorbente. Al tendere di t all’infinito la probabilità di tale stato Figura 7.3: Diagramma di stato di un sistema tende a 1 mentre quelle degli altri stati costituito da due elementi non riparabili dove tendono a zero. λij⋅δt rappresenta la probabilità di transizione Come detto in precedenza, l’affidabilità dallo stato Si allo stato Sj. del sistema sarà data dalla somma delle probabilità degli stati che assicurano la funzionalità del sistema. Per il sistema visto precedentemente formato da un solo elemento non riparabile e rappresentato in Figura 7.1 l’affidabilità coincide con P0(t) che può essere dedotta dalla (7.6): dP0 (t ) = −λP0 (t ) dt ⇒ R(t ) = P0 (t ) = e −λt (7.11) dP ( t ) 1 = λP0 (t ) dt in accordo con quanto riportato nel Capitolo 2. Per un sistema con due elementi non riparabili occorre stabilire se è un sistema serie o parallelo; se è un sistema considerato serie, allora l’unico stato che rappresenta il funzionamento è S0, e quindi P0 (t + δt ) = P0 (t )[1 − (λ 01 + λ 02 )δt ] P1 (t + δt ) = P0 (t )λ 01δt + P1 (t )(1 − λ13δt ) ⇒ R (t ) = P0 (t ) = e[− (λ 01 + λ 02 )t ] (7.12) P2 (t + δt ) = P0 (t )λ 02 δt + P2 (t )(1 − λ 23δt ) P3 (t + δt ) = P1 (t )λ13δt + P2 (t )λ 23δt + P3 (t ) anche in questo caso in accordo con quanto riportato nel Capitolo 2. Se è un sistema considerato parallelo, allora gli stati operativi sono S0, S1 e S2, e poiché essi sono mutuamente esclusivi, allora: R(t ) = P0 (t ) + P1 (t ) + P2 (t ) (7.13) e tale valore di R(t) si calcolerà utilizzando le altre equazioni differenziali. S0 = X1X 2 λ02δt S2 = X1 X 2 S3 = X1X 2 λ23δt 23 Calcolo della Affidabilità, Inaffidabilità e Disponibilità Per mostrare la procedura di calcolo della disponibilità di un sistema si consideri il semplice caso di un sistema riparabile formato da un solo elemento il cui diagramma di stato è mostrato in Figura 7.2. In tal caso il sistema di equazioni differenziali (7.6) può essere riscritto in forma matriciale: − λ λ dP0 (t ) dP1 (t ) = [P0 (t ) P1 (t )]⋅ (7.14) dt dt µ − µ 52 Quaderno n. 1 - GMEE Risolvendo tale sistema si ottengono le seguenti due equazioni: − ( λ +µ ) t µ [P0 (0) + P1 (0)] + e [λP0 (0) − µP1 (0)] P0 (t ) = µ+λ µ+λ (7.15) −( λ +µ ) t P (t ) = λ [P (0) + P (0)] + e [− λP0 (0) + µP1 (0)] 0 1 1 µ+λ µ+λ Essendo P0(0) + P1(0) = 1 si ha: µ e − ( λ +µ ) t [λP0 (0) − µP1 (0)] + P0 (t ) = µ+λ µ+λ (7.16) −( λ + µ ) t P (t ) = λ + e [− λP0 (0) + µP1 (0)] 1 µ+λ µ+λ Se poi il sistema inizialmente funziona allora, essendo P0(0) =1 e P1(0) = 0, si ha: µ P0 (∞) = µ + λ P (7.17) P (∞ ) = λ 1 µ+λ P0(t) e P1(t) sono rispettivamente le probabilità, dipendente dal tempo t, che il sistema sia funzionante (Affidabilità) o guasto (Inaffidabilità). E’ quindi possibile calcolare la probabilità asintotica che il sistema raggiunga uno stato, per t →∞: µ P0 (∞) = µ + λ P (7.18) P (∞) = λ 1 µ+λ La Disponibilità nel tempo di un sistema riparabile è dunque pari a: A(t ) = P0 (t ) = µ λe − ( λ + µ )t + µ+λ µ+λ (7.19) e per t →∞ diventa: A(∞) = P0 (∞) = µ µ+λ (7.20) Analisi di Markov per un sistema: esempio applicativo Con questo esempio si vuole descrivere l’approccio che deve essere seguito per valutare la disponibilità di un sistema utilizzandole tecniche di Markov. Lo studio è effettuato considerando un sistema di misura basato sul GPS in grado di misurare l’istante iniziale dei transitori veloci sovrapposti ad una tensione sinusoidale a 50Hz. Con riferimento alla Figura 7.4, esso è costituito da: o un trasduttore di tensione (V-VT), con tasso di guasto λTV = 1e-4 ; o un rilevatore di eventi (comparatore), con parametri λSC = 1e-3 e µSC = 5e-2; o una unità GPS, con tasso di guasto λGPS = 2e-4; o una unità di elaborazione. Tecniche e metodi a supporto della fidatezza 53 Il segnale viene condizionato attraverso un trasduttore di tensione V-VT, la cui uscita (lato di bassa tensione) viene mandata al rilevatore di eventi. Questo, basato su un circuito comparatore, al presentarsi di un transitorio veloce, genera in uscita un segnale in logica TTL che viene rilevato dal GPS come evento, con una Figura 7.4: Sistema di misura di transitori rapidi di tensione risoluzione di 100ns. basato su GPS. Consideriamo per semplicità il sottosistema costituito dai seguenti tre componenti: 1) il trasduttore di tensione (TV); 2) il rilevatore di eventi (comparatore o SC); 3) l’unità GPS. Secondo l’approccio markoviano, ad un sistema composto da N = 3 elementi competono nel modello di affidabilità 2N=8 stati. Per fini esemplificativi supporremo che il solo rilevatore di eventi sia riparabile, mentre un guasto al trasduttore di tensione o all’unità GPS provocherà il mancato funzionamento del sistema nel suo complesso. In pratica queste ipotesi implicano che dagli 8 stati possibili (supponendo riparabili tutti i componenti) si passa ad avere 6 soli stati: Stato S1: stato iniziale nel quale tutti i dispositivi sono funzionanti; la probabilità di trovare il sistema in tale stato al tempo t = 0 è eguale ad 1. Stato S2: stato nel quale il trasduttore di tensione risulta essere guasto; la probabilità di passare in questo stato da quello iniziale dipenderà dal tasso di guasto λTV del V-VT. Dato che abbiamo supposto non riparabile il trasduttore, questo stato è considerato assorbente. Stato S3: stato contraddistinto dal mancato funzionamento del rilevatore di eventi. A differenza degli altri, questo non è uno stato assorbente. Dunque gli competono, oltre alla transizione bidirezionale con lo stato iniziale determinata dai tassi di guasto λSC e di riparazione µSC del rilevatore di eventi, 2 ulteriori transizioni descritte dal guasto, contemporaneo a quello del rilevatore di eventi, del V-VT e dell’unità GPS. Stato S4: stato nel quale ad essere considerata non funzionante è l’unità GPS. Come nel caso del V-VT, questo stato è assorbente e la probabilità di entrarci è legata al tasso di guasto λGPS dell’unità GPS. Stato S5: stato nel quale il sistema viene a trovarsi a causa del guasto contemporaneo del rilevatore di eventi e del V-VT (si ipotizza, evidentemente, che quest’ultimo avvenga prima che il comparatore possa essere riparato). Stato S6: stato del sistema nel quale vengono considerati guasti sia l’unità GPS che il comparatore. Come lo stato S5 anche questo è assorbente. Il modello degli stati di Markov è rappresentato in Figura 7.5, dove, per non appesantire la lettura della figura, non sono state rappresentate le probabilità di rimanere nei singoli stati. Si possono individuare le seguenti transizioni: Transizioni 2,3,4: rispettivamente dallo stato iniziale agli stati S2,S3,S4. Sono determinate da λTV, λSC, λGPS. Transizioni 5,6: dallo stato S3 allo stato S5 con λTV e dallo stato S3 allo stato S6 con λGPS. Transizione 1: riporta il sistema dallo stato S3 a quello iniziale. Dipende dal tasso di riparabilità µSC. 54 Quaderno n. 1 - GMEE Conviene ribadire ancora che gli stati S2,S4,S5,S6 (bianchi) sono stati assorbenti, mentre l’S1 ed S2 (in grigio) sono quegli stati nei quali il sistema non viene considerato guasto: la somma delle probabilità che competono a questi due stati, cioè P1(t)+P3(t), sarà la disponibilità del sistema. Per applicare il modello di Markov si scrive il siFigura 7.5: Diagramma di stato del rilevatore di rapidi transitori stema di equazioni differenziali che legano le di tensione. probabilità di transizione del sistema in un intervallo ∆t: P 1 (t+ ∆ t ) P 2 (t+ ∆ t ) P 3 (t+ ∆ t ) P 4 (t+ ∆ t ) P 5 (t+ ∆ t ) P 6 (t+ ∆ t ) = P 1 ( t) [1 -( λ T V + λ S C + λ G P S ) ∆ t] + P 3 (t) µ S C ∆ t = P 1 (t) λ T V ∆ t + P 2 (t) = P 1 ( t) λ S C ∆ t + P 3 (t) [1 -( µ S C + λ T V + λ G P S ) ∆ t ] = P 1 ( t) λ G P S ∆ t+ P 4 (t) = P 3 ( t) λ T V ∆ t+ P 5 (t) = P 3 ( t) λ G P S ∆ t+ P 6 (t) (7.20) Questo è il sistema che, risolto per le opportune condizioni iniziali, fornirà le probabilità di risiedere in ogni stato. Risoluzione numerica del sistema Esistono codici di calcolo in grado di risolvere i sistemi di equazioni che si costruiscono utilizzando i modelli di Markov, fornendo quindi il valore numerico per le probabilità associate ai vari stati del sistema. In particolare, per l’esempio proposto occorrerà calcolare la somma delle probabilità di permanenza negli stati S2 0.3268 0.0065 S1 e S3. In Figura 7.6 è mostrato un diagramma di stato in cui sono state enfatizzate le transizioni asso1*10 ciando a probabilità di transizio1*10 ne maggiori frecce più grandi. I valori numerici indicati nella figura si riferiscono ai valori di probabilità di essere nei vari stati dopo 10000 ore di funzionamen0,6537 0.0130 S4 to. Il sistema ha una probabilità di essere nello stato S4 pari al Figura 7.6: Diagramma di stato del sistema in esempio 65,3% e del 32,7% di trovarsi nello stato S2. con enfatizzate le probabilità di transizione. -13 -15 Tecniche e metodi a supporto della fidatezza 55 Nella Tabella 7.1 sono riportati i risultati con maggiore dettaglio relativi ai valori della funzione di disponibilità calcolata in vari istanti temporali. Sono inoltre presentati gli andamenti di A(t) in vari intervalli temporali (per t da 0 a 1s; da 0 a 1000 s; da 0 a 10000 s). Tempo (s) t =1 t =10000 Tabella 7.1: Valori di disponibilità per l’esempio trattato. Caratteristica di Risultato R(t) affidabilità P(Stato 1) 0.9987 P(Stato 3) 0.00097 R(t) ≡ A(t) 0.9997 P(Stato 1) 0.0488 P(Stato 3) 0.00097 R(t) ≡ A(t) 0.0498 Si può notare come dopo 10000 ore di funzionamento la disponibilità del sistema sia scesa a 0.05, come si vede anche dai grafici, la probabilità che il sistema sia funzionante dopo un anno (8760 ore) è molto piccola pari allo 0,7%. Possibili soluzioni all’assenza di memoria del modello di Markov L’ipotesi più stringente nell’applicazione e nell’interpretazione dei risultati forniti dal modello di Markov è la mancanza di memoria. Questo, come già detto, fa sì che la probabilità di trovare il sistema in un determinato stato dipende solo dallo stato immediatamente precedente e non dalla storia del sistema, in altre parole lo stato futuro dipende solo dallo stato presente. Nella pratica, però, ciò significa trascurare l’influenza che un guasto può avere su un altro: nelle simulazioni, ad esempio, il tasso di guasto λGPS dell’unità GPS è lo stesso sia nella transizione dallo stato iniziale, sia in quella dallo stato S3, dove è già avvenuto un altro guasto. 56 Quaderno n. 1 - GMEE Nel modello di Markov, quindi, la rottura dal rilevaS5 Guasto TV tore di eventi non influisce sul comportamento del GPS, ma sappiamo che ciò può non essere vero: ad esempio un cortocircuito innescato S0 OK Guasto SC S1 dal comparatore potrebbe benissimo danneggiare sia il trasduttore di tensione che l’unità GPS. Per cercare di tenere in Guasto Guasto maggior considerazione GPS SC+GPS S6 l’effetto che i guasti indotti possono avere sul sistema Figura 7.7: Diagramma di stato del sistema in cui si considera complessivo, si sono volute anche la contemporaneità di più eventi. evidenziare 2 ulteriori transizioni che vanno dallo stato iniziale rispettivamente allo stato di guasto contemporaneo di rilevatore di eventi e di trasduttore e a quello di guasto contemporaneo di rilevatore di eventi e unità GPS (Figura 7.7). Si supponga per le 2 nuove transizioni, evidenziate nella figura precedente, un tasso di guasto ricavato dal parallelo dei due componenti per i quali vogliamo considerare l’effetto dei guasti indotti. Consideriamo, cioè, che la transizione avvenga se entrambi gli elementi in parallelo sono guasti. In particolare abbiamo: o Transizione 7: dallo stato S1 allo stato S5. La transizione dipende dal tasso di guasto λ[SC//TV] che compete al parallelo costituito dal comparatore e dal trasduttore. Dalle formule per i componenti in parallelo sappiamo che λ[SC//TV] = [λ2SC λTV+λSC λ2TV]/[λSCλTV+ λ2SC+ λ2TV] = 9.9e-5 (7.21) o Transizione 8: dallo stato S1 allo stato S6. La transizione è dipende dal parallelo di rilevatore di eventi e GPS. Troviamo λ[SC//GPS] = [λ2SC λGPS+λSC λ2GPS]/[λSCλGPS+ λ2SC+ λ2GPS] = 1.93e-4 (7.22) Nella Tabella 7.2 sono riportati i valori delle probabilità degli stati S1 e S3 e quelli dell’affidabilità e dell’inaffidabilità. È evidente come la disponibilità del sistema risenta delle 2 ulteriori transizioni; come si vede, già dopo 1000 ore, la disponibilità passa da 0,74 a 0.55, la probabilità di buon funzionamento del sistema si riduce di quasi un terzo. Guasto TV+SC Tabella 7.2: Disponibilità del sistema considerando la contemporaneità di eventi. Tempo (s) Disponibilità 6 Transizioni 8 Transizioni P(Stato 1) 0.99872 0.99843 t=1 P(Stato 3) 0.000974 0.000979 R(t) ≡ A(t) 0.9997 0.9993 P(Stato 1) 0.72629 0.54511 t = 1000 P(Stato 3) 0.014525 0.010965 R(t) ≡ A(t) 0.7408 0.5550 P(Stato 1) 0.04881 0.00277 t = 10000 P(Stato 3) 0.000976 0.000055 R(t) ≡ A(t) 0.0498 0.0028 Tecniche e metodi a supporto della fidatezza 7.2 57 Tecniche qualitative Introduzione Come già evidenziato nei capitoli precedenti, le prestazioni e la qualità di un prodotto industriale o di un sistema comprendono anche l’affidabilità, la disponibilità e la manutenibilità, caratteristiche queste che sono di per se fondamentali nel definire i requisiti di prodotto e che rappresentano, in termini generali, la fidatezza dello stesso. Se ne deduce che la fidatezza ha grande impatto sul costo operativo, di mantenimento in uso del prodotto, sul raggiungimento di un costo accettabile sul ciclo di vita dello stesso. Definite le caratteristiche di fidatezza ricercate, e questo − va da sé − è un compito del progettista o del team che concorre alla progettazione del prodotto, se ne deve poter verificare l’effettiva realizzazione. A tal scopo sono state introdotte metodologie di analisi utili sia in fase di previsione che di riesame del livello di fidatezza desiderato e/o raggiunto. Tra i metodi di analisi più utilizzati si citano [CEI 56-10]: 1) analisi dei modi e degli effetti di guasto (FMEA); 2) analisi dei modi e degli effetti di guasto e della loro criticità (FMECA); 3) analisi dell’albero dei guasti/avarie (FTA); 4) analisi dell’albero degli eventi (ETA); 5) analisi dell’affidabilità mediante i diagrammi a blocchi (DBA); 6) analisi di Markov (MA); 7) analisi mediante le reti di Petri (PNA); 8) studi di pericolo e operabilità (HAZOP) 9) previsioni di affidabilità mediante conteggio delle parti (PC); 10) analisi delle sollecitazioni delle parti; 11) analisi di somiglianza; 12) tabelle della verità; 13) metodi statistici per l’affidabilità; 14) analisi di affidabilità umana (HRA). Nel seguito verranno illustrate in dettaglio solo le prime tre metodologie rimandando ai riferimenti bibliografici per gli ulteriori dettagli. In via del tutto generale i metodi di analisi che verranno illustrati nel seguito permettono di valutare i modi di guasto ai quali il sistema è, o potrà essere soggetto, nonché le interdipendenze tra questi, se ce ne sono, e le conseguenze che determinano sul funzionamento complessivo del sistema. Inoltre, i risultati ottenuti consento al progettista di definire quali modifiche di progetto è necessario apportare al fine di migliorare i requisiti RAMS del prodotto. In termini generali le tecniche di analisi possono essere di tipo induttivo o, come si è anche soliti dire, di tipo bottom-up (es.: FMEA e FMECA) e deduttive, ovvero topdown (es.: FTA). Sono induttive quelle metodologie che partono dal livello più basso, quindi per esempio dal guasto del singolo componente meccanico, elettrico etc. onde verificarne l’effetto sul comportamento dell’intero sistema. In tal caso si richiede, come è facile intuire, una profonda e dettagliata conoscenza del sistema e della sua struttura. I metodi induttivi sono generalmente assai rigorosi, se ben condotti, nell’identificare tutti i singoli modi di guasto. Un’analisi di questo tipo dispiega i suoi migliori risultati quando condotta nella fase finale della progettazione, anche se in altre fasi può essere comunque vantaggiosamente utilizzata. I metodi deduttivi partendo dall’effetto finale, per esempio un particolare e ben 58 Quaderno n. 1 - GMEE precisato guasto, studiano le cause che possono averlo determinato. L’analisi viene condotta partendo dal livello di sistema e si spinge via via sino a livelli più bassi (per esempio sino allo studio del singolo componente meccanico, elettronico etc...). I metodi deduttivi sono orientati agli eventi e risultano particolarmente utili durante le prime fasi del progetto, quando devono ancora essere definiti i dettagli esecutivi. Analisi dei modi e degli effetti di guasto (FMEA) L’analisi dei modi e degli effetti di guasto (FMEA1) è una procedura sistematica per l’analisi di un sistema condotta allo scopo di individuare i potenziali modi di guasto, le cause e gli effetti sulle prestazioni e, quando applicabile, sulla sicurezza delle persone, dell’ambiente e del sistema. Quando impiegata in fase di avanzata progettazione, la tecnica di analisi è in grado di evidenziare le eventuali carenze del sistema, in modo tale da suggerire le modifiche necessarie per il miglioramento dell’affidabilità e, più in generale, della disponibilità. Spesso l’analisi FMEA consente di concentrarsi su questi aspetti e di capire se l’apparato in esame mantiene, ad esempio, i requisiti di sicurezza. Prima di addentrarci oltre nell’argomento è bene stabilire che in modo più appropriato si dovrebbe parlare di modo di guasto piuttosto che di guasto. Per modo di guasto si intende l’effetto – misurabile o comunque che si evidenzia in modo quantitativo o qualitativo – dovuto al guasto di un componente o di una parte di un sistema. La FMEA è un metodo adatto essenzialmente allo studio dei guasti di dispositivi realizzati anche con tecnologia diversa (elettrici, meccanici, idraulici, etc.) o loro combinazione. La FMEA può anche essere usata per lo studio delle prestazioni di un software e delle mansioni nonché dei comportamenti dell’operatore. L’analisi viene condotta partendo dalle caratteristiche dei componenti di sistema attraverso un processo induttivo: ipotizzando il guasto di un componente, l’analisi permette di evidenziare la relazione esistente fra il guasto stesso e i guasti, i difetti, la degradazione delle prestazioni o dell’integrità dell’intero sistema. L’analisi FMEA consente di ben comprendere il comportamento di un componente di sistema, quali possono essere una scheda elettronica, un componente meccanico, un dispositivo elettronico, e come questo influisca sul funzionamento dell’intero sistema in particolare nel caso in cui abbia una avaria. È infatti sempre necessario assicurarsi che un malfunzionamento di una parte di un sistema non porti all’instaurarsi di situazioni pericolose per l’uomo e per l’ambiente. In un impianto industriale o in una macchina a controllo numerico, per esempio, non è tollerabile che il guasto di un dispositivo elettronico di una scheda di controllo possa consentire operazioni ritenute poco sicure. La scheda su cui si è verificato il guasto dovrà pertanto essere progettata in modo tale che a guasto presente, sia inibito il funzionamento del sistema o, almeno, lo siano le operazioni non sicure. La soluzione è di tipo progettuale quindi, e l’analisi FMEA consente da un lato di individuare tutti i guasti che, se non ben previsti possono dar luogo a situazioni pericolose, e dall’altro a verificare che le soluzioni adottate sono efficienti. Ecco pertanto il motivo per cui, sebbene sempre utile, è consigliabile effettuare ed aggiornare l’analisi FMEA durante la fase di progettazione. Pertanto questa metodologia, se mantenuta aggiornata, diviene uno strumento di verifica a posteriori della progettazione e di prova della conformità del sistema alle specifiche, alle norme, ai regolamenti ed alle esigenze dell’utilizzatore. 1 FMEA è l’acronimo di Failure Mode and Effect Analysis. Tecniche e metodi a supporto della fidatezza 59 Da ultimo, risulta chiaro che i risultati della FMEA fissano le priorità per i controlli di processo da attuare e le ispezioni previste nel corso della costruzione e dell’installazione nonché per le prove di qualifica, di approvazione, di accettazione e di messa in esercizio. Con tutto ciò non si vuole, ovviamente sminuire l’importanza di una FMEA condotta su un apparato già progettato. In tal caso, semplicemente, l’analisi è condotta come una sorta di verifica a posteriori di quanto realizzato. E, a ben vedere, può ritenersi un primo passo utile a definire i requisiti e i criteri progettuali nel momento in cui si riterrà opportuno riprogettare o anche solo aggiornare il prodotto. Una FMEA consente: 1) l’identificazione dei guasti ivi compresi i guasti indotti; 2) la determinazione della necessità di ridondanze e ulteriori sovradimensionamenti e/o semplificazioni del progetto; 3) la determinazione della necessità di scegliere materiali, parti, dispositivi o componenti adeguati; 4) l’identificazione delle conseguenze gravi dei guasti e pertanto determinare se è necessario rivedere e modificare il progetto oltre che trovare tutto ciò che può presentare rischi per la sicurezza e l’incolumità delle persone o sollevare problemi di responsabilità legale; 5) di ottenere aiuto nel definire le procedure di collaudo e di manutenzione suggerendo i modi potenziali di guasto, i parametri che devono essere registrati durante il collaudo, le verifiche e l’utilizzazione e nella stesura di guide per la ricerca dei guasti; 6) la definizione di alcune delle caratteristiche del software, se presente. FMEA - Procedura operativa La procedura classica per l’implementazione dell’analisi FMEA è la seguente: Passo 1 – Definizione del sistema. In questa fase si definisce il sistema, i sui requisiti funzionali, le condizioni ambientali e le eventuali prescrizioni legali da rispettare. Nel definire i requisiti funzionali e operativi occorre precisare, oltre alle prestazioni attese, anche le funzionalità indesiderate, ovvero le situazioni che devono essere considerate come condizioni di guasto. Le condizioni ambientali riguardano la temperatura dell’ambiente di lavoro del sistema (si deve quindi tener conto ad esempio delle sovratemperature che si instaurano quando l’apparato è installato all’interno di un involucro quale è per esempio un quadro elettrico), l’umidità, la pressione e, infine, ma spesso di non secondaria importanza, la presenza o meno di polveri, muffe e salinità. Oltre a ciò si deve tener in debito conto tutte le problematiche legate alla compatibilità elettromagnetica (EMC). È bene, infine, verificare quali prescrizioni legislative sono applicabili al sistema, soprattutto in termini di sicurezza e rischio. Passo 2 – Elaborazione dei diagrammi a blocchi. Si elaborano i diagrammi a blocchi funzionali con lo scopo di chiarire l’interconnessione fra i vari sottosistemi, circuiti, componenti. Passo 3 – Definizione dei principi di base. Inizialmente è necessario fissare il livello di analisi più adeguato. Il livello ottimale è scelto da chi esegue la FMEA e, comunque, il livello più basso possibile è quello per cui si possono disporre le necessarie informazioni. In una FMEA relativa ad un sistema elettronico è chiaro che il livello più basso possibile è quello in cui si analizzano i modi di guasto dei singoli componenti elettronici. 60 Quaderno n. 1 - GMEE Passo 4 – Definizione modi di guasto. Si identificano i modi, le cause e gli effetti dei guasti, la loro importanza relativa e, in particolare, la modalità di propagazione. Il modo di guasto è l’evidenza oggettiva della presenza di un guasto. In campo automobilistico i modi di guasto possono essere, per esempio: l’auto non parte, non si accendono i fari, funzionamento intermittente, pneumatici sgonfi. È necessario in questa fase individuare gli elementi/componenti critici del sistema ed elencarne i modi di guasto. I modi di guasto sono dedotti in modo differente se il componente è nuovo oppure è già stato utilizzato in precedenza. Quando il componente è nuovo – in assoluto o per il progettista che, non avendolo mai utilizzato Tabella 7.3: Elenco dei modi di guasto. non ha ancora accumulato sufficiente espe1 Guasto alla struttura (rottura) rienza sul suo comportamento – i modi di 2 Grippaggio o inceppamento guasto si possono ricercare per similitudine 3 Vibrazioni con componenti che hanno la stessa funzio4 Non resta in posizione ne o da risultati dei test del componente 5 Non apre sottoposto a condizioni di lavoro particolarmente gravose. I modi di guasto possono 6 Non chiude anche essere dedotti da uno studio teorico 7 Rimane aperto del componente o del sistema. Per compo8 Rimane chiuso nenti già ampiamente utilizzati e conosciu9 Perdita verso l’interno ti, invece, i modi di guasto sono general- 10 Perdita verso l’esterno mente dedotti dalla documentazione fornita 11 Fuori tolleranza (in più) dal costruttore e dai dati storici inerenti il 12 Fuori tolleranza (in meno) suo utilizzo. 13 Funziona anche quando non dovrebbe I modi di guasto possono essere quasi 14 Funzionamento intermittente sempre classificati in uno dei modi di gua- 15 Funzionamento irregolare sto elencati in Tabella 7.3. Una volta defini16 Indicazione errata ti i modi di guasto si studiano gli effetti 17 Flusso ridotto conseguenti. Infine, si valutano gli effetti del guasto, generali e/o locali e l’effetto fi- 18 Attivazione errata 19 Non si ferma nale, ovvero al più alto livello del sistema. L’analisi FMEA è generalmente in 20 Non si avvia grado di studiare i modi di guasto indivi- 21 Non commuta duali e gli effetti degli stessi sul sistema. Si 22 Intervento prematuro rivela meno adatta per studiare la combi- 23 Intervento in ritardo nazione e la dipendenza da sequenze di 24 Ingresso errato (eccessivo) guasti. Si veda in proposito anche 25 Ingresso errato (insufficiente) 26 Uscita errata (eccessiva) l’esempio applicativo 1. Un ulteriore considerazione merita qui di 27 Uscita errata (insufficiente) essere fatta a proposito dei cosiddetti guasti 28 Mancanza di ingresso di modo comune che sono tutt’altro che 29 Mancanza di uscita infrequenti. Tali sono i guasti originati da 30 Corto circuito (elettrico) un avvenimento che provoca contempora- 31 Circuito aperto (elettrico) neamente stati di guasto in due o più com- 32 Dispersione (elettrica) ponenti. I guasti di modo comune possono Altre condizioni di guasto eccezionali a essere riconducibili alle condizioni ambienseconda delle caratteristiche del sistetali, ad assegnazione di prestazioni e/o ca- 33 ma, le condizioni di funzionamento e i ratteristiche insufficienti (insufficienze di vincoli operativi progetto), a difetti dovuti alla fase realizza- Tabella tratta dalla NORMA CEI 56-1. Tecniche e metodi a supporto della fidatezza 61 tiva (difetti di costruzione), a errori di montaggio, di installazione, a errori umani per esempio durante l’esercizio e/o la manutenzione. L’analisi FMEA consente anche l’analisi qualitativa di questi guasti. Passo 5 – Identificazione delle cause dei guasti. In corrispondenza di ogni modo di guasto è bene individuarne la causa. Tanto maggiore è l’effetto del modo di guasto tanto più accuratamente deve esserne descritta la causa. Passo 6 – Identificazione degli effetti dei guasti. Un modo di guasto comporta generalmente degli effetti in termini di ridotta o mancata funzionalità del sistema, sino ai casi più gravi in cui si instaurano situazioni pericolose per l’operatore e/o per l’ambiente. Si riconoscono tipicamente due tipologie di effetti: locali e finali. I primi sono gli effetti dei modi di guasto sul componente in esame. I secondi, invece, sono gli effetti che si evidenziano a livello di sottosistema/sistema. Passo 7 – Definizione dei provvedimenti e dei metodi per rilevare e isolare i guasti. In questa fase si identificano i provvedimenti e i metodi per individuare e isolare i guasti indicando le modalità da seguire per rilevare il guasto ed i mezzi da impiegarsi a tal scopo. Lo scopo è quello di fornire all’utilizzatore, o a chi effettua la manutenzione, le informazioni necessarie a verificare la presenza o meno del modo di guasto considerato. L’FMEA, può essere applicata ad un processo, ad un prodotto ma anche ad un progetto (inteso come processo di progettazione). Cambiano nei diversi casi le modalità e i tempi di individuazione dei guasti. Quando l’FMEA è applicata ad un processo è necessario stabilire dove è più efficiente rilevare i guasti: durante il funzionamento del processo da un operatore, dal Controllo Statistico del Processo (SPC) o dal controllo qualità per citare alcuni esempi. Quando l’FMEA si applica ad un progetto, invece, si deve porre la massima attenzione nello stabilire quando e dove un modo di guasto può essere più facilmente individuato: durante la revisione del progetto, nella fase di analisi, di test etc. Tabella 7.4: Esempio di classificazione degli effetti finali (*) Impatto o gravità/criticità Classe del guasto. Effetti di guasto Livello di Criticità Evento suscettibile di nuocere al buon funzionamento del sistema, causando però danni trascurabili al sistema o I Insignificante all’ambiente circostante e senza presentare rischi di morti o menomazioni alle persone. Evento che nuoce al buon funzionamento di un sistema II Marginale senza tuttavia causare danni notevoli al sistema né presentare rischi importanti di morti o menomazioni. Ogni evento che potrebbe causare la perdita di (una) funzioni(e) essenziali(e) del sistema provocando danni imII Critico portanti al sistema o al suo ambiente, ma con un rischio trascurabile di morti o menomazioni. Ogni evento che potrebbe causare la perdita di (una) funzioni(e) essenziali(e) del sistema provocando danni imIV Catastrofico portanti al sistema o al suo ambiente e/o che potrebbe causare morti o menomazioni. (*) Tratta dalla NORMA CEI 56-1. 62 Quaderno n. 1 - GMEE Passo 8 – Prevenzione degli eventi indesiderabili. Si identificano i possibili provvedimenti, di progetto e operativi, per prevenire gli eventi indesiderati. Oltre alla via più breve che è quella di risolvere alla radice il problema in modo che non si verifichino eventi indesiderati è possibile ricorrere alla ridondanza, all’utilizzo di sistemi di allarme e di monitoraggio, all’introduzione di limitazioni ai danni ipotizzabili. Passo 9 – Classificazione della severità degli effetti finali. La classificazione degli effetti finali viene fatta tenendo conto dei più svariati aspetti: la natura del sistema in esame, le caratteriInizio analisi FMEA/FMECA stiche funzionali e le prestazioni del siScelta del livello di analisi stema, i requisiti contrattuali, i requisiti derivanti da legislazione cogente, sopratScelta del componente/elemento tutto in relazione all’incolumità degli opeda analizzare ratori e, infine, i requisiti stabiliti dalla Identificazione dei modi di guasto garanzia. Per la classificazione è possibile fare riferimento alla Tabella 7.4. Selezione del modo di guasto da analizzare Passo 10 – Guasti multipli. Si ricercano le specifiche combinazioni di guasti multipli da tenere in debito conto. Identificazione degli effetti immediati e finali del modo di guasto studiato Passo 11 – Raccomandazioni. Si stilano eventuali raccomandazioni ove si riportano le osservazioni utili per chiarire, per esempio, eventuali aspetti non completamente analizzati, le condizioni insolite, gli effetti dei guasti di elementi ridondanti, gli aspetti particolarmente critici del progetto, i riferimenti ad altri dati per l’analisi dei guasti sequenziali e ogni osservazione a completamento dell’ analisi. Valutazione della severità dell’effetto finale Identificazione delle potenziali cause che determinano il modo di guasto studiato Stima della frequenza o della probabilità che si verifichi il modo di guasto in un tempo predeterminato È necessario un intervento? NO La Figura 7.8 riporta la procedura tipica di una analisi FMEA. Le attività contenute nei riquadri tratteggiati sono generalmente proprie di una analisi FMECA di cui successivamente si dirà. SI Si propongono azioni correttive, metodi per la mitigazione gli effetti del guasto etc... Preparazione di documenti, note, azioni, procedure formali, etc Altri modi di guasto da analizzare ? SI NO Altri componenti da analizzare ? NO SI Fine Analisi FMEA/FMECA (Definire la data della succesiva revisione) Figura 7.8: Schema dell’analisi FMEA/FMECA. Tecniche e metodi a supporto della fidatezza 63 Il concetto di criticità L’analisi della criticità di cui si dirà in questo paragrafo è solitamente oggetto di approfondita analisi nella FMECA e non nella FMEA. Tuttavia, in taluni casi, si ritiene utile procedere ad un’analisi della criticità seppur qualitativa, anche nelle FMEA soprattutto laddove un’analisi completa risulta eccessivamente onerosa ed inutile ma, al contempo, si vuole avere una indicazione circa la criticità degli eventi. La criticità è un modo per quantificare l’attenzione che è opportuno accordare a un determinato guasto/evento/non conformità e dipende sia dalla probabilità della sua comparsa sia dalla gravità delle conseguenze che ne possono scaturire. L’attenzione da dedicare ad un evento dipende innanzitutto dal fatto che le sue conseguenze abbiano a che fare con la sicurezza delle persone, con i danni e le perdite conseguenti o con la disponibilità del servizio. È quindi assai difficile definire un criterio generalmente valido per valutare la criticità perché entra in gioco il concetto di gravità delle conseguenze e della loro probabilità di verificarsi. Il grado di gravità, infatti, può variare ed essere diversamente valutato se l’obiettivo ricercato riguarda, per esempio, la sicurezza delle persone, i danni e le relative perdite o, infine, la disponibilità del servizio. La criticità è definita per mezzo di una scala di valori che consente di valutare la gravità delle conseguenze in funzione dei criteri presi in considerazione. La già citata Tabella 7.4 riporta un esempio di classificazione con quattro livelli principali della gravità delle conseguenze, anche se nulla vieta di utilizzare un numero differente di livelli. Considerazioni conclusive sulla FMEA È chiaro che nel caso si debbano analizzare sistemi complessi l’analisi FMEA tende a divenire assai corposa, tediosa e irta di possibili ripetizioni. In questi casi l’esperienza del o degli autori della FMEA gioca un ruolo assai importante. Esistono, inoltre, alcuni particolari che tendono a semplificare l’analisi. In particolare, è bene considerare il fatto che raramente si è in presenza di un sistema progettato dal nulla. Spesso si tratta di un revisione di un sistema già esistente o, anche in caso di nuovo progetto, si potranno avere alcuni sottosistemi che sono già utilizzati – si spera con soddisfazione – in altri progetti. Se le condizioni di utilizzo sono le medesime, è possibile mutuare le considerazioni di fidatezza fatte in precedenza anche per il nuovo progetto. I risultati di una FMEA possono fornire informazioni assai importanti per fissare le priorità del controllo statistico del processo, del campionamento in accettazione, delle ispezioni e per la qualificazione. Esempio applicativo 1 Viene qui brevemente sviluppato un esempio di analisi FMEA su un controllore industriale a microcontrollore costituito da schede elettroniche di vario tipo. Per brevità non viene qui discussa la parte iniziale dell’analisi ovvero la definizione del sistema, la stesura degli schemi a blocchi e la definizione dei principi di base. L’analisi, condotta per lo più a livello di singolo componente, ha come principale obiettivo l’analisi dei modi di guasto che possono instaurare situazioni pericolose per le persone. A tal scopo le parti con funzioni di sicurezza sono convalidate dimostrando la loro conformità ai principi base di sicurezza e dimostrando che le specifiche, il progetto, l’implementazione e la scelta dei componenti è in accordo con la normativa applicabile. Il comportamento nei confronti delle influenze ambientali è stato verificato anche per 64 Quaderno n. 1 - GMEE mezzo di opportune prove di compatibilità elettromagnetica (EMC). I criteri di analisi sono: 1) non si studiano gli effetti dei guasti in sequenza ovvero se in conseguenza di un guasto altri componenti cedono, il primo guasto e tutti i successivi sono considerati come un unico guasto; 2) i guasti di modo comune sono considerati come guasti singoli; 3) si verifica un solo guasto indipendente alla volta. Analisi dei modi di guasti: discussione ed esclusioni. Nei sistemi a microprocessore/microcontrollore deve essere sempre considerata la possibilità di essere in presenza di un blocco del dispositivo. Il team di progettazione valuta se attivare la funzione di watch-dog software per il blocco delle uscite nel caso di loop infinito nel ciclo di programma o, addirittura, la necessità di utilizzare un circuito di watch-dog esterno. La memoria, che può essere interna o esterna al dispositivo deve essere opportunamente monitorata se un suo guasto può portare il sistema a lavorare in una condizione non sicura o tale da danneggiare il sistema o il pezzo in lavorazione. Generalmente si tende a progettare il sistema in modo tale che la perdita di dati non comporti l’instaurarsi di situazioni pericolose: sia perché i dati in essa memorizzati non influenzano la sicurezza sia perché in caso di guasto il sistema risponde (o non risponde) in modo previsto. Vista la criticità del dispositivo si ricorre inoltre a monitorare al tensione di alimentazione per mezzo di un circuito di supervisione. Sulla base di un’attenta analisi si possono escludere alcuni modi di guasto per: i) improbabilità dell’evento; ii) esperienza tecnica accettata; iii) requisiti tecnici derivanti dall'applicazione e dagli specifici rischi considerati. Viene, quindi, predisposto un elenco dei guasti esclusi a priori. Alcuni esempi a tal proposito possono rivelarsi assai utili per capire di che cosa si sta parlando. Per i Relè di sicurezza (a contatti legati) sono, generalmente, esclusi i seguenti guasti: o il corto circuito tra i tre terminali di un contatto di scambio; o il corto circuito tra due coppie di contatti e tra i contatti e la bobina; o la chiusura simultanea di contatti NO e NC. L’esclusione di tali guasti si evince dalla documentazione fornita dal costruttore che fornisce le più ampie garanzie in tal senso2. Per i Contattori sono esclusi i seguenti guasti: o i contatti normalmente aperti rimangono chiusi anche dopo essere stati diseccitati: il guasto è evitabile o quanto meno reso assai improbabile grazie a criteri di progettazione improntati sul sovradimensionamento. A tal proposito viene impiegato un componente con corrente nominale pari al doppio della corrente nel circuito, frequenza di commutazione assai superiore a quella prevista e numero totale di commutazioni garantite dieci volte superiori a quelle previste. Il circuito su cui opera il contattore è opportunamente protetto contro i corto-circuiti. Sono inoltre, presi provvedimento affinché l’elettronica di controllo comandi l’apertura del contattore solo quando la corrente è assai ridotta. Dal punto di vista delle sollecitazione meccaniche l’installazione è tale per cui le vibrazioni e gli urti previsti sono ben al di sotto dei valori massimi indicati dal costruttore. o la possibilità di corto circuito tra i tre terminali di un contatto di scambio e tra i con2 Per esempio, dal datasheet del costruttore si evince che: “…All Safety relays are fitted with forced guided contacts to ensure the safe switching of a control system. All contacts are linked so that if one contact welds the others remain in their current position with open contacts maintaining a contact gap of > 0.5 mm. These relays meet the requirements of EN 50205”. Tecniche e metodi a supporto della fidatezza 65 tatti e la bobina è da escludersi sulla base di quanto dichiarato dal costruttore (se il circuito stampato è ben realizzato e i componenti ben saldati!). o infine, la chiusura simultanea di contatti normalmente aperti e normalmente chiusi è da escludersi qualora si utilizzi un componente che, per come è realizzato, non presenti questo tipo di eventualità (si veda a tal proposito e come esempio il caso dei relè appena citati). Un altro tipico caso di modi di guasto che, sotto alcune ipotesi, possono generalmente essere esclusi sono quelli in capo ai circuiti stampati. Infatti, il circuito stampato (a doppia faccia realizzato con materiale FR4-74 con uno spessore minimo di 0.8 mm e uno spessore minimo del rame di base pari a 17 micron) è realizzato con materiale di base conforme alla norma IEC 61249 e le distanze superficiali ed in aria sono dimensionate in accordo alla norma IEC 60664 con grado di inquinamento 2. Il circuito è ricoperto con un opportuno strato protettivo e l’involucro che contiene i circuiti ha un grado minimo di protezione pari a IP 54. Si noti, infine, che un corto circuito fra piste limitrofe potrebbe comunque verificarsi quando le schede elettroniche lavorano in ambienti polverosi, umidi e in presenza di stillicidio e quando non viene fatta manutenzione (eventualità tutta’altro che infrequente in alcuni ambiti industriali). Saldature non ben eseguite, inoltre, possono dar luogo sia a cortocircuiti sia a circuiti aperti. Infine, si deve tener presente che non sempre tutti i modi di guasto sono possibili: alcuni componenti guastandosi possono solo andare in cortocircuito o in circuito aperto. Nell’analisi condotta non si è tenuto conto di questo aspetto. Redazione della tabella FMEA È di seguito riportato un estratto della tabella FMEA. Si intende che è riportato solo lo studio relativo ai modi di guasto di un numero limitato di componenti. Esempio applicativo 2 In Tabella 7.6 è riportato un secondo esempio, questa volta non commentato, di analisi FMEA. Si noti, ancora una volta come la tabella che raccoglie l’analisi è in parte differente dalla precedente. Componente Pulsante Relè Resistore N° di identificazione nello schema. P1 K1 R1 Corto circuito tra i tre terminali di un contatto di scambio Corto circuito tra due coppie di contatti e tra i contatti e la bobina Chiusura simultanea di contatti NO e NC Circuito aperto 1.3 Corto circuito Variazione del valore nominale 5.2 5.3 5.1 1.5 1.4 Stress termico Stress termico Modo di guasto escluso (vedi sopra) Stress termico Modo di guasto escluso (vedi sopra) Modo di guasto escluso (vedi sopra) Contatti NO Guasto meccanico, sempre chiusi e e incollaggio dei NC sempre aperti contatti. 1.1 1.2 Il contatto è incollato Il contatto non Guasto meccanico chiude Contatti NO Rottura della sempre aperti e NC bobina e sempre chiusi dell’ancora. Il contatto non apre 1.1 Causa di guasto 1.2 Modo di guasto Id. Funzione di sicurezza attiva Funzione di sicurezza attiva Funzione di sicurezza attiva − − − Funzione di sicurezza attiva Funzione di sicurezza attiva Funzione di sicurezza attiva Funzione di sicurezza attiva Rilevazione del guasto Simulato realizzando un cortocircuito Sostituzione della resistenza con altre di differente valore. Simulato eliminando la resistenza R1 − − Funzionamento regolare per variazioni comprese tra +80 % e –60 % Impossibilità di attivare la movimentazione lungo l’asse X Nessuna manifestazione. − − Al termine dell’ultima operazione utile non è più possibile iniziarne una successiva. Simulato Non viene attivata la funzione L’effetto del Mancata guasto è dedotto esecuzione di una dallo studio dello funzione schema elettrico L’effetto del Mancato consenso guasto è dedotto alla dallo studio dello movimentazione schema elettrico dell’apparato − − Simulata pressione costante del pulsante Metodologia Effetto del guasto Descrizione Nessun malfunzionamento Non necessarie Non necessarie − − − Non necessarie Non necessarie Non necessarie Provvedimenti alternativi e/o contromisure Non necessarie Guasto non pericoloso − − − Si perde il consenso alle lavorazioni Si attua il rilievo delle transizioni. Commenti 66 Quaderno n. 1 - GMEE Tabella 7.5: Estratto della analisi FMEA per l’esempio applicativo 1. 1.1.2 Sistema di raffreddament o del motore Livello: Foglio No.: Fase della missione Descrizione/ Elem. funzione elemento 1.1.1 Statore Rottura isolamento Termistore, circuito aperto Termistore in corto circuito 1113 1114 1115 Raffreddam ento inadaguato Circuito aperto 1112 1121 Frattura nell’ avvolgimento Circuito aperto 1111 Blocco nel circuito di raffreddamento Sistema di protezione Alta temperatura persistente, difetto di fabbricazione Invecchiamento , frattura della connessione Frattura nella connessione Possibili cause di guasto Codice di Modo di guasto guasto Alta temperatura dello statore rivelata dal termistore Sistema di protezione Sistema di protezione Sistema di protezione Scabrosità a bassa velocità Scabrosità a bassa velocità Sintomo rilevato da Progettista: Elemento: Edizione: Nessuna uscita Nessuna uscita Blocco Effetto su output dell’unità Blocco Nessuna uscita se il carico è alto Temperatura Temperatu eccessiva ra nell’avvolgimen eccessiva to del motore Ridotta tolleranza contro il blocco Nessuno Sovraccarico Bassa potenza Bassa potenza Effetto locale Verifica della temperatura di blocco dello statore Adeguati ricambi Adeguati ricambi Protezione di una singola fase contro il blocco da sovratemperatura Protezione di una singola fase contro il blocco da sovratemperatura Ispezione annuale contro il blocco da sovra-temperatura Misure preventive contro il guasto 2 3 3 4 3 4 Classe di severità Tasso di guasto Preparato da: Approvato da: Data: Origine dei dati Si raccomanda una connessione di scorta portata all’esterno del contenitore Si raccomanda una connessione di scorta portata all’esterno del contenitore Raccomandazioni e azioni intraprese Tecniche e metodi a supporto della fidatezza Tabella 7.6: Estratto della analisi FMEA per l’esempio applicativo 2. 67 68 Quaderno n. 1 - GMEE Analisi dei modi e degli effetti di guasto e della loro criticità (FMECA) La valutazione della criticità dei modi di guasto e dei loro effetti è stata già affrontata. Tale valutazione, tuttavia, è sempre stata fatta su basi qualitative, basandosi certo sulla esperienza e sulle conoscenze ma senza scendere nel dettaglio della valutazione. Se, invece si ritiene una tale valutazione inderogabile allora l’analisi che si effettua viene chiamata Analisi dei modi e degli effetti di guasto e della loro criticità (FMECA3). Stabilire quanto è critico e con quale probabilità si manifesta un guasto è spesso di grande aiuto nello stabilire quali azioni correttive adottare e a stabilire il confine fra rischio accettabile e rischio non accettabile. Possono essere individuate diverse tipologie di guasti critici (ogni azienda può comunque definire proprie categorie e classi) anche se una scala della criticità che si basi sulle seguenti categorie è di validità generale: a) morte o lesioni a carico del personale incaricato dell’esercizio o del pubblico; b) danni all’apparecchiatura stessa o ad altre apparecchiature; c) danni economici derivanti dalla perdita delle uscite o delle funzioni del sistema; d) incapacità ad eseguire un compito a causa dell’incapacità dell’apparecchiatura di eseguire correttamente la sua funzione principale. Un esempio di scala di criticità è già stato riportato in Tabella 7.4. La scelta delle categorie di criticità richiede un attento studio oltre che un atteggiamento prudente. È necessario tener presente tutti i fattori che hanno impatto sulla valutazione del sistema, delle sue prestazioni, dei costi, dei programmi, della sicurezza e, infine dei rischi. Modi di guasto e loro probabilità Una volta individuati i modi di guasto presenti è necessario valutare la probabilità con cui gli stessi ricorrono. Tale valutazione è effettuata, nella FMECA, per via analitica. Per fare ciò è necessario poter accedere ad informazioni dettagliate circa l’affidabilità dei componenti/dispositivi utilizzati, quali ad esempio il tasso di guasto. Valutazione della criticità La valutazione può essere fatta mediante una griglia di criticità dove in ascisse è rappresentata la probabilità o la frequenze di guasto e in ordinata è rappresentata la classe di criticità. I modi di guasto, debitamente classificati dopo averne valutato le probabilità, sono inseriti in una delle caselle della griglia di criticità riportata in Tabella 7.10 di cui si discuterà in modo più approfondito successivamente. Ovviamente più una casella è lontana dall’origine, maggiore è la criticità del modo di guasto e tanto più impellente adottare le contromisure appropriate. La valutazione della criticità comporta la quantificazione degli effetti di un modo di guasto/non conformità. Tale operazione è non sempre di facile esecuzione e dovrebbe essere il risultato di un lavoro di Brainstorming. La misura della criticità può essere eseguita in vari modi, da cui derivano differenti tipologie di FMECA. Nel seguito ne saranno presentate due, la prima basata sul rischio e la seconda sui tassi di guasto. FMECA basate sul concetto di rischio In questa trattazione, seguendo la norma CEI EN 60812:2006, ci riferiremo ai concetti di Rischio R e di Risk Priority Number (RPN) che danno luogo a due tipi differenti di FMECA. 3 FMECA è l’acronimo di Failure Mode, Effects, and Criticality Analysis. Tecniche e metodi a supporto della fidatezza 69 Il rischio4 è valutato per mezzo di una opportuna misura di severità degli effetti e di una stima della probabilità attesa che il modo di guasto stesso si verifichi in un intervallo di tempo determinato a priori. Una misura del Rischio potenziale è, quindi: R = S ⋅P (7.23) dove - S (da Severity) è la severità: rappresenta la stima di quanto l’effetto del guasto impatta sul sistema o sulle persone5; è l’impatto o la gravità/criticità del guasto. È generalmente espresso in livelli di criticità. - P è la probabilità che il modo di guasto si verifichi. La valutazione di RPN è data invece dalla seguente relazione: RPN = S ⋅ O ⋅ D (7.24) dove - O (da Occurrence) è la probabilità che un modo di guasto si verifichi in un determinato tempo che spesso coincide con la vita utile del componente in esame. - D (da Detection) è la stima della possibilità di individuare/diagnosticare ed eliminare/prevenire l’insorgenza del guasto prima che manifesti i suoi effetti sul sistema o sulle persone. Più alto è D meno probabile è la possibilità di individuare il guasto e viceversa. RPN risulta, pertanto, alto indicando che è necessario risolvere con la massima priorità e celerità il modo di guasto. Il grado di severità insieme al RPN consentono di stabilire su quali modi di guasto è necessario concentrare le risorse onde mitigarne o annullarne gli effetti. S, O e D sono generalmente stimati per valori che vanno da 1 a 4 o 5 e, in alcuni ambiti, da 1 a 10. In particolare la Norma citata riporta gli esempi di cui alle seguenti tre tabelle6. Anche se ci si può riferire a tali esempi, ogni valutazione nello stabilire i valori S, O e D non può prescindere dall’esperienza personale e dal tipo di analisi che si sta compiendo (su un prodotto, su un processo, in quale ambito si opera). Tuttavia, non sempre l’aver effettuato una accurata valutazione di RPN mette al riparo da deduzione errate. Infatti questo parametro, così come è definito, presenta alcune problematiche: o Se si utilizzano i valori di S, O e D delle tabelle citate si constata che l’RPN non assume 1000 valori, come ci si aspetterebbe moltiplicando i 3 fattori, ciascuno dei quali compreso nella scala 1-10, ma solo 120 differenti valori. Per esempio, due valori di RPN identici possono derivare da differenti valori del parametro S e di ciò se deve tener debito conto. o Per quanto appena detto si possono avere situazioni assai differenti che portano ad avere valori di RPN identici. o Una variazione anche piccola in uno dei fattori comporta una notevole variazione nel valore di RPN se gli altri due fattori sono elevati, e una minore variazione quando gli altri due fattori assumono valori più bassi. o La distanza fra valori contigui di RPN non è sempre la medesima. 4 Quanto qui detto, che non va confuso con l’analisi del rischio che è altra cosa, è applicabile solo ai fini dell’analisi FMECA. 5 La NORMA citata parla, in modo restrittivo, di cliente. 6 Le tabelle 7.7, 7.8 e 7.9 sono da intendersi come esempi e non sono l’esatta copia delle corrispondenti tabelle pubblicate sulla NORMA CEI EN 60812:2006. 70 Quaderno n. 1 - GMEE Da tutto ciò si deduce che trarre le debite conclusioni dallo studio di RPN è un’attività da farsi con estrema prudenza. Da ultimo, si segnala che talvolta al posto del Risk Priority Number e del relativo acronimo RPN viene utilizzato, con immutato significato, l’Indice di Priorità del Rischio (IPR). Tabella 7.7: Tabella per la determinazione del parametro S (è riportato un esempio di classificazione utilizzato delle case automobilistiche). S Probabilità di rilevare il modo di guasto in fase di progettazione Valore Nessuna Nessun effetto percepibile 1 Difetti di assai modesta entità che sono percepiti da meno del Molto lieve 2 25% dei clienti/operatori. Difetti di assai modesta entità che sono percepiti dal 25% al 75% Lieve 3 dei clienti/operatori. Difetti di assai modesta entità che sono percepiti da più del 75% Molto basso 4 dei clienti/operatori. Difetti tali che il veicolo è in grado di muoversi ma alcuni dispoBasso sitivi relativi al confort funzionano ad un livello di performance 5 ridotto. Il cliente è talvolta insoddisfatto. Difetti tali che il veicolo è in grado di muoversi ma alcuni dispoModerato 6 sitivi relativi al confort non funzionano. Il cliente è insoddisfatto. Il veicolo é in grado di muoversi ma con un calo delle prestazioAlto 7 ni. Il cliente è molto insoddisfatto. Molto alto Il veicolo è inutilizzabile (perdita della funzione primaria). 8 Quando un modo di guasto potenziale comporta una diminuzione Rischioso con della sicurezza del veicolo e/o non rispetta vincoli di tipo legislaallarme / segna9 tivo pur essendo presente un segnale di allarme (che avvisi del le di allerta problema). Rischioso senza Quando un modo di guasto potenziale comporta una diminuzione allarme / segna- della sicurezza del veicolo e/o non rispetta vincoli di tipo legisla10 le di allerta tivo senza che sia presente un segnale di allarme. Tabella 7.8: Ricorrenza dei modi di guasto, frequenza e probabilità. Ricorrenza (del modo di guasto) O Frequenza ( ‰ ) Probabilità Remota ovvero improbabile 1 ≤ 0.010 ≤ 1·10-5 2 0.1 1·10-4 Bassa: si verificano pochi guasti 3 0.5 5·10-4 4 1 1·10-3 Moderata: guasti occasionali 5 2 2·10-3 6 5 5·10-3 7 10 1·10-2 Alta: si verifica molti guasti 8 20 2·10-2 9 50 5·10-2 Molto alta: il guasto è praticamente inevitabile 10 > 100 > 1·10-1 Tecniche e metodi a supporto della fidatezza D Quasi certo Molto Alto Alto/Elevato Moderatamente alto Moderato Basso Molto basso Remoto Molto remoto Assolutamente improbabile 71 Tabella 7.9: Criteri per la valutazione del parametro D. Probabilità di rilevare il modo di guasto in fase di progettazione Valore La verifica del progetto è quasi sicuramente in grado di rilevare le 1 potenziali cause /meccanismi e il conseguente modo di guasto Sussiste una probabilità molto alta che in fase di verifica del progetto venga rilevata una potenziale causa con il relativo modo di 2 guasto. Sussiste una elevata/alta probabilità che in fase di verifica del progetto venga rilevata una potenziale causa con il relativo modo di 3 guasto. Sussiste una probabilità moderatamente elevata/alta che in fase di verifica del progetto venga rilevata una potenziale causa con il re4 lativo modo di guasto. Sussiste una modesta probabilità che in fase di verifica del progetto venga rilevata una potenziale causa con il relativo modo di gua5 sto. Sussiste una bassa probabilità che in fase di verifica del progetto 6 venga rilevata una potenziale causa con il relativo modo di guasto. Sussiste una probabilità molto bassa che in fase di verifica del progetto venga rilevata una potenziale causa con il relativo modo 7 di guasto. Sussiste una remota probabilità che in fase di verifica del progetto 8 venga rilevata una potenziale causa con il relativo modi di guasto. Sussiste una probabilità molto remota che in fase di verifica del progetto venga rilevata una potenziale causa con il relativo modo 9 di guasto. È impossibile che in fase di verifica del progetto venga rilevata una potenziale causa con il relativo modi di guasto. Una seconda 10 possibilità è quando non è prevista nessuna attività di verifica del progetto. FMECA basate sul tasso di guasto La stima della criticità di un modo di guasto può anche passare attraverso lo studio dei tassi di guasto dei dispositivi, dei sottosistemi e delle parti in genere costituenti il sistema. Purtroppo, i tassi di guasto generalmente reperibili nelle banche dati si riferiscono ai componenti e non ai modi di guasto riconducibili al componente. Vi è poi una ulteriore complicazione: solitamente i dati disponibili sono validi a ben determinate condizioni ambientali e operative. I tassi di guasto disponibili non sono quindi immediatamente utilizzabili e non possono quindi essere inseriti nella relazione finale di analisi. Una stima del tasso di guasto di un ben determinato modo di guasto è calcolata mediante la seguente relazione: λ m = λc ⋅ α m ⋅ β m (7.25) dove λm è il tasso di guasto del singolo modo di guasto che interessa analizzare; λc è il tasso di guasto del componente a cui ci si riferisce; αm è la probabilità che il componenti guastandosi si guasti con il modo di guasto m; ov- viamente per un componente ∑α m =1. βm è la probabilità condizionata degli effetti del modo di guasto, i.e. è la probabilità che 72 Quaderno n. 1 - GMEE a fronte di quel dato modo di guasto si produce proprio l’effetto critico in esame. Questa relazione è valida se si ritiene che il tasso di guasto sia costante. Ciò non sempre è vero ed è questo uno dei limiti di questo approccio. Spesso si desidera avere una indicazione legata al tempo, per esempio al tempo di vita utile del componente, detto per esempio tc. In tal caso si ricorre al coefficiente di criticità del modo di guasto: C m = λm ⋅ t c = λc ⋅ α m ⋅ β m ⋅ t c (7.26) Si noti che il tempo di osservazione, che spesso coincide con il tempo di vita utile ma potrebbe anche non essere così a priori, è riferito al componente e non al modo di guasto. Per un singolo componente possono sussistere svariati modi di guasto. Se questi modi di guasto sono n risulta: n Cc = ∑ n Cm = ∑ m =1 n λm ⋅ t c = m =1 ∑ λ ⋅α c m (7.27) ⋅ βm ⋅ tc m =1 dove Cc è il coefficiente di criticità del componente. La probabilità che un modo di guasto si verifichi entro un determinato lasso di tempo è: (7.28) Pm = 1 − e −C m È possibile suddividere il campo di Pm in classi come indicato in Tabella 7.10. I due modi di guasto ivi classificati presentano l’uno una maggior severità e l’altro una maggiore probabilità di verificarsi. Per decidere su quale dei due modi di guasto ci si deve inizialmente concentrare è necessario tenere in debito conto come le scale dei due assi sono state create e soprattutto il tipo di applicazione con cui si ha a che fare. In alcuni ambiti, per esempio, si potrebbe dare più importanza alla severità mentre in altri alla probabilità che un evento si manifesti. Procedura e documenti di analisi Lo schema a blocchi di una FMECA è riportato in Figura 7.8. La procedura differisce da quella di una semplice FMEA solo nella parte di analisi delle criticità (ovvero nei riquadri a linee tratteggiate che ora devono essere tenuti in conto). Nelle tabelle 7.11 e 7.12 sono riportati due esempi di fogli di analisi. Probabilità Tabella 7.10: Matrice di criticità. C Pm 5 Pm>0,2 4 0,1≤ Pm<0,2 3 0,01≤ Pm<0,1 2 0,001≤ Pm<0,01 1 0≤ Pm<0,001 Rischio alto Modo di guasto A Modo di guasto B Rischio basso I II III Severità IV Possibile causa ...... Modo di guasto ...... Funzione ...... ...... ...... ...... ...... ...... Numero di identificazione Modo di guasto Effetto locale Effetto finale Data………… Rilevamento del guasto Provvedimenti alternativi Commenti RPN D ….. O ….. S ….. ….. ….. ….. ….. ….. ….. ….. FMECA Coefficiente di criticità del componente ….. FMEA Causa di guasto λ ...... Funzione t ...... Designazione apparecchiatura ...... Nome del responsabile del progetto …………………………………………………………… β α Classe di severità Coefficiente di criticità del modo di guasto ...... Nome dell’analista ……………………………………………………………… Sintomo rilevato da ...... Componente ...... Misure preventive contro il guasto Tabella 7.11: Esempio di tabella per la raccolta dei dati dell’analisi FMECA con il metodo del coefficiente di criticità. Codice N° ……………… Effetto locale ...... Id ...... Effetto su output dell’unità Tecniche e metodi a supporto della fidatezza 73 Tabella 7.12: Esempio di tabella per la raccolta dei dati di una FMECA in cui si è deciso di utilizzare il parametro RPN. ….. ….. ….. 74 Quaderno n. 1 - GMEE Analisi dell’albero dei guasti (FTA) L’analisi dell’albero dei guasti7 è una metodologia impiegata nell’analisi dell’affidabilità e della sicurezza di un dispositivo che fornisce i migliori risultati se condotta sin dalle prime fasi della sua progettazione. Lo studio consente di valutare la probabilità che un evento critico si manifesti in modo da poter apporre le dovute modifiche al progetto al fine di ridurre i rischi ad esso connessi. La norma di riferimento per questa analisi è la CEI 56-31. L’albero dei guasti si presenta sotto forma di un diagramma che rappresenta la relazione tra l’evento oggetto di studio – guasto ovvero non conformità – e le cause che potrebbero averlo determinato. Le informazioni che si traggono da una tale analisi consento di identificare: o i fattori che influenzano l’ affidabilità e le prestazioni del sistema, per es. modi di guasto dei componenti, errori dell’operatore, condizioni ambientali, etc; o i requisiti fra loro incompatibili; o la presenza di specifiche di progetto che comportino una diminuzione delle prestazioni; o la presenza di eventi comuni ovvero che influenzano più componenti e che possono, in conseguenza di ciò, annullare i benefici legati alla ridondanza. L’analisi dell’albero dei guasti è una tecnica che viene largamente utilizzata anche in presenza di sistemi che coinvolgono differenti competenze: centrali nucleari, aeroplani, sistemi di comunicazione, nei processi dell’industria chimica etc. L’analisi viene condotta secondo le seguenti fasi: Fase 1: Costruzione dell’albero logico dei guasti. Si definisce l’evento critico finale e si procede con la ricerca delle cause che possono determinarlo, risalendo fino agli eventi primari8 secondo una tipica tecnica top-down. Fase 2: Valutazione probabilistica dell’albero dei guasti. La probabilità di accadimento dell’evento finale viene opportunamente stimata associando una probabilità ad ogni evento primario e combinando le varie probabilità secondo le relazioni evidenziate dall’albero, per mezzo del calcolo delle probabilità. In tal modo, per ogni evento finale si determinano le catene di eventi primari in grado di provocarlo individuando quale fra queste ha la maggior probabilità di verificarsi. Sulla scorta di quanto dedotto dall’albero dei guasti si individuano le modifiche progettuali necessarie a migliorare l’affidabilità del prodotto. Va da se che una tale analisi consente un confronto fra diverse alternative progettuali almeno dal punto di vista dell’affidabilità. Costruire un albero dei guasti non è, tuttavia, impresa di poco conto. È, infatti, richiesta un’analisi approfondita del sistema, considerando anche il fatto che la metodologia presenta alcune limitazioni che citiamo di seguito: 1. L’analisi dell’albero dei guasti si basa sull’ipotesi di guasti statisticamente indipendenti e casuali e non è in grado di trattare eventi statisticamente dipendenti non essendo presente un meccanismo per la descrizione delle relazioni condizionali. 7 8 FTA è l’acronimo di Fault Tree Analysis. Talvolta si usa dire, con immutato significato, causa primarie, cause prime o eventi primari. Tecniche e metodi a supporto della fidatezza 75 2. Il tasso di guasto dei componenti viene generalmente considerato costante. 3. Generalmente, l’analisi dell’albero dei guasti non si presta bene a rappresentare guasti causati da sequenze di eventi. Questo è il caso di guasti che possono esseri indotti dalla particolare sequenza con cui alcuni eventi si verificano. 4. L’albero dei guasti non costituisce un modello di tutti i possibili modi di guasto essendo incentrato sul top event che corrisponde ad un particolare modo di guasto includendo, pertanto, solo quegli eventi che contribuiscono all’instaurarsi dello stesso. 5. L’albero dei guasti è un modello meramente qualitativo nell’ambito del quale può essere utile, ed è possibile, effettuare un’analisi quantitativa. Per un approfondimento sulle limitazioni di questo e di altri metodi di analisi si può fare riferimento alla Tab. 2 della norma CEI 56-10. Per effettuare un’analisi dell’albero dei guasti è necessario stabilire innanzitutto la struttura del sistema, quali sono gli eventi da considerare e l’approccio da seguirsi. Il sistema in esame dovrebbe essere descritto mediante: o un resoconto ove si evincano gli obiettivi del progetto; o la definizione dei limiti del sistema: tali limiti possono essere elettrici, meccanici o le interfacce; o la definizione della struttura fisica del sistema; o l’identificazione delle operazioni e delle prestazioni previste; o la definizione delle condizioni ambientali. Successivamente vengono definiti gli eventi da prendere in considerazione. Devono essere considerati tutti gli eventi compresi quelli derivanti dalle cause ambientali, dagli errori umani e dal software. Un evento dopo essere stato considerato può essere scartato se non applicabile; in tal caso si deve dare ampia documentazione alle motivazioni che hanno portato ad una tale decisione. L’albero dei guasti origina dal cosiddetto evento finale o top event, che rappresenta per esempio una condizione di pericolo o il mancato raggiungimento di determinate prestazioni e, per mezzo di opportuni legami logici, sono individuate e rappresentate graficamente le cause che portano a tale evento. Graficamente l’albero è costituito da un insieme di blocchi logici le cui funzioni possono essere svariate (in Tabella 7.13 sono riportati i significati di alcuni simboli; per la lista completa si veda la norma CEI 56-31). Il top event è sempre l’uscita di una porta logica (gate) i cui ingressi, gli eventi di ingresso, sono le possibili cause e condizioni che possono far ricorrere il top event. A loro volta gli ingressi possono essere visti come eventi di uscita di gate a più basso livello. L’albero dei guasti termina quando si ha a che fare con eventi che non necessitano di essere ulteriormente sviluppati, o che sono sviluppati in un altro albero dei guasti o che sono, per loro natura, non ulteriormente sviluppabili (detti anche eventi primari). Due concetti sono assai utili nell’attività di costruzione di un albero dei guasti: Causa diretta Sono le cause dirette necessarie e sufficienti affinché si verifichi l’evento finale. Queste cause sono successivamente considerate come ulteriori eventi finali per lo sviluppo della rimanente parte dell’albero. Unità elementari (o di base) Sono le unità logiche dell’albero dei guasti il cui ulteriore sviluppo non fornirebbe informazioni utili; un’unità elementare può essere costituita dal componente singolo. 76 Quaderno n. 1 - GMEE L’analisi dell’albero dei guasti La valutazione di un albero di guasti consente l’identificazione degli eventi che possono direttamente causare un guasto del sistema e la probabilità di tale evento, la valutazione della capacità di fault tolerance del sistema, l’individuazione di eventuali componenti critici e dei meccanismi di guasto e, infine, aiuta a definire le strategie di manutenzione da adottarsi. Onde ottenere le preziose informazioni appena dette, si deve ricorrere ad una approfondita analisi logica dell’albero. In Figura 7.9 è raffigurato un semplice albero dei guasti in cui l’evento finale è dato dalla seguente relazione logica: A = B ⋅ C = B ⋅ (D + E ) (7.29) ovvero: A = B⋅D + B⋅E (7.30) Da questa relazione si evince che l’evento finale si verifica quando si verificano contemporaneamente i due eventi B e D oppure, sempre contemporaneamente, i due eventi B ed E9. Ciò non significa che i due eventi debbano verificarsi nello stesso istante, ma che ad un certo istante i due eventi sono contemporaneamente validi. Per esempio, l’evento B può verificarsi parecchio tempo prima dell’evento D: questa situazione di per se non porta all’evento finale. Se quando si verifica l’evento D l’evento B è ancora in essere, ecco che si ha l’evento finale. Figura 7.9: Un semplice albero dei guasti. Dall’esempio appena fatto, ancorché semplice, si evince una importante caratteristica della FTA. La FTA consente di identificare le cause e le condizioni (ingressi dell’albero) affinché si verifichi l’evento finale (uscita dell’albero). Ma, come notato nell’esempio, una volta noto tale legame nessuna deduzione circa le relazioni temporale fra eventi è possibile. In un albero dei guasti è possibile rappresentare anche le cause comuni. Nel seguente esempio, tratto dalla norma citata, la causa comune è l’evento B che, infatti, risulta in ingresso contemporaneamente a due gate (Figura 7.10). Ad ogni evento riportato sull’albero dei guasti è possibile associare la probabilità con cui si manifesta. La probabilità con cui una causa di un modo di guasto si manifesta è solitamente determinata con analisi ingegneristiche e può essere utilizzata nella valutazione dell’indisponibilità complessiva del sistema. La stima di quanto una causa di guasto impatta sull’indisponibilità finale indirizza l’analisi su un ramo dell’albero piuttosto che su un altro. 9 B ⋅ D e B ⋅ E sono talvolta detti mintermini. Tecniche e metodi a supporto della fidatezza 77 Tabella 7.13: Simboli utilizzati nella predisposizione dell’albero dei guasti (estratto CEI 56-31) . Simbolo Simbolo Funzione Descrizione preferibile alternativo & AND Evento che occorre solo se tutti gli eventi di ingresso occorrono OR Evento che occorre quando almeno uno degli eventi di ingresso occorra OR esclusivo L’evento occorre solo se uno degli eventi di ingresso ricorra singolarmente. NOT L’evento di uscita rappresenta una condizione che è l’inverso della condizione descritta dall’evento di ingresso Evento di base Evento analizzato altrove Trasferimento (uscita) Evento che non può essere ulteriormente suddiviso Evento che è ulteriormente sviluppato in un altro albero dei guasti Evento replicato – utilizzato altrove Figura 7.10: Albero dei guasti con un evento di causa comune (B) che è ulteriormente analizzato in un secondo albero dei guasti. 78 Quaderno n. 1 - GMEE 7. 3 Metodologia del Design Of Experiments Possiamo considerare un sistema, sia esso un componente o un dispositivo più complesso, come il risultato di un processo di produzione. Il processo è a sua volta definito (UNI EN ISO 9000:2000) come un insieme di attività tra loro correlate che trasformano gli elementi in ingresso nel prodotto in uscita. In termini generali, gli elementi in ingresso possono essere le materie prime, la tecnologia, le risorse sia umane, sia finanziarie che infrastrutturali, etc. Fissate le caratteristiche del sistema (che chiameremo in termini generali prodotto) che si desidera ottenere, caratteristiche misurabili e normalmente espresse attraverso un valore nominale ed una tolleranza, il processo, se ben progettato e attuato, dovrebbe essere in grado di soddisfare ciò che è stato specificato in termini di caratteristiche. Diremo che il prodotto è conforme se, una volta misurate le sue caratteristiche, esse soddisfano le specifiche, cioè rientrano nei limiti di tolleranza prestabiliti. In caso contrario diremo che il sistema non è conforme. Appare quindi evidente l’importanza di definire, per il prodotto, sia un valore nominale ma anche, e soprattutto, una tolleranza. Ciò è dovuto al fatto che la variabilità degli elementi di ingresso al processo produttivo, sommata alla variabilità che inevitabilmente si genera durante le fasi del processo stesso, genera una variabilità delle caratteristiche del prodotto che si ottiene in uscita. Il Controllo Statistico di Processo (SPC – Statistical Process Control) ha, tra le sue finalità, anche quella di studiare ed interpretare le cause di variabilità. In termini generali esse posso essere classificate in cause di variabilità sistematiche e cause di variabilità aleatorie. Le prime sono dovute a situazioni spesso ricorrenti nel tempo e come tali di relativa facile individuazione e compensazione. Ne è un esempio la regolazione di un macchinario, la non corretta taratura della strumentazione di misura, l’interruzione improvvisa dell’alimentazione di impianto. L’altra sorgente di variabilità, dovuta a cause aleatorie o inerenti il processo, è dovuta a molteplici fattori anche di piccola entità singolarmente presi che, tuttavia, generano un effetto cumulativo. Ne sono esempio le condizioni di lavoro, le condizioni climatiche, la variabilità delle materie prime e degli operatori, etc. Nell’ambito del SPC le carte di controllo rappresentano sicuramente una metodologia statistica universalmente riconosciuta per l’analisi della variabilità di processo. L’analisi di capacità di processo e la definizione dei relativi indici (indici di capacità) consente, invece, di valutare la qualità di un processo di produzione in riferimento alla percentuale dei prodotti conformi che esso è in grado di fornire in uscita. Quest’ultima tecnica consente di ottenere, in pratica, una misura di conformità. Tuttavia, attraverso l’uso delle metodologie citate, difficilmente si riesce a correlare e quantificare la variabilità in funzione delle cause che l’anno generata. Non si hanno, in pratica, risposte in merito a determinati aspetti tra cui: livelli delle variabili che interessano il processo (es. quale valore ottimale di temperatura durante una fase del processo produttivo?, quale livello ottimale di sollecitazione da applicare nel corso di una prova di affidabilità?), materiale migliore da utilizzare durante un processo, interazioni tra variabili di processo, influenza della variazione della tolleranza delle materie prime sulla conformità (più in generale qualità) del prodotto in uscita. Per dare una risposta ai quesiti precedenti si può ricorrere a metodologie statistiche anche più sofisticate delle precedenti tra cui l’Analisi della Varianza (ANOVA – Analysis Of Variance), la Progettazione degli Esperimenti (DOE - Design Of Experiments), la Progettazione Robusta (Robust Design), le tecniche di Taguchi. Alcune di queste (essenzialmente ANOVA e DOE) consentono di effettuare analisi accurate sulle sorgen- Tecniche e metodi a supporto della fidatezza 79 ti di variabilità al fine di una loro eventuale compensazione, altre (Progettazione Robusta e metodi di Taguchi) di rendere sufficientemente insensibili le caratteristiche di prodotto nei confronti delle sorgenti di variabilità. Indipendentemente dalla specifica metodologia, la loro applicazione consente di ottenere miglioramenti sia nell’ambito della progettazione che dei processi di produzione, livelli qualitativi più elevati, incremento di efficienze ed efficacia, migliori prestazioni anche di affidabilità. In particolare il DOE si pone come obiettivo quello di individuare le variabili “chiave” che hanno maggior impatto sulla qualità del prodotto. Avvalendosi di specifici e sofisticati modelli statistico-matematico, definisce le modalità di risposta di un prodotto o di un processo in condizione di sollecitazione di molti fattori, o variabili, allo scopo di ridurre la variabilità delle caratteristiche del prodotto stesso in condizioni d’uso normali e in presenza di eventuali disturbi esterni del sistema. La metodologia di lavoro può essere resa relativamente più semplice utilizzando diagrammi causa-effetto e metodi dell’elencazione delle cause per l’individuazione delle probabili sorgenti di variabilità, nonché ricorrendo ad ulteriori analisi statistiche per l’individuazione delle cause più importanti e dell’effetto che le loro interazioni hanno sulle caratteristiche di prodotto. Il DOE si avvale di piani sperimentali in cui si individuano i fattori (specifiche caratteristiche delle condizioni sperimentali) con i relativi livelli (valori distinti che possono essere assunti da ciascun fattore). L’applicazione del piano sperimentale costituisce, in pratica, una prova, cioè una serie di operazioni eseguite, per un determinato trattamento, con lo scopo di quantificare e classificare una caratteristica di qualità di prodotto o di processo. Il risultato della grandezza rilevata sperimentalmente al termine della prova, corrispondente ad un determinato trattamento, è chiamato risposta. L’effetto di un fattore è, invece, l’entità della variazione della risposta conseguente al cambiamento di livello dei fattori; si hanno effetti principali ed effetti secondari o interazioni. Le fasi di implementazione del DOE possono, in linea di massima, sintetizzarsi come segue: a) Brainstorming - Si devono fissare gli obiettivi in grado di fornire vantaggi tangibili e misurabili, tenuto anche conto di esigenze e priorità di natura economica. Vengono definite le variabili o fattori (A,B,C, …) ed i relativi livelli (A1, A2, …; B1, B2, …) oggetto della sperimentazione; si ipotizzano le eventuali interazioni e si specifica cosa si vuole minimizzare, massimizzare o mantenere costante. In altri termini, si definisce l’oggetto della sperimentazione e quali informazioni si vogliono ricavare dagli esperimenti. b) Scelta dell’output – L’output (risposta) è quella grandezza misurabile il cui valore (che deve essere ottimizzato) è influenzato dal cambiamento di livello dei fattori. Obiettivo dell’esperimento è l’ottimizzazione della risposta, cioè massimizzare o minimizzare la funzione risposta, oppure determinare un intervallo di valori entro cui la risposta deve cadere. c) Scelta dello schema di sperimentazione – Si definisce la pianificazione degli esperimenti utilizzando, spesso, schemi precostituiti (array ortogonali) in funzione del numero dei fattori e dei relativi livelli. Nel caso esista una dipendenza lineare tra i fattori che hanno influenza sulle caratteristiche di prodotto/processo, è in uso sperimentare due livelli (esempio valore minimo e valore massimo del fattore); in caso contrario è opportuno sperimentare più livelli per ogni fattore. 80 Quaderno n. 1 - GMEE I piani, o schemi, di sperimentazione si riconducono, nelle situazioni più ricorrenti, a due tipologie: piani fattoriali completi in cui, fissati i fattori ed i livelli, vengono sperimentate tutte le possibili combinazioni dei livelli dei fattori; la seconda tipologia riguarda i piani fattoriali frazionati in cui, fissati sempre i fattori con i relativi livelli, il piano sperimentale è costituito da un sottoinsieme di prove, opportunamente scelto. Evidentemente il livello di frazionamento dipende dalla quantità di informazione che si è disposti a perdere (es. perdita di informazione sull’interazione di tre fattori). d) Esecuzione degli esperimenti – Attraverso le prove viene implementato lo schema di sperimentazione precedentemente definito misurando, per ciascun trattamento, il risultato che si ottiene sulla risposta. e) Analisi dei risultati – Mediante l’analisi della varianza (ANOVA) ed altre metodologie statistiche si determinano i pesi degli effetti, statisticamente significativi, che ciascun fattore ha sulle caratteristiche di qualità di prodotto/processo. Possono seguire, a questa fase, l’applicazione di modelli statistici di ottimizzazione (modelli di regressione, etc.) ed ulteriori speri- Figura 7.11: Piano fattoriale in cui la risposta Y45 è funzione dei mentazioni di conferma. livelli A1, B2, C2, D1, E2, F1, G1. In Figura 7.11 si riporta, a A1 A2 titolo esemplificativo, un 7 fattori esempio di array ortogo- 2 livelli per fattore B1 B2 B1 B2 nale relativo ad uno 128 esperimenti C1 C2 C1 C2 C1 C2 C1 C2 schema di sperimentazione in cui sono stati indiG1 viduati 7 fattori (A, …, F) F1 per ciascuno dei quali si G2 prendono in consideraE1 G1 zione 2 livelli. Nel caso F2 in cui si decida di effetG2 tuate un piano fattoriale D1 completo occorre impleG1 Y45 mentare e misurare la riF1 sposta in riferimento a G2 E2 128 esperimenti. G1 F2 G2 G1 F1 G2 E1 G1 F2 G2 D2 G1 F1 G2 E2 G1 F2 G2 2-04-2008 9:32 Pagina 1 L’argomento oggetto di questo quaderno prende in considerazione un requisito cardine per la moderna progettazione di componenti e sistemi. L’affidabilità e, più in generale, la “Dependability” stanno assumendo, infatti, un ruolo sempre più determinante in molti settori soprattutto nei casi in cui occorre assicurare elevate prestazioni funzionali e di sicurezza. In questo contesto gli Autori hanno voluto realizzare un quaderno applicativo rivolto sia ai tecnici sia ai progettisti nonché a coloro che all’interno dell’azienda curano le diverse fasi del ciclo di vita di un prodotto. Obiettivo primario è fornire una corretta interpretazione della terminologia, in riferimento anche alla normativa vigente, e trattare gli elementi di base dell’affidabilità e della disponibilità. Successivamente si presentano e si commentano le più importanti e consolidate tecniche di “Dependability”. Infine, nell’ottica di fornire un pratico “strumento” di lavoro, il quaderno riporta per i diversi argomenti trattati una serie di esempi applicativi. Autori Marcantonio Catelani è Professore Ordinario di Affidabilità e controllo qualità presso la Facoltà di Ingegneria di Firenze. La sua attività di ricerca si svolge prevalentemente nei settori dell’affidabilità, della diagnostica e qualificazione di componenti e sistemi, del controllo della qualità e del miglioramento dei processi. Fa parte del CT 56 - “Affidabilità” del CEI ed è coordinatore di gruppi di ricerca, anche applicata, sulle tematiche citate. E-mail: [email protected] Loredana Cristaldi è Professore Associato di Misure Elettriche ed Elettroniche presso il Dipartimento di Elettrotecnica del Politecnico di Milano. La sua attività di ricerca è svolta principalmente nei campi delle misure di grandezze elettriche in regine distorto e dei metodi di misura per l’affidabilità, il monitoraggio e la diagnosi di sistemi industriali. E-mail: [email protected] Massimo Lazzaroni è Professore Associato di Misure Elettriche ed Elettroniche presso il Dipartimento di Tecnologie dell’Informazione della Università degli Studi di Milano. La sua attività di ricerca è rivolta alle misure per le applicazioni industriali, per la diagnostica dei sistemi industriali, per l’Affidabilità e il Controllo della Qualità. Fa parte del CT 85 - “Strumenti di misura delle grandezze elettromagnetiche” del CEI. E-mail: [email protected] Lorenzo Peretto è Professore Associato di Affidabilità e Controllo di Qualità presso il Dipartimento di Ingegneria Elettrica dell’Università di Bologna. La sua attività di ricerca riguarda lo studio e la previsione dell’affidabilità di sistemi complessi, lo sviluppo di modelli di fenomeni di degradazione di dispositivi elettronici, il progetto e lo sviluppo di strumentazione innovativa per la misura della qualità dell’energia elettrica. Fa parte del CT 56 - “Affidabilità” del CEI. E-mail: [email protected] Paola Rinaldi è ricercatore confermato nel raggruppamento ING/INF 07 (Misure Elettriche ed Elettroniche) presso il Dipartimento di Elettronica Informatica e Sistemistica dell’Università di Bologna. La sua attività di ricerca è svolta principalmente nel campo della Affidabilità e del Controllo della Qualità. E-mail: [email protected] € 12,00 ASSOCIAZIONE ITALIANA “GRUPPO MISURE ELETTRICHE ED ELETTRONICHE” cop 34x24 nuova I QUADERNI DEL GMEE N° 1 E G E M L’affidabilità nella moderna progettazione: un elemento competitivo che collega sicurezza e certificazione Unità del GMEE di: Bologna, Firenze, Milano Politecnico, Milano Statale - Crema
© Copyright 2025 Paperzz