Enhancing Fault Tolerance in High-Performance Computing: A Real Hardware Case Study on a RISC-V Vector Processing Unit

Barbirotta, M.; Minervini, F.; Morales, C. R.; Cristal, A.; Unsal, O.; Olivieri, M.

doi:10.1109/OJCS.2024.3468895

High-Performance Computing (HPC) systems are designed for large-scale processing and complex dataset analysis leveraging scalability, efficiency, and parallelism, often integrating specialized hardware structures such as Vector Processing Units (VPUs). As these systems have grown in complexity and scale, their vulnerability to errors and failures has become an important and complex issue in the HPC world. Our research addresses this challenge by exploring and implementing advanced fault tolerance techniques inside the Vitruvius+ architecture, a partial out-of-order Vector Processing Unit. To the best of our knowledge, this is the first full RTL-level implementation of instruction replication in an HPC-class vector processor for reliability. Specifically, we investigate the integration and interaction of redundancy mechanisms inside the most sensitive architectural units, obtaining a reduction of 75% in non-silent faults causing system failure, proven by an extensive fault injection simulation campaign, with a hardware overhead of only 7.5% and a negligible variation in clock frequency.

Enhancing Fault Tolerance in High-Performance Computing: A Real Hardware Case Study on a RISC-V Vector Processing Unit / Barbirotta, M.; Minervini, F.; Morales, C. R.; Cristal, A.; Unsal, O.; Olivieri, M.. - In: IEEE OPEN JOURNAL OF THE COMPUTER SOCIETY. - ISSN 2644-1268. - 5:(2024), pp. 553-565. [10.1109/OJCS.2024.3468895]

Enhancing Fault Tolerance in High-Performance Computing: A Real Hardware Case Study on a RISC-V Vector Processing Unit

Barbirotta M.^{Writing – Original Draft Preparation};Minervini F.;Morales C. R.;Cristal A.;Unsal O.;Olivieri M.

2024

Abstract

High-Performance Computing (HPC) systems are designed for large-scale processing and complex dataset analysis leveraging scalability, efficiency, and parallelism, often integrating specialized hardware structures such as Vector Processing Units (VPUs). As these systems have grown in complexity and scale, their vulnerability to errors and failures has become an important and complex issue in the HPC world. Our research addresses this challenge by exploring and implementing advanced fault tolerance techniques inside the Vitruvius+ architecture, a partial out-of-order Vector Processing Unit. To the best of our knowledge, this is the first full RTL-level implementation of instruction replication in an HPC-class vector processor for reliability. Specifically, we investigate the integration and interaction of redundancy mechanisms inside the most sensitive architectural units, obtaining a reduction of 75% in non-silent faults causing system failure, proven by an extensive fault injection simulation campaign, with a hardware overhead of only 7.5% and a negligible variation in clock frequency.

Scheda breve

Scheda completa

	Anno di pubblicazione
	
				2024
			
	Parole chiave
	
				Vectors; Hardware; Redundancy; Registers; Vector processors; Checkpointing; Software; Fault injection; fault tolerance; high-performance computing; RISC-V; vector processing unit
			
	Tipologia
	
				01 Pubblicazione su rivista::01a Articolo in rivista
			
	Citazione
	
				Enhancing Fault Tolerance in High-Performance Computing: A Real Hardware Case Study on a RISC-V Vector Processing Unit / Barbirotta, M.; Minervini, F.; Morales, C. R.; Cristal, A.; Unsal, O.; Olivieri, M.. - In: IEEE OPEN JOURNAL OF THE COMPUTER SOCIETY. - ISSN 2644-1268. - 5:(2024), pp. 553-565. [10.1109/OJCS.2024.3468895]
			
	Appartiene alla tipologia:
	
				01a Articolo in rivista

File allegati a questo prodotto

File	Dimensione	Formato
Barbirotta_Enhancing Fault Tolerance_2024.pdf accesso aperto Tipologia: Versione editoriale (versione pubblicata con il layout dell'editore) Licenza: Creative commons Dimensione 2.23 MB Formato Adobe PDF	2.23 MB	Adobe PDF

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11573/1739882

Citazioni

ND

4

2

Catalogo dei prodotti della ricerca