Enhancing single image super-resolution via deep learning: stability, perceptual quality, and multi- scale modeling

Momenzadeh, Alireza

The goal of Single Image Super-Resolution (SISR) is to reconstruct a high-resolution (HR) image from a single low-resolution (LR) observation. This task is ill-posed: the formation of LR image removes high-frequency information, so multiple distinct HR images can map to the same LR input. In medical imaging, this ambiguity becomes severe because hallucinated structures or reconstruction artifacts can mislead diagnosis. Generative models such as Generative adversarial Networks (GANs) and Diffusion Models (DMs) can produce visually sharp super-resolved images, however, they typically introduce non-deterministic textures, artifacts, or hallucinations. In addition, GAN training is very unstable and sensitive to hyperparameters, and DMs require many iterative denoising steps that makes the inference computationally expensive. Motivated by these constraints, this thesis investigates how to bridge the perceptualquality gap between regression-based Super-Resolution (SR) and generative methods, while preserving the stability, determinism, and artifact-awareness that are needed in medical applications. The main idea is that regression-based models can be improved by (i) architectural designs that enhance representation learning, (ii) a constructed set of perceptual and structural losses that target texture, edges, and frequency content, and (iii) stabilization of convolutional layers that are inspired by weight scaling techniques. The proposed contributions are threefold: First, we develop Twinned Residual Auto-Encoder architecture (TRAE) for denoising SR, including a multi-resolution extension that produces consistent reconstructions over multiple upscaling factors: Multi-Resolution Twinned Residual Auto-Encoder architecture (MR-TRAE). Second, we introduce a perceptual SR model based on Convolutional Neural Network (CNN) backbones that is trained without GANs’ adversarial losses but equipped with a set of losses. We combine a robust Charbonnier content loss with feature-based perceptual loss, gradient/edge preservation, frequency-domain alignment using masked Fourier magnitudes, and Gram-matrix style/texture matching. Third, to mimic realistic clinical degradation, we use a stochastic LR synthesis model that includes probabilistic blur (Gaussian kernels with varying variance and kernel size), diverse resampling operators, and additive Gaussian noise, to reduce sensitivity to idealized bicubic assumptions and improving robustness. Our experiments on medical Computed Tomography (CT) imagery (including COVIDx CT-2A) show that the proposed regression-based models improve perceptual fidelity and structural consistency while maintaining stable training. Quantitative comparisons with representative baselines such as EDSR and SRGAN models confirm competitive reconstruction quality, with strong structural similarity behavior that is aligned with the avoidance of artifact required by medical imaging.

L’obiettivo della Single Image Super-Resolution (SISR) è ricostruire un’immagine ad alta risoluzione (HR) a partire da una singola osservazione a bassa risoluzione (LR). Questo compito è mal posto: il processo di formazione dell’immagine LR rimuove informazioni ad alta frequenza, pertanto immagini HR diverse possono corrispondere allo stesso input LR. Nell’imaging medico, tale ambiguità diventa particolarmente critica, poiché strutture allucinate o artefatti di ricostruzione possono indurre in errore la diagnosi. I modelli generativi, quali le Generative Adversarial Networks (GAN) e i Diffusion Models (DM), possono produrre immagini super-risolte visivamente nitide; tuttavia, essi introducono tipicamente texture non deterministiche, artefatti o allucinazioni. Inoltre, l’addestramento delle GAN è estremamente instabile e sensibile agli iperparametri, mentre i DM richiedono numerosi passaggi iterativi di denoising, rendendo l’inferenza computazionalmente onerosa. Alla luce di questi limiti, questa tesi studia come colmare il divario di qualità percettiva tra la Super-Resolution (SR) basata su regressione e i metodi generativi, preservando al contempo la stabilità, il determinismo e la consapevolezza degli artefatti richiesti nelle applicazioni mediche. L’idea principale è che i modelli basati su regressione possano essere migliorati mediante: (i) progettazioni architetturali in grado di potenziare l’apprendimento delle rappresentazioni; (ii) un insieme costruito di funzioni di perdita percettive e strutturali mirate a texture, bordi e contenuto in frequenza; e (iii) la stabilizzazione degli strati convoluzionali ispirata a tecniche di weight scaling. I contributi proposti sono tre. In primo luogo, sviluppiamo l’architettura Twinned Residual Auto-Encoder (TRAE) per la SR con denoising, includendo un’estensione multi-risoluzione che produce ricostruzioni coerenti su diversi fattori di upscaling: la Multi-Resolution Twinned Residual Auto-Encoder architecture (MR-TRAE). In secondo luogo, introduciamo un modello di SR percettiva basato su backbone di Convolutional Neural Network (CNN), addestrato senza le perdite avversarie tipiche delle GAN, ma dotato di un insieme articolato di funzioni di perdita. Combiniamo una robusta perdita di contenuto di tipo Charbonnier con una perdita percettiva basata su feature, la preservazione di gradienti e bordi, l’allineamento nel dominio delle frequenze mediante magnitudini di Fourier mascherate e il matching di stile/texture tramite matrici di Gram. In terzo luogo, per simulare degradazioni cliniche realistiche, utilizziamo un modello stocastico di sintesi LR che include blur probabilistico, basato su kernel gaussiani con varianza e dimensione variabili, diversi operatori di ricampionamento e rumore gaussiano additivo, al fine di ridurre la sensibilità alle assunzioni idealizzate del bicubico e migliorare la robustezza. I nostri esperimenti su immagini mediche di tomografia computerizzata (Computed Tomography, CT), incluso il dataset COVIDx CT-2A, mostrano che i modelli proposti basati su regressione migliorano la fedeltà percettiva e la coerenza strutturale, mantenendo al contempo un addestramento stabile. I confronti quantitativi con baseline rappresentative, quali i modelli EDSR e SRGAN, confermano una qualità di ricostruzione competitiva, con un forte comportamento in termini di similarità strutturale, coerente con l’esigenza di evitare artefatti nell’imaging medico.

Enhancing single image super-resolution via deep learning: stability, perceptual quality, and multi- scale modeling / Momenzadeh, A.. - (2026 Jun 04).