Microsoft: due nuove tecniche per usare l'intelligenza artificiale per migliorare e restaurare le foto

Microsoft: due nuove tecniche per usare l'intelligenza artificiale per migliorare e restaurare le foto

di Roberto Colombo, pubblicata il

“Da un lato una nuova metodologia permette di creare immagini ad alta risoluzione partendo da immagini di bassa qualità, dall'altro un nuovo approccio permette il restauro automatizzato di vecchie fotografie rovinate”

Sono ben due le ricerche presentate dai ricercatori Microsoft durante l'evento CVPR 2020 (Computer Vision and Pattern Recognition) che promettono di sfruttare l'intelligenza artificiale per migliorare la qualità delle foto. Nel primo caso i ricercatori sono partiti dall'elevatissimo numero di fotografie digitali (e quindi di dati) disponibili e dal fatto che spesso però si tratta di fotografie di scarsa qualità, magari in arrivo da piccoli sensori di smartphone o cellulari e non da fotocamere professionali.

Le tecniche super-resolution (SR) puntano a recuperare dettagli e texture e a creare un'immagine ad alta risoluzione a partire da un'immagine degradata o a bassa risoluzione. L'approccio generale per questo tipo di problema è quello dell'utilizzo di reti neurali convoluzionali profonde con ricostruzione a livello di pixel, ma il risultato è spesso sfocato e privo di dettaglio, soprattutto in presenza di trame complesse.

La tecnica reference-based image super-resolution (RefSR) sfrutta immagini ad alta risoluzione come riferimento, trasformando così il complicato processo di generazione delle trame in una più semplice operazione di ricerca e trasferimento. La ricerca degli esperti Microsoft si concentra proprio su questo processo e la loro proposta è una nuova tecnica denominata Texture Transformer Network for Image Super-Resolution (TTSR).

La funzione Transformer viene utilizzata molto spesso quando si ha a che fare con il linguaggio, dove ha dimostrato di essere decisamente efficace, ma raramente è stata applicata alle immagini. Il trasformatore consta di quattro moduli per l'individuazione delle corrette texture, il trasferimento e l'applicazione locale. Per sfruttare al meglio la funzione trasformatore spesso viene sfruttato lo stacking di più immagini per la generazione dell'immagine finale, ma anche qui i ricercatori hanno affinato la tecnica passando da un semplice impilamento a uno stacking cross-scale con tre differenti funzioni obiettivo: Reconstruction loss, Adversarial loss e Perceptual loss.

Il metodo è stato messo a confronto con altre metodologie e i risultati sembrano incoraggianti. In un sondaggio i risultati del metodo TTSR sono secondo gli utenti migliori di metodologie alternative nel 90% dei casi. Tutti i dettagli tecnici della tecnica sono disponibili a questo indirizzo, mentre su Github è possibile trovare modelli preallenati e il codice sorgente. Potrebbe sembrare un processo molto complesso, e in effetti lo è, ma dobbiamo considerare il fatto che, ad esempio, sempre più SoC per smartphone integrano chip dedicati all'intelligenza artificiale e che tali tecniche vengono già utilizzate per migliorare le foto riprese in modalità superzoom digitale.

L'altro lavoro dei ricercatori presentato a CVPR 2020 interessa invece il restauro di vecchie fotografie. Oggigiorno questo lavoro viene fatto in gran parte a mano, vista la complessità introdotta dalla miriade di difetti e danni introdotti da tempo e magari incuria. Si tratta però di un processo che richiede molto tempo ed è quindi costoso. I ricercatori volevano trovare una soluzione che fosse del tutto automatizzata e quindi accessibile a tutti.

L'idea non è certamente nuova, ma il problema dell'applicare tecniche di deep learning a questo tipo di compito si scontra con diversi problemi. Non solo è molto varia la tipologia di danni, ma negli anni la fotografia analogica e la stampa si sono evolute e nel corso del tempo è cambiato anche il tipo di artefatti dovuti ai danni del tempo. La tecnica introdotta dai ricercatori affronta il restaturo di una foto come un problema di traduzione tra tre dominii: la foto stessa, un dominio sintetico dove a immagini reali vengono applicate degradazioni artificiali e il terzo dominio che rappresenta l'immagine originale senza danni. Inoltre la tecnica mappa i possibili difetti separandoli in due grosse categorie, quelli non strutturati, come la grana, il mosso, lo scolorimento, affrontati con filtri spazialmente omogenei a livello di pixel analizzando localmente quelli adiacenti e dall'altro lato quelli invece strutturati, come graffi, macchie, pieghe, che invece vanno riempiti sulla base del contesto globale della fotografia. Anche in questo caso i risultati, in un sondaggio, sono risultati in modo significativo migliori di altri metodi. Tutti i dettagli tecnici sono disponibili nel paper del gruppo di ricerca, disponibile a questo indirizzo.


Commenti (1)

Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - Info
Per contattare l'autore del pezzo, così da avere una risposta rapida, si prega di utilizzare l'email personale (vedere in alto sotto il titolo). Non è detto che una domanda diretta inserita nei commenti venga verificata in tempi rapidi. In alternativa contattare la redazione a questo indirizzo email.
Commento # 1 di: +Benito+ pubblicato il 30 Giugno 2020, 09:03
Interessante. Storco un po' il naso nel momento in cui si mischiano il recupero di foto con parti mancanti, o il ridimensionamento di foto sgranate, al "miglioramento".
Sparare il contrasto, saturazione e vividezza sono un concetto soggettivo e a mio avviso sarebbe meglio che non entrassero nel concetto di recupero.