AI Days - Workshop · Maggio 2026
Come i sistemi AI imparano a vedere e capire il mondo
Pierluigi Zama Ramirez · Professore Associato, Università Ca' Foscari di Venezia
Dipartimento di Scienze Ambientali, Informatica e Statistica
Cosa vedi?
Prenditi 30 secondi. Pensa a tutto ciò che puoi dedurre da questa singola immagine.
© Netflix / Stranger Things — uso illustrativo a scopo didattico
Parte Prima
Il sistema visivo umano e la natura della percezione
Parte 1 — Come Vediamo
Tutto questo da una griglia 2D di punti colorati.
Parte 1 — Come Vediamo
L'analogia con la fotocamera ha i suoi limiti:
non catturiamo mai un singolo "frame".
Parte 1 — Come Vediamo
Parte 1 — Illusioni Ottiche
Entrambe le linee hanno esattamente la stessa lunghezza.
Le frecce attivano indizi di profondità appresi
vivendo in un mondo 3D.
— Illusione di Müller-Lyer, 1889
Parte 1 — Illusioni Ottiche
Vedi dei punti grigi che lampeggiano alle intersezioni?
Guardane uno direttamente — scompare.
I punti non ci sono. Il tuo sistema visivo li sta inventando dal pattern di contrasto.
— Griglia di Hermann, 1870
Parte 1 — Illusioni Ottiche
Una foto diventò virale. Alcune persone videro blu e nero. Altre videro bianco e oro. Stessa immagine. Stessi pixel.
Il tuo cervello stima l'illuminazione della scena e corregge i colori automaticamente. Assunzioni diverse → percezione diversa.
Quale vedi tu? Chiedi alla persona accanto.
Un'intuizione chiave
"La visione non è una registrazione passiva del mondo — è una costruzione attiva del cervello."
Parte Due
Dagli array di pixel alle reti neurali
Parte 2 — Come le Macchine Vedono
Camera
Una lente mette a fuoco la luce su un sensore d'immagine
luce
Image Sensor
Milioni di cellule fotosensibili (fotositi). Ognuna misura l'intensità della luce in un punto — producendo un numero per canale colore.
numeri
Pixel Grid
Ogni cella diventa un numero da 0 a 255. L'intera griglia di numeri è l'immagine.
Una fotocamera da 12 MP → griglia di 4000 × 3000 = 12 milioni di valori, ripetuti 3× per R, G, B → 36 milioni di numeri in totale.
Parte 2 — Come le Macchine Vedono
Canale Rosso
0–255
Canale Verde
0–255
Canale Blu
0–255
Combinati
= colore completo
Un'immagine è un array 3D: altezza × larghezza × 3 (R, G, B). Ogni operazione nel computer vision opera su questi numeri.
Parte 2 — Come le Macchine Vedono
Parte 2 — Come le Macchine Vedono
Un computer vede:
[58, 42, 36, 61, 45, 38, ...]
Un essere umano vede:
"Un gruppo di ragazzi, notte, energia nervosa."
Come colmiamo il divario tra
numeri grezzi e significato?
La Visione Artificiale (Computer Vision) è la risposta.
Input
[58,42,36,61,45,38,
72,56,44,68,52,40,
82,68,54,78,64,50...]
?
Significato
"Persone intorno a un tavolo,
stanza fiocamente illuminata,
tarda notte, anni '80"
Parte 2 — Come le Macchine Vedono
Anni '60–2000: i programmatori cercavano di
costruire manualmente le regole della visione.
Problema: le regole che funzionano in un contesto
falliscono completamente in un altro.
Il Punto di Svolta
2012
Il tasso di errore scese dal 26,2% al 15,3% in un solo anno.
I concorrenti con feature costruite manualmente: sopra il 26%. Una rete neurale, addestrata su GPU: 15%.
Questo momento segnò l'inizio dell'era del deep learning.
Parte 2 — Come le Macchine Vedono
Una rete neurale è una funzione matematica composta da molte operazioni semplici organizzate in layer.
Ogni operazione moltiplica un input per un weight (parametro) e aggiunge un bias. Milioni di queste piccole moltiplicazioni sovrapposte possono approssimare funzioni estremamente complesse.
Parameters / Weights
Le manopole della rete. Un modello di visione moderno ne ha da decine di milioni a miliardi. Sono l'unica cosa che cambia durante il training — l'architettura rimane fissa.
Parte 2 — Training e Inference
Binary classification: data un'immagine qualsiasi, il modello deve produrre una singola etichetta — cane o gatto.
Non esiste una regola scrivibile per questo. Non puoi elencare tutti i pattern di pixel che formano un gatto. Ma puoi mostrare migliaia di esempi — e lasciare che la rete lo scopra.
La stessa idea si scala a qualsiasi numero di categorie: immagini mediche, immagini satellitari, volti, veicoli — qualsiasi cosa si possa etichettare.
vs
Parte 2 — Training
Prima del training, abbiamo bisogno di una grande raccolta di immagini etichettate — ogni immagine abbinata alla risposta corretta.
Il modello vedrà migliaia — o milioni — di queste coppie. La qualità e la diversità del dataset determinano direttamente ciò che il modello può imparare.
Non vengono scritte regole. Tutta la conoscenza deriva dagli esempi.
Parte 2 — Training
Al modello viene mostrata un'immagine alla volta. Ogni volta che effettua una predizione, controlliamo — e aggiustiamo i weight per fare meglio la prossima volta.
Questo ciclo si ripete milioni di volte. Ogni round è una iterazione. Dopo ciascuna, i weight sono leggermente diversi — leggermente migliori.
Nessuno scrive le regole. Il modello le trova fallendo, venendo corretto e riprovando.
Immagine di training
L'immagine e la sua etichetta corretta entrano nella rete
La rete fa una predizione
Attualmente sbaglia la maggior parte delle volte
✗
Errore calcolato
Ha predetto "Cane" — l'etichetta dice "Gatto". Quanto ha sbagliato?
Weight aggiornati
Tutti i parametri spostati leggermente verso la risposta corretta — backpropagation
Ripeti con l'immagine successiva — milioni di volte
Parte 2 — Inference
Immagine di Input
Una foto — qualsiasi nuova immagine
che il modello non ha mai visto
Pixel → Numeri
Ogni pixel = 3 numeri (R, G, B)
Rete
🔒 Weight congelati
Nessun aggiornamento durante l'inference
Predizione
Cat
94%
Dog
6%
È un gatto ✓
Esegue in millisecondi · nessun weight modificato
Parte 2 — Come le Macchine Vedono
In pratica, una rete neurale addestrata viene salvata come esattamente due elementi.
L'architettura specifica la struttura — quanti layer, di che tipo, come connessi. Il file dei weight memorizza i miliardi di numeri appresi.
Per eseguire un modello hai bisogno di entrambi. L'architettura ti dice la forma; i weight ti dicono i valori.
ResNet-50: architettura = ~100 righe di codice · weight = file da 98 MB
GPT-4: file dei weight ≈ centinaia di GB
Architettura
Codice che definisce la struttura: layer, connessioni, operazioni. File piccolo.
Weights
File binario con tutti i parametri appresi. Può essere in gigabyte. Questa è la "conoscenza" del modello.
Parte 2 — Come le Macchine Vedono
I layer iniziali imparano pattern semplici.
I layer successivi li combinano in concetti complessi.
Layer 1 — Bordi e orientamenti
Layer 2 — Texture e angoli
Layer 3 — Parti di oggetti (occhi, ruote…)
Layer finali — Oggetti interi e scene
Parte 2 — Come le Macchine Vedono
Dopo aver elaborato attraverso tutti i suoi layer, una NN comprime l'immagine in un elenco compatto di numeri — in una rete di classificazione tipicamente 512 o 2048 valori.
Non si tratta dei pixel grezzi. È la rappresentazione interna del modello di ciò che ha visto — la sua "comprensione" dell'immagine.
Lo chiamiamo latent vector o embedding.
Questo concetto è il fondamento di tutto ciò che viene dopo.
[0.23, −0.87, 1.12, 0.04,
0.68, −0.31, 0.92, 0.15,
−0.44, 0.77, 0.06, −0.58,
… altri 508 valori …]
L'"impronta digitale" dell'immagine — un punto in uno spazio ad alta dimensionalità
Parte 2 — Come le Macchine Vedono
Ogni immagine diventa un punto in uno spazio ad alta dimensionalità. La geometria di quello spazio riflette il significato:
Questa struttura non è programmata — emerge dall'apprendimento.
Visualizzato con t-SNE o UMAP: strumenti che comprimono migliaia di dimensioni a 2D per essere visti dagli esseri umani.
Parte 2 — Dalla Rappresentazione ai Task
Image Classification
"Cosa c'è in questa immagine?" — un'etichetta per immagine.
Object Detection
Etichetta + bounding box per ogni oggetto.
Segmentation
Classificare ogni singolo pixel.
3D Reconstruction
Costruire strutture 3D da immagini 2D.
Object Tracking
Tracciare oggetti attraverso i frame.
···
E molto altro
Pose estimation, depth, generation, retrieval, anomaly detection…
Tutti i task condividono un'idea: imparare una buona rappresentazione una volta, poi aggiungere una testa specifica per il task.
Pratica
Cosa vede davvero il modello?
Attività 1 — Istruzioni
⏱ 10 minuti
Attività 1 — Discussione
Cosa ha funzionato bene?
Cosa ha fatto fallire il modello?
Non sono bug — rivelano come funziona davvero il modello.
Blocco 1 — Punti Chiave
Visione umana
La percezione è una costruzione attiva, non una registrazione. Il nostro cervello colma le lacune, fa assunzioni e viene facilmente ingannato.
Le immagini come dati
Per un computer, un'immagine è una matrice di numeri. Il significato semantico non è nei pixel — deve essere appreso.
Deep learning
Le NN imparano feature gerarchiche dai dati. Nessuno scrive le regole — i pattern emergono da milioni di esempi.
I limiti
I modelli addestrati su pixel sono fragili. Possono riconoscere pattern senza "capire" cosa significhino.
Pausa
Blocco 2
Come si passa da un modello che riconosce pixel a uno che collega immagini, linguaggio e significato?
Parte Tre
Apprendimento su larga scala — e perché cambia tutto
Parte 3 — Foundation Models
Un foundation model è addestrato su dati massivi e diversificati con l'obiettivo di imparare una rappresentazione general-purpose — non un task specifico.
Una volta addestrato, lo stesso modello può essere adattato ("fine-tuned") a molti downstream task con pochissimi dati aggiuntivi.
Pre-training
Miliardi di immagini / token
Obiettivo generale
Settimane su migliaia di GPU
Foundation Model
Rappresentazione general-purpose ricca del mondo
Task A
Task B
Task C
Parte 3 — Foundation Models
Supervised Learning
Ogni esempio di training ha un'etichetta umana.
Il modello impara a prevedere l'etichetta.
ImageNet: 14M immagini · 22.000 categorie · anni di annotazione umana
Self-Supervised Learning
Nessuna etichetta umana. Il modello crea il proprio segnale di supervisione dai dati stessi.
Internet: oltre 1 miliardo di immagini, quasi interamente non etichettate — supervisione gratuita
Parte 3 — Self-Supervised Learning
Dai al modello un puzzle da risolvere. Risolverlo richiede di capire l'immagine.
Puzzle Jigsaw
Mescola le patch. Il modello deve riordinarle — il che richiede di capire come appaiono oggetti e scene.
Colorization
Rimuovi il colore. Il modello deve prevedere l'originale — il che lo costringe a capire cosa sono gli oggetti: cielo, pelle, erba, pelliccia.
Masked Autoencoder
MAENascondi il 75% delle patch. Il modello deve ricostruire le parti mancanti — il che richiede di capire la struttura globale della scena.
Parte 3 — Dalla Visione al Linguaggio
I foundation model ci danno le migliori feature visive mai costruite. Cosa manca ancora?
Ma manca qualcosa…
Il pezzo mancante: il Linguaggio
Parte 3 — Dalla Visione al Linguaggio
Una descrizione della scena
"Quattro ragazzi giocano a un gioco di ruolo attorno a un tavolo in un seminterrato dalle pareti in legno. L'ambiente, illuminato dalla luce calda di una lampada vintage, è cosparso di dadi, mappe e schede, mentre il gruppo appare concentrato sulla narrazione tra cartoni della pizza, bibite e poster cinematografici."
Il linguaggio cattura la narrativa, le relazioni, il contesto e il significato — ma lascia il mondo visivo vago.
Un'immagine
Le immagini catturano ogni dettaglio visivo — ma nessun pixel ti dice che è il 1983, o chi siano queste persone l'una per l'altra.
Parte 3 — Dalla Visione al Linguaggio
Immagine
[58,42,36,61,45,38,...]
→ una griglia di numeri
Linguaggio
[the, cat, sat, on, the, mat]
→ una sequenza di token
Entrambe le modalità codificano il significato. Ma il linguaggio ha qualcosa che le immagini non hanno: struttura simbolica esplicita e composizionalità.
Parte 3 — Language Models
Le stesse idee che funzionano per le immagini si applicano al testo — con una differenza chiave: il testo è una sequenza di token discreti.
Stessa idea architetturale della visione (layer che estraggono feature sempre più astratte), ma operante su sequenze invece che su griglie.
Testo di input
"The cat sat on the mat"
Tokenizzazione
Token ID (numeri interi)
[464, 4263, 3332, 319, 262, 2603]
Rappresentazione latente
[0.42, −0.18, 0.91, 0.07, … 512 valori]
codifica: soggetto=gatto, azione=seduto, luogo=stuoia
Parte 3 — Visione + Linguaggio
Contrastive Language–Image Pre-training · 400 milioni di coppie immagine-testo · immagini e testo nello stesso spazio vettoriale · nessuna etichetta di task necessaria
Un'immagine viene codificata
come vettore (un elenco di numeri)
Le coppie corrispondenti vengono
avvicinate.
Le coppie non corrispondenti
vengono allontanate.
"A dog running
in a park"
Una didascalia testuale viene codificata
nello stesso spazio vettoriale
Parte 3 — Visione + Linguaggio
CLIP non è mai stato esplicitamente addestrato a riconoscere
"un fermo immagine di Stranger Things" — eppure ci riesce.
Perché ha imparato relazioni visivo-linguistiche generali, può ragionare su qualsiasi descrizione testuale.
Confronti l'immagine con molti testi candidati:
"una festa di compleanno," "una scena di un film horror,"
"bambini che giocano a D&D" — e trovi la corrispondenza più vicina.
Parte 3 — AI Multimodale
Una descrizione della scena
"Quattro ragazzi giocano a un gioco di ruolo attorno a un tavolo in un seminterrato dalle pareti in legno. L'ambiente, illuminato dalla luce calda di una lampada vintage, è cosparso di dadi, mappe e schede, mentre il gruppo appare concentrato sulla narrazione tra cartoni della pizza, bibite e poster cinematografici."
Cosa manca?
I volti esatti, la luce specifica, la texture degli oggetti, la geometria precisa dello spazio. Migliaia di immagini potrebbero corrispondere a questa descrizione.
Un'immagine
Cosa manca?
La narrativa, le relazioni sociali, il contesto storico, la storia emotiva. Nessun pixel ti dice che è il 1983.
Una rappresentazione multimodale combina entrambi: la ricchezza visiva dell'immagine e la struttura semantica del linguaggio — in un unico spazio condiviso.
Parte 3 — Visione + Linguaggio
Parte 3 — Language Models
Un LLM è un foundation model per il testo: addestrato su scala enorme su un singolo obiettivo self-supervised — predire il token successivo.
Self-supervised: il testo stesso fornisce la supervisione. Nessuna etichetta necessaria — solo testo grezzo da internet, libri e codice.
Nessuno ha programmato niente di tutto questo. Emerge tutto dalla predizione del token successivo su larga scala.
The capital of France is Paris
Romeo loved Juliet
2 + 2 = 4
Miliardi di completamenti come questi → GPT, Claude, Gemini
Parte 3 — AI Multimodale
Un LLM multimodale è un language model che è stato esteso per elaborare immagini insieme al testo.
Le immagini vengono codificate (tramite un vision encoder come CLIP) in token — la stessa moneta delle parole. L'LLM elabora poi la sequenza congiunta: image token + text token insieme.
Image token
LLM
elabora image + text token nello stesso transformer
Text token
"In quale decennio sembra ambientata questa scena?"
Output
"L'abbigliamento, le acconciature e l'arredo suggeriscono fortemente gli anni '80."
Parte 3 — AI Multimodale
D: Quante persone ci sono nella scena?
R: "Quattro persone sono visibili attorno a quello che sembra essere un tavolo."
D: Qual è l'atmosfera della scena?
R: "La scena ha un'atmosfera tesa, cospirativa — la luce fioca suggerisce una segretezza notturna."
D: In quale decennio sembra ambientata?
R: "L'abbigliamento, le acconciature e l'arredo suggeriscono gli anni '80."
Pratica
Interroga un modello multimodale
Attività 2 — Istruzioni
⏱ 15 minuti — lavora individualmente o in coppia
Attività 2 — Discussione
Dove ha impressionato
Descrizioni ricche, conoscenza culturale, ragionamento su contesto e relazioni
Dove ha fallito
Contare, relazioni spaziali precise, leggere testo, punti di vista insoliti
Cosa ci dice
Questi modelli NON sono oracoli — mantieni sempre la mente attiva e critica per individuare gli errori.
Questi modelli NON sono oracoli — mantieni sempre la mente attiva e critica per individuare gli errori.
Oltre la Visione
Camera
Frame RGB
Mappe di profondità
Audio
Spettrogrammi
Voce, suoni
LiDAR / 3D
Point cloud
Geometria precisa
IMU / Motion
Accelerometro
Giroscopio
Touch / Haptic
Pressione, forza
Mappe di texture
Ogni sensore ha il suo equivalente del "pixel". Ogni modalità richiede il proprio encoder — e le proprie sfide.
Oltre la Visione — Multi-Sensing
Rilevamento cadute
motion blur, cambio postura
suono d'impatto, richiesta d'aiuto
picco improvviso di accelerazione
Ogni sensore da solo è ambiguo. Insieme, forniscono prove solide.
Auto a guida autonoma
segnali, corsie, pedoni
geometria 3D precisa della scena
velocità dei veicoli circostanti
posizione e contesto della mappa
Percepire il mondo attraverso molti sensori — significa comprenderlo? Cosa manca ancora?
Parte Quattro
Limiti, bias e il futuro
Parte 4 — Le Domande Difficili
Bias nei training data
ImageNet è composto principalmente da immagini del web occidentale. I volti sono prevalentemente di carnagione chiara. Gli oggetti di altre culture sono sotto-rappresentati.
Divari di performance
I sistemi di riconoscimento facciale hanno tassi di errore significativamente più alti su volti di carnagione scura, specialmente le donne. (Buolamwini & Gebru, 2018)
Amplificazione degli stereotipi
I modelli di image generation possono amplificare gli stereotipi presenti nei training data — associando professioni a generi o etnie specifiche.
Il bias non è un difetto tecnico. È il riflesso di chi ha creato i dati, e per chi è stato progettato il sistema.
Parte 4 — Domande Aperte di Ricerca
Robustness & affidabilità
Come costruiamo modelli che falliscono in modo controllato e prevedibile, invece che catastroficamente e in silenzio?
Data efficiency
Come possono i modelli imparare da molti meno esempi — come fanno gli esseri umani fin dall'infanzia?
Ragionamento causale
Andare oltre la correlazione: può l'AI comprendere causa ed effetto dall'osservazione visiva?
Grounded language
Come colleghiamo il linguaggio all'esperienza fisica — a come le cose si sentono, non solo a come appaiono?
Parte 4 — Il Futuro
La prossima frontiera: AI che interagisce con il mondo fisico — non solo ne elabora le immagini.
La domanda filosofica
"Un modello che sa descrivere ogni dettaglio di un'immagine la vede davvero — in qualsiasi senso significativo di quella parola?"
Non c'è consenso. Questa è una delle domande più importanti nella ricerca sull'AI — e in filosofia.
Riepilogo del Workshop
Parte 1
Come Vediamo
La percezione è costruzione attiva. Il cervello colma le lacune e fa assunzioni — proprio come una neural network.
Parte 2
Come Vedono le Macchine
Pixel → latent representation → task. Le neural network apprendono astrazioni dai dati. La rappresentazione è la chiave.
Parte 3
Foundation Model
Self-supervised learning su larga scala. Gli LLM imparano dalla predizione del next-token. I modelli multimodali unificano visione e linguaggio.
Parte 4
Le Domande Difficili
Robustness, bias, privacy. Il pattern matching potente non è comprensione — e quella distinzione conta enormemente.
Grazie
Domande & Discussione
Visione Artificiale · AI Days 2026 - Workshop