È già finita l’era dell’intelligenza artificiale open source?
Le aziende vogliono lavorare su modelli addestrati da altri per sviluppare soluzioni chiuse, un po’ perché non vogliono che gli oligopolisti si impadroniscano dei propri dati privati, un po’ per ragioni di profitto. Ma nessuna azienda ha addestrato i propri modelli su dati prodotti internamente.
(grazie a @noccioletta per la segnalazione)
@informapirata @noccioletta @aitech Per addestrare ChatGPT è stato utilizzato un numero di GPU dell’ordine di 10^4 (https://towardsdatascience.com/how-25-000-computers-trained-chatgpt-11104686a24d?gi=c14a164238da#:~:text=Lambda%20Labs%20estimated%20that%20training,in%20a%20matter%20of%20days). Le GPU utilizzate sono le NVIDIA A100 dal costo di circa 10^4$ ciascuna. La dimensione del dataset per la fase di training va da 1 a 100 terabyte.
Per addestrare un algoritmo di AI generativa che possa competere con quelli creati dalle Big Tech quindi servirebbe:
✓ una spesa dell’ordine di 10^8$ (100 milioni di dollari), solo per avere la “materia prima”;
✓ un dataset omnicomprensivo di dimensioni comprese tra 1 e 100 terabyte;
✓un algoritmo con numero di parametri dell’ordine di 10^11 (GPT-3.5) o 10^12 (GPT-4).
Temo quindi che le AI generative opensource fatte in casa siano irrealizzabili. Più semplicemente si usano le API di OpenAI o simili per interfacciarle graficamente e spacciarle come innovazione.
Il fine tuning invece, cioè riadattare un modello pre-esistente per scopi diversi e specifici, è più praticabile e con costi sostenibili.