Google ha recentemente presentato Gemini, il suo nuovo modello di intelligenza artificiale che punta a sfidare ChatGPT di OpenAI. Gemini è un “large language model” (LLM), ovvero un modello linguistico su larga scala, progettato per ragionare in modo fluido attraverso testo, immagini, video, audio e codice. Si tratta di un passo avanti significativo rispetto ai precedenti modelli di Google come PaLM, ed è stato specificamente addestrato per superare le prestazioni umane in una serie di competenze chiave, tra cui la comprensione del linguaggio, il ragionamento matematico e la generazione di codice. Gemini segna quindi l’ingresso di Google nella nuova era dell’intelligenza artificiale generativa multimodale.
Gemini è disponibile in tre varianti (Nano, Pro e Ultra) per soddisfare necessità diverse, e la variante Pro è già integrata nel chatbot sperimentale Bard di Google per fornire risposte più accurate e di qualità. L’obiettivo è superare alcuni dei limiti dimostrati da ChatGPT, offrendo una maggiore comprensione delle richieste e del contesto, un ragionamento più approfondito e risposte corroborate da prove.
Le caratteristiche principali di Gemini
Gemini presenta una serie di caratteristiche chiave che lo rendono un passo avanti significativo rispetto ai precedenti modelli linguistici. Prima di tutto, è multimodale: è in grado di ragionare attraverso testo, immagini, video, audio e codice in modo fluido. Questo permette interazioni più ricche e simulate rispetto ai chatbot puramente testuali.
In secondo luogo, Gemini è stato specificamente progettato per superare le prestazioni umane in una serie di attività, tra cui la comprensione del linguaggio naturale, il ragionamento matematico, la generazione di codice e altro ancora. Ciò è stato possibile grazie all’enorme quantità di dati e potenza di calcolo impiegata per addestrare il modello, utilizzando i Tensor Processing Unit (TPU) sviluppati internamente da Google.
Tra le capacità più impressionanti dimostrate finora, Gemini è in grado di generare codice di qualità da semplici descrizioni in linguaggio naturale meglio dell’85% degli sviluppatori umani. Può anche riassumere accuratamente lunghi testi, rispondere a domande complesse basandosi su grandi quantità di conoscenze, e altro ancora.
L’integrazione di Gemini in Bard
Google ha integrato la variante “Pro” di Gemini all’interno del suo chatbot sperimentale Bard. Si tratta di un passo importante per migliorare le capacità conversazionali di Bard e la qualità delle sue risposte.
In particolare, Gemini Pro consente a Bard di comprendere meglio le richieste e il contesto delle domande poste dagli utenti. Può quindi generare risposte più accurati e approfondite. Bard può anche accedere alle vaste conoscenze incorporate in Gemini per fornire risposte corroborate da fatti e fonti attendibili.
Come provare Gemini sul Pixel 8 Pro
Gli utenti Pixel 8 Pro possono avere un assaggio delle capacità di Gemini grazie all’integrazione con alcune app native del dispositivo, tra cui Recorder e la tastiera Gboard.
Nello specifico, Gemini Nano (una versione ridotta ottimizzata per il funzionamento offline) alimenta la funzione Smart Reply di Gboard all’interno di WhatsApp. Vengono quindi suggerite risposte più pertinenti e fluide durante le chat.
Inoltre, Gemini Nano può generare sintesi vocali automatiche all’interno dell’app Recorder, riassumendo i punti chiave di lunghe registrazioni audio in pochi secondi. Si tratta di integrazioni limitate ma che dimostrano il potenziale dell’IA conversazionale di Google.
In conclusione, qeusto nuovo step, segna l’ingresso di Google nell’era dell’IA generativa multimodale. Con le sue impressionanti capacità, potrebbe portare miglioramenti significativi ai suoi prodotti e stabilire nuovi standard per l’interazione uomo-macchina.