📌 le performance di un modello non si misurano in base a quel che dichiara il produttore del modello o a quel che dichiarano i concorrenti del produttore del modello
Un paio di link:
- lnkd.in/dCZJBVN6
- lnkd.in/dMC6tHUx
Posts by Alberto Puliafito
📌 le performance di un modello non si misurano in base a come ha risposto una volta a me o a te. È complicato. Ci sono progetti come Lmarena che aiutano a vedere come va in generale (pure lì si può barare un po’, ovviamente)
📌 i “guardrail” dei LLM si possono superare (o provare a superare): con strategie metatestuali, usando i numeri al posto delle lettere, con tecniche di PNL, bla la. Ci sono interi progetti dedicati a questo (come il Redarena)
📌 ogni LLM ha punti di forza e di debolezza. Tipo: sì, abbiamo capito che – le versioni precedenti di – ChatGPT non sa contare quante r ci sono nella parola strawberry. In generale, se vedi errori di questo genere fanno parte del funzionamento del modello e poi si correggono
DeepSeek non parla di Piazza Tienanmen, ChatGPT fa mooooolta fatica a perorare la causa dei palestinesi e via dicendo
📌 ogni LLM ha le sue regole imposte da chi li ha programmati e i suoi guardrail. Faccio esempi sparsi: i limiti sono molti altri Gemini non risponde a domande di politica, Claude 2.1 non dice parolacce manco sotto tortura,
📌 non ha molto senso chiedere a un LLM di fare citazioni letterali, a meno che non si sia fatto un fine-tuning su testi specifici e un po’ di lavoro sul tema. Tendenzialmente, inventerà le citazioni letterali
Se può andare sul web e glie lo chiedi magari prenderà informazioni da lì. In ogni caso, se non sa chi sei tu non vuol dire che non funzioni
📌 non ha molto senso chiedere a un LLM “Chi sono io”. Se questa informazione c’è nei suoi dati di addestramento, probabilmente risponderà abbastanza correttamente. Se no, inventerà.
Qui un rapido riepilogo (se mi viene in mente altro aggiungo e se mi suggerite ancora meglio):
📌 sì, gli LLM possono “inventare” le risposte
📌 ha poco senso proporre conclusioni definitive rispetto a un nuovo modello, fare affermazioni tipo “questo cambia tutto” o altre cose apodittiche
Mi ero illuso che dopo il primo giro di ubriacatura per ChatGPT fosse più chiaro cosa siano gli LLM e come non sprecare troppo tempo, attenzione, risorse, spazi, soprattutto nella produzione dei contenuti. Ma poi è arrivato DeepSeek e abbiamo ricominciato da capo, come in un eterno gioco dell’oca.
Typical media tech coverage: AI is unstoppable! ... AI is over!
ChatGPT loses users for first time, shaking faith in AI revolution www.washingtonpost.com/technology/2023/07/07/ch...
Bluesky is a public benefit corp with the mission “to develop and drive large-scale adoption of technologies for open and decentralized public conversation.”
The PBC status allows us to pursue our mission above profit, but we still need to make this open ecosystem sustainable.