E’ stato rilasciato OpenLLaMA, una replica open-source di LLama il modello rilasciato qualche settimana fa da Facebook.
Che si aggiunge quindi a Bloom e Dolly 2.0, tra i principali modelli già disponibili OpenSource e utilizzabili su Hugging Face
Il team dietro al progetto è parte della università di #Berkeley che è stato ispirato dalle prestazioni del modello originale che però non era utilizzabile in ambito commerciale ma solo per scopi di ricerca.
#OpenLLaMA è stato addestrato con ben 200 miliardi di token sul dataset RedPajama (dataset che contiene 1,2 trilioni di token, che è più o meno lo stesso numero di quelli di #LLaMA).
Quindi, oltre a un set di addestramento molto simile, hanno utilizzato anche gli stessi iperparametri di addestramento e configurazioni del modello dell'originale!
Hanno valutato OpenLLaMA utilizzando lm-evaluation-harness di #AiEleuther e hanno scoperto che mostra prestazioni paragonabili a quelle di LLaMA e GPT-3 nella maggior parte dei compiti e addirittura le supera in alcuni! 🤯
Il team si aspetta che le prestazioni di OpenLLaMA saranno ancora migliori una volta completato l'addestramento su 1 trilione di token.
Quella disponibile ora è una preview del modello definitivo che contiene 7 miliardi di parametri.
🔎 Per approfondire il progetto #RedPajama: https://lnkd.in/d_Tg8zB7
🧑🏻💻 Il link al repo GitHub con la preview: https://lnkd.in/dshPwXMu
Discussione su questo Post
Nessun post