Pierre Beyssac (@pierreb) Bsky

Il ne faut pas se laisser impressionner par la course à l'énormité et au buzz des états-uniens, ce sont... les états-uniens.

4 hours ago 0 0 0 0

À relativiser car l'extension des corpus et des tailles de modèles n'est pas le seul axe d'amélioration, loin de là. Les algos d'apprentissage évoluent également, ainsi que les architectures (cf LeCun par exemple), et enfin je crois qu'il y a tout un corpus dormant de PDFs à peine gérés.

4 hours ago 0 0 1 0

Pour l'instant ils le sont (enfin, open weights comme on dit), et il commence déjà à exister des modèles "full open source", donc je ne suis pas trop inquiet sur le moyen/long terme. L'open weight reste un bon moyen d'empêcher OpenAI & Anthropic trop d'importance, les concurrents le savent.

5 hours ago 2 0 0 0

Possible que la "tendance moyenne" est peut-être au grossissement des modèles, influencée par quelques modèles énormes, mais c'est l'arbre qui cache la forêt. Il faudrait pondérer par le volume d'usage et l'utilité, car une tendance inverse existe. Sur le fond le spectre de taille "utile" s'élargit.

5 hours ago 0 0 0 0

Je diffère, de petits modèles sortent en permanence avec des performances qui s'améliorent sans cesse. Aujourd'hui on peut faire tourner mieux que GPT-3 (énorme à l'époque) en autohébergé voire sur téléphone mobile. Et des algos de re-distillation pour réduire des gros modèles existent.

5 hours ago 0 0 2 0

Je n'ai guère de doute que ça sera rentable. Déjà en autohébergé, pour un investissement ridicule (GPU de gamer) tu peux obtenir des résultats très intéressants.

5 hours ago 0 1 1 0

OpenAI a déjà répondu depuis un bail. D'après eux c'est dû à un bug dans le corpus d'entraînement, qui sur-représente certains articles. Donc ça doit déjà être corrigé. Cela dit pour être complet il y a une étude similaire plus récente, notamment sur base d'extraits de Harry Potter.

5 hours ago 1 0 0 0

Au vu du logo, ta licence CC n'interdit pas le "derivative", qui est symbolisé comme ci-dessous avec un "=" (et assez rare puisque ça enlève une des libertés d'une licence libre).

16 hours ago 0 0 1 0

Si les moteurs de recherche classique en bénéficient (au titre d'un mix de ces vocations), aucune raison que les LLM n'en bénéficient pas.

16 hours ago 0 0 1 0

Tu fais vraiment 0 effort pour sortir de tes biais de confirmation... allez je te mets un des bouts, ce n'est même pas le seul.

16 hours ago 0 0 1 0

Ah ok, tu changes encore les conditions d'un tweet à l'autre par allergie binaire à l'IA... et pourquoi donc ?

16 hours ago 0 0 1 0

L'EFF a une réponse à cette objection.

16 hours ago 0 0 1 0

Du coup, les modèles libres, n'ayant pas un modèle commercial à but lucratif, rentrent dans le cadre du fair use, selon toi ? Moi ça me va.

16 hours ago 0 0 1 0

Search Engines, AI, And The Long Fight Over Fair Use Long before generative AI, copyright holders warned that new technologies for reading and analyzing information would destroy creativity. Internet search engines, they argued, were infringement machin...

Les moteurs de recherche sont acceptés au titre du fair use, bien qu'ils ne soient pas cités par le texte. Les juristes de l'EFF ne sont pas de ton avis. www.eff.org/deeplinks/20...

16 hours ago 0 0 1 0

Les faits concernant l’action en justice intentée par le New York Times Découvrez les faits concernant le procès intenté par le New York Times contre OpenAI, y compris les décisions de justice affirmant que l’entraînement de l’IA constitue une utilisation équitable et com...

Oui. L'affaire est en cours d'instruction. OpenAI plaide le "fair use". openai.com/fr-FR/new-yo...

16 hours ago 0 0 1 0

Je ne suis pas sûr que le texte initial soit effectivement le plus probable. Ça ne me semble pas du tout garanti dans le cas général.

16 hours ago 0 0 1 0

L'affirmation que l'essentiel des qualités d'un LLM en informatique est d'avoir lu stackoverflow est probablement très exagérée sinon fausse, et en tout cas totalement improuvée.

17 hours ago 0 0 0 0

Mes réponses ne te convenant jamais, j'arrête là ce dialogue de sourds. Bonne soirée.

17 hours ago 0 0 1 0

Je n'ai rien juré. Je ne considère pas comme du dénigrement le fait de penser que quelqu'un est dans le déni. C'est plutôt une critique (étayée sur le fond par mes arguments factuels exposés dans la discussion avec aeris). Mais pardon d'avoir dit quelque chose qui t'a peiné : je ne te le dirai plus.

18 hours ago 0 0 1 0

Oui, d'ailleurs l'introduction d'un feedback de vérification est un bon moyen d'améliorer la fiabilité des LLM. Principe de base en automatisme bien avant les LLM d'ailleurs. Or justement, en informatique on a plein d'éléments vérifiables (erreurs de compilation, erreurs d'exécution, tests, etc).

18 hours ago 0 0 0 0

Tu invoques la "magie" du coup ? On connaît a priori la raison : certains articles étaient reproduits plein (beaucoup trop) de fois dans le corpus d'apprentissage. Bug qui a dû être corrigé depuis.

18 hours ago 0 0 1 0

Je ne suis pas sûr que ce soit encore vrai aujourd'hui.

18 hours ago 0 0 0 0

La discussion n'est pas de savoir si les LLM sont légaux ou pas. De toute façon, si on veut être strict, ils ne réalisent pas de copie du contenu d'apprentissage (il est mathématiquement impossible qu'ils le contiennent au final).

18 hours ago 0 0 1 0

"Technologiquement", mathématiquement si tu veux puisque c'est toi qui raisonnes "à la fin c'est juste des 0 et des 1", une copie d'œuvre c'est juste une copie de 0 et 1 tout pareil => l'algo des LLM se contrefout du sujet. C'est une autre discussion.

18 hours ago 0 0 1 0

1. Oui largement. Si on connaît les ordres de grandeur pour les usages courants, ils sont ridiculement petits. Panique morale inventée par les anti-tout.
2 bulle en effet problématique. Vivement la fin.
3. Sujet très accessoire
Mais tout ça c'est un autre débat.

18 hours ago 0 0 1 0

0 rapport. Argument totalement différent.

18 hours ago 0 0 0 0

Osef. It quacks like a duck, ça suffit pour pas mal d'usages.

18 hours ago 0 0 1 0

Je dis juste que es dans le déni. Ça me semble factuel, pas dénigrant. Je suis désolé que tu trouves ça dénigrant. Je ne cherche pas à te convaincre, je n'en ai pas la force.

18 hours ago 0 0 1 0

Eh ben voilà. L'apprentissage profond c'est similaire. D'où les capacités dites émergentes.

18 hours ago 0 0 1 0

Posts by Pierre Beyssac