L'IA tue l'ancien web et le nouveau web peine à naître

Camus (il, lui)@jlai.lu · edit-2 1 year ago

L'IA tue l'ancien web et le nouveau web peine à naître

Camus (il, lui)@jlai.lu · edit-2 1 year ago

(3/3) Au cours des derniers mois, des discussions et des expériences menées dans certaines des destinations les plus populaires et les plus utiles du web - des sites comme Reddit, Wikipedia, Stack Overflow et Google lui-même - ont révélé la tension créée par l’apparition de systèmes d’IA.

Les modérateurs de Reddit organisent des coupures de courant après que l’entreprise a annoncé qu’elle augmenterait fortement les frais d’accès à son API, les dirigeants de l’entreprise affirmant que ces changements sont (en partie) une réponse aux entreprises d’IA qui récupèrent ses données.

“Le corpus de données de Reddit est vraiment précieux”, a déclaré Steve Huffman, fondateur et PDG de Reddit, au New York Times."Mais nous n’avons pas besoin de donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde."Ce n’est pas le seul facteur - Reddit essaie de tirer davantage de revenus de la plateforme avant une introduction en bourse prévue plus tard dans l’année - mais cela montre que le scraping est à la fois une menace et une opportunité pour le web actuel, quelque chose qui pousse les entreprises à repenser l’ouverture de leurs plateformes.

Traduit avec www.DeepL.com/Translator (version gratuite)

Wikipédia a l’habitude d’être exploitée de cette manière. Les informations de l’entreprise sont depuis longtemps réutilisées par Google pour fournir des “panels de connaissances” et, ces dernières années, le géant de la recherche a commencé à payer pour ces informations.Mais les modérateurs de Wikipédia débattent de la manière d’utiliser les nouveaux modèles de langage de l’IA pour rédiger des articles pour le site lui-même.Ils sont parfaitement conscients des problèmes liés à ces systèmes, qui fabriquent des faits et des sources avec une aisance trompeuse, mais ils savent qu’ils offrent des avantages évidents en termes de rapidité et de portée.“Le risque pour Wikipédia est que les gens diminuent la qualité en ajoutant des informations qu’ils n’ont pas vérifiées”, a récemment déclaré Amy Bruckman, professeur de communautés en ligne et auteur de Should You Believe Wikipedia ? à Motherboard. "Je ne pense pas qu’il y ait de mal à l’utiliser comme premier jet, mais chaque point doit être vérifié.

"Le problème principal est que si les réponses produites par ChatGPT ont un taux élevé d’erreurs, elles ont généralement l’air d’être bonnes.

Camus (il, lui)@jlai.lu · 1 year ago

Stack Overflow offre un cas similaire, mais peut-être plus extrême. Comme Reddit, ses mods sont également en grève et, à l’instar des éditeurs de Wikipédia, ils s’inquiètent de la qualité du contenu généré par les machines.Lorsque ChatGPT a été lancé l’année dernière, Stack Overflow a été la première grande plateforme à interdire sa production.Comme l’ont écrit les modérateurs à l’époque :"Le principal problème est que, bien que les réponses produites par ChatGPT aient un taux élevé d’erreurs, elles ont généralement l’air d’être bonnes et les réponses sont très faciles à produire."Le tri des résultats prenant trop de temps, les mods ont décidé de l’interdire purement et simplement.

La direction du site avait cependant d’autres projets. Depuis, l’entreprise a essentiellement annulé l’interdiction en augmentant la charge de la preuve nécessaire pour empêcher les utilisateurs de publier du contenu sur l’IA, et elle a annoncé qu’elle souhaitait plutôt tirer parti de cette technologie.Comme Reddit, Stack Overflow prévoit de faire payer les entreprises qui exploitent ses données tout en construisant ses propres outils d’IA - sans doute pour les concurrencer.Le conflit avec les modérateurs porte sur les normes du site et sur la question de savoir qui est chargé de les appliquer. Les modérateurs affirment que les résultats de l’IA ne sont pas fiables, mais les dirigeants estiment que le jeu en vaut la chandelle.

Toutes ces difficultés ne sont cependant pas aussi importantes que les changements en cours chez Google. Google Search est à la base de l’économie du web moderne, distribuant l’attention et les revenus à une grande partie de l’internet.Google a été poussé à agir par la popularité de Bing AI et de ChatGPT en tant que moteurs de recherche alternatifs, et il expérimente le remplacement de ses 10 liens bleus traditionnels par des résumés générés par l’IA.Mais si l’entreprise va au bout de son projet, les changements seront considérables.

Un article d’Avram Piltch, rédacteur en chef du site technologique Tom’s Hardware, sur la version bêta de la recherche AI de Google, met en évidence certains des problèmes.Selon Piltch, le nouveau système de Google est essentiellement un “moteur de plagiat”. Ses résumés générés par l’IA copient souvent mot pour mot le texte des sites web, mais placent ce contenu au-dessus des liens source, ce qui les prive de trafic.C’est un changement que Google préconise depuis longtemps, mais les captures d’écran présentées dans l’article de Piltch montrent à quel point l’équilibre s’est déplacé en faveur des extraits de contenu.Si ce nouveau modèle de recherche devient la norme, il pourrait nuire à l’ensemble du web, écrit M. Piltch.Les sites à court de revenus seraient probablement poussés à la faillite et Google lui-même serait à court de contenu généré par l’homme à reconditionner.

Camus (il, lui)@jlai.lu · edit-2 1 year ago

Encore une fois, c’est la dynamique de l’IA - la production d’un contenu bon marché basé sur le travail d’autrui - qui est à l’origine de ce changement, et si Google poursuit son expérience actuelle de recherche par IA, les effets seront difficiles à prédire.

Si Google poursuit son expérience actuelle de recherche par IA, les effets seront difficiles à prévoir. Potentiellement, cela endommagerait des pans entiers du web que la plupart d’entre nous trouvent utiles, qu’il s’agisse d’avis sur des produits, de blogs de recettes, de pages d’accueil de fans, d’actualités ou de wikis. Les sites pourraient se protéger en verrouillant l’accès et en le facturant, mais il s’agirait également d’une réorganisation considérable de l’économie du web. En fin de compte, Google pourrait tuer l’écosystème qui a créé sa valeur, ou le modifier de manière si irrévocable que sa propre existence serait menacée.

Et si nous laissions l’IA prendre le contrôle et commencer à fournir des informations aux masses ? Quelle différence cela ferait-il ?

Jusqu’à présent, les faits semblent indiquer que la qualité du web en général s’en trouvera dégradée. Comme le note Piltch dans son article, malgré la capacité de l’IA à recombiner du texte, ce sont les gens qui créent les données sous-jacentes, qu’il s’agisse de journalistes qui décrochent leur téléphone et vérifient les faits ou d’utilisateurs de Reddit qui ont eu exactement ce problème de batterie avec la nouvelle clé à cliquet sans fil DeWalt et qui sont heureux de vous dire comment ils l’ont résolu. En revanche, les informations produites par les modèles de langage de l’IA et les chatbots sont souvent incorrectes. Le problème, c’est que lorsqu’elles sont erronées, elles le sont d’une manière difficile à repérer.

Voici un exemple. Au début de l’année, je faisais des recherches sur les agents d’intelligence artificielle - des systèmes qui utilisent des modèles de langage comme ChatGPT, qui se connectent à des services web et agissent au nom de l’utilisateur, en commandant des courses ou en réservant des vols. Dans l’un des nombreux fils de discussion viraux sur Twitter vantant le potentiel de cette technologie, l’auteur imagine un scénario dans lequel une entreprise de chaussures imperméables souhaite commander une étude de marché et se tourne vers AutoGPT (un système construit au-dessus des modèles de langage d’OpenAI) pour générer un rapport sur les concurrents potentiels. Le rapport qui en résulte est basique et prévisible. (Il énumère cinq entreprises, dont Columbia, Salomon et Merrell, avec des puces censées présenter les avantages et les inconvénients de leurs produits. “Columbia est une marque bien connue et réputée pour son équipement et ses chaussures de plein air”, nous dit-on. "Leurs chaussures imperméables se déclinent en différents styles et leurs prix sont compétitifs sur le marché. On pourrait penser que ces informations sont tellement banales qu’elles ne servent à rien (et on aurait raison), mais elles sont aussi subtilement erronées.

Camus (il, lui)@jlai.lu · 1 year ago

Les contenus générés par l’IA sont souvent subtilement erronés

Pour vérifier le contenu du rapport, je l’ai soumis à une personne que je pensais être une source fiable sur le sujet : un modérateur du subreddit r/hiking nommé Chris.Chris m’a dit que le rapport était essentiellement du remplissage.“Il y a beaucoup de mots, mais pas de valeur réelle dans ce qui est écrit”, a-t-il dit.Il ne mentionne pas des facteurs importants tels que la différence entre les chaussures pour hommes et pour femmes ou les types de tissus utilisés.Il se trompe sur les faits et classe les marques ayant une plus grande présence sur le web comme plus méritantes.Dans l’ensemble, selon Chris, l’information n’est pas fondée sur l’expertise, mais uniquement sur des suppositions.“Si on me posait la même question, je donnerais une réponse complètement différente”, affirme-t-il. "En suivant les conseils de l’IA, vous risquez fort de vous blesser les pieds sur le sentier.

Il s’agit de la même plainte identifiée par les mods de Stack Overflow : la désinformation générée par l’IA est insidieuse parce qu’elle est souvent invisible. Elle est fluide mais ne repose pas sur l’expérience du monde réel, et il faut donc du temps et de l’expertise pour la démêler. Si les contenus générés par les machines supplantent les auteurs humains, il sera difficile, voire impossible, de dresser une carte complète des dégâts. Et oui, les gens sont aussi d’abondantes sources de désinformation, mais si les systèmes d’IA étouffent aussi les plateformes où l’expertise humaine prospère actuellement, il y aura moins d’occasions de remédier à nos erreurs collectives.

Les effets de l’IA sur le web ne sont pas simples à résumer. Même dans les quelques exemples cités ci-dessus, de nombreux mécanismes différents sont en jeu. Dans certains cas, il semble que la menace perçue de l’IA soit utilisée pour justifier des changements souhaités pour d’autres raisons (comme avec Reddit), tandis que dans d’autres, l’IA est une arme dans une lutte entre les travailleurs qui créent la valeur d’un site et les personnes qui le gèrent (Stack Overflow).Il existe également d’autres domaines dans lesquels la capacité de l’IA à remplir des cases a des effets différents, qu’il s’agisse de réseaux sociaux expérimentant l’engagement de l’IA ou de sites d’achat où les produits générés par l’IA sont en concurrence avec d’autres marchandises.

Camus (il, lui)@jlai.lu · 1 year ago

Dans chaque cas, la capacité de l’IA à s’étendre - le simple fait de son abondance brute - modifie une plateforme. La plupart des sites les plus performants du web sont ceux qui exploitent l’échelle à leur avantage, soit en multipliant les connexions sociales ou le choix de produits, soit en triant l’énorme conglomération d’informations qui constitue l’internet lui-même.Mais cette échelle repose sur des masses d’humains pour créer la valeur sous-jacente, et les humains ne peuvent pas battre l’IA lorsqu’il s’agit de production de masse.(Même s’il y a beaucoup de travail humain en coulisses pour créer l’IA). Il existe un essai célèbre dans le domaine de l’apprentissage automatique, connu sous le nom de “The Bitter Lesson” (la leçon amère), qui indique que des décennies de recherche prouvent que la meilleure façon d’améliorer les systèmes d’IA n’est pas d’essayer de créer de l’intelligence, mais simplement d’injecter plus de puissance informatique et de données pour résoudre le problème.La leçon est amère parce qu’elle montre que l’échelle de la machine l’emporte sur la curation humaine.Et il pourrait en être de même pour le web.

Cela doit-il être une mauvaise chose ? Si le web tel que nous le connaissons change face à l’abondance artificielle ?Certains diront que c’est tout simplement dans l’ordre des choses, notant que le web lui-même a tué ce qui l’a précédé, et souvent pour le meilleur.Les encyclopédies imprimées ont pratiquement disparu, par exemple, mais je préfère l’étendue et l’accessibilité de Wikipédia au poids et à l’assurance de l’Encyclopédie Britannica.Et malgré tous les problèmes liés à l’écriture générée par l’IA, il existe de nombreux moyens de l’améliorer, qu’il s’agisse de fonctions de citation améliorées ou d’une surveillance humaine accrue.De plus, même si le web est inondé de déchets d’IA, cela pourrait s’avérer bénéfique, en stimulant le développement de plateformes mieux financées.Si Google vous donne systématiquement des résultats erronés, par exemple, vous serez peut-être plus enclin à payer pour des sources auxquelles vous faites confiance et à les visiter directement.

En réalité, les changements que l’IA provoque actuellement ne sont que les derniers d’une longue lutte dans l’histoire du web.Il s’agit essentiellement d’une bataille autour de l’information : qui la produit, comment y accéder et qui est payé.Mais ce n’est pas parce que le combat est familier qu’il n’a pas d’importance, et cela ne garantit pas non plus que le système qui suivra sera meilleur que celui que nous avons aujourd’hui.Le nouveau web s’efforce de naître, et les décisions que nous prenons aujourd’hui détermineront la manière dont il se développera.

L'IA tue l'ancien web et le nouveau web peine à naître

L'IA tue l'ancien web et le nouveau web peine à naître

AI is killing the old web, and the new web struggles to be born