Cada vez son más las empresas que intentan evitar que sus datos sean procesados y guardados por rastreadores que trabajan como bancos de datos para los modelos de IA.
El mes pasado, OpenAI aseguró que su rastreador, GPTBot, respetaría el robots.txt, un mecanismo con décadas de antigüedad con el que las páginas de internet pueden indicar a un rastreador web que lo ignore. Alrededor de 70 de los 1.000 sitios más populares de internet lo han bloqueado, entre ellos Amazon y Tumblr.
Italia bloquea ChatGPT por no respetar la protección de datos: OpenAI se enfrenta a una multa de 20 millones de euros
Esta semana, Business Insider ha obtenido nuevos datos al respecto de Originality.ai. En el informe al que ha tenido acceso este medio, se muestra que, en el transcurso de unas 3 semanas, el número de las principales páginas web que han bloqueado a GPTbot ha sido más de 250.
La lista de nuevos bloqueadores de GPTbot incluye Pinterest, Vimeo, GrubHub, Indeed, Apartments.com, The Guardian, Live Science, USA Today, NPR, CBS News y CBS Sports, NBC News y CNBC, The New Yorker, People, y lo que parece ser todas las cabeceras Hearst y los de Conde Nast. Incluso weather.com está bloqueando el bot.
La información de primera mano y precisa es vital para el rendimiento de modelos de IA generativa como el ChatGPT-4 de OpenAI, que ha memorizado con eficacia enormes cantidades de texto para responder con inteligencia a las preguntas de los usuarios.
La mayor parte de la información con la que se entrenan estos modelos se extrae de internet, a pesar de que la mayor parte de ella es propiedad o está protegida por derechos de autor. La creciente concienciación sobre esta práctica ha dado lugar a varias demandas, y podrían estar en camino nuevas normas y regulaciones gubernamentales.
Muchas más empresas también están bloqueando CCBot, un rastreador web utilizado por Common Crawl. Con sede en Europa, esta compañía de IA lleva años recopilando cantidades ingentes de datos de internet, incluido material protegido por derechos de autor, y organizando los conjuntos de datos para utilizarlos como entrenamiento gratuito para grandes modelos lingüísticos como Meta’s Llama. A finales de septiembre, casi el 14% de las 1.000 páginas web más populares han bloqueado a CCBot, según datos de Originality.ai.
Entre los que lo han hecho, se encuentran Amazon, Vimeo, Masterclass, Kelly Blue Book, The New York Times, The New Yorker y The Atlantic. Muchos de los que bloquean CCBot también bloquean GPTBot. Aunque parece que la notoriedad de ChatGPT ha hecho que más empresas bloqueen su rastreador, a pesar de que CCBot probablemente lleva activo más tiempo.
Mientras que las organizaciones online han estado desplegando robots.txt para tratar de evitar que sus datos sean cogidos para entrenar modelos de IA, muchas empresas de tecnología han actualizado sus términos de servicio y políticas de usuario para darles acceso libre y completo al contenido y la actividad del usuario para sus proyectos de IA y entrenamiento.
A continuación se incluye una lista completa de las principales páginas web que han bloqueado GPTBot y CCBot desde el 22 de septiembre:
Han bloqueado GPTBot:
- amazon.com
- quora.com
- nytimes.com
- theguardian.com
- shutterstock.com
- wikihow.com
- cnn.com
- sciencedirect.com
- usatoday.com
- healthline.com
- stackexchange.com
- alamy.com
- scribd.com
- webmd.com
- businessinsider.com
- dictionary.com
- reuters.com
- washingtonpost.com
- medicalnewstoday.com
- npr.org
- cbsnews.com
- goodhousekeeping.com
- amazon.co.uk
- tumblr.com
- latimes.com
- insider.com
- glassdoor.com
- vocabulary.com
- investopedia.com
- slideshare.net
- amazon.de
- cosmopolitan.com
- nbcnews.com
- indiamart.com
- stackoverflow.com
- hindustantimes.com
- bloomberg.com
- cnbc.com
- people.com
- tvtropes.org
- amazon.in
- vimeo.com
- verywellhealth.com
- ikea.com
- espn.com
- indianexpress.com
- thesaurus.com
- pbs.org
- 123rf.com
- wattpad.com
- variety.com
- today.com
- popsugar.com
- thespruce.com
- uol.com.br
- amazon.fr
- geeksforgeeks.org
- elle.com
- economictimes.com
- pcmag.com
- theverge.com
- allrecipes.com
- thoughtco.com
- rollingstone.com
- wired.com
- nextdoor.com
- hollywoodreporter.com
- abc.net.au
- ew.com
- amazon.ca
- news18.com
- womenshealthmag.com
- rateyourmusic.com
- amazon.co.jp
- techradar.com
- airbnb.com
- ndtv.com
- lifewire.com
- tomsguide.com
- vulture.com
- everydayhealth.com
- polygon.com
- theconversation.com
- esquire.com
- prnewswire.com
- billboard.com
- menshealth.com
- metro.co.uk
- countryliving.com
- mashable.com
- gamesradar.com
- thehindu.com
- timesofindia.com
- deadline.com
- harpersbazaar.com
- medscape.com
- nymag.com
- refinery29.com
- radiotimes.com
- cbssports.com
- tandfonline.com
- theatlantic.com
- trulia.com
- amazon.es
- pinterest.es
- nationalgeographic.com
- bhg.com
- eater.com
- southernliving.com
- healthgrades.com
- vice.com
- picclick.com
- bustle.com
- newyorker.com
- eonline.com
- digitalspy.com
- opentable.com
- pinterest.de
- thepioneerwoman.com
- caranddriver.com
- byrdie.com
- livemint.com
- medicinenet.com
- teacherspayteachers.com
- cookpad.com
- thespruceeats.com
- bizjournals.com
- pagesjaunes.fr
- liputan6.com
- delish.com
- masterclass.com
- archiveofourown.org
- vox.com
- realsimple.com
- aarp.org
- francetvinfo.fr
- pinterest.fr
- kumparan.com
- theathletic.com
- travelandleisure.com
- vogue.com
- livescience.com
- apartments.com
- marketwatch.com
- glamour.com
- amazon.it
- cinemablend.com
- thrillist.com
- amazon.com.br
- pinterest.co.uk
- angi.com
- alamy.es
- usmagazine.com
- distractify.com
- bbcgoodfood.com
- jagran.com
- mercadolibre.com.mx
- androidauthority.com
- city-data.com
- foodandwine.com
- hellomagazine.com
- amazon.com.au
- gq.com
- ingles.com
- amarujala.com
- ieee.org
- prevention.com
- stern.de
- kbb.com
- edmunds.com
- marthastewart.com
- pcgamer.com
- justanswer.com
- health.com
- 20minutes.fr
- fortune.com
- homes.com
- scientificamerican.com
- popularmechanics.com
- verywellfit.com
- vanityfair.com
- chicagotribune.com
- verywellmind.com
- housebeautiful.com
- cntraveler.com
- allure.com
- spanishdict.com
- neverbounce.com
- answers.com
- moneycontrol.com
- architecturaldigest.com
- slate.com
- lonelyplanet.com
- inverse.com
- corriere.it
- actu.fr
- self.com
- tripsavvy.com
- instyle.com
- eatingwell.com
- superuser.com
- welt.de
- spiegel.de
- womansday.com
- seventeen.com
- hbr.org
- oprahdaily.com
- autotrader.com
- bonappetit.com
- sueddeutsche.de
- seriouseats.com
- liveabout.com
- seattletimes.com
- coursera.org
- livehindustan.com
- france24.com
- townandcountrymag.com
- dotesports.com
- worldplaces.me
- faz.net
- teenvogue.com
- motor1.com
- nj.com
- glamourmagazine.co.uk
- okdiario.com
- brides.com
- stylecaster.com
- alamyimages.fr
- jagranjosh.com
- theglobeandmail.com
- axios.com
- francebleu.fr
- tabelog.com
- thebalancemoney.com
- nydailynews.com
- sheknows.com
- naomedical.com
- verywellfamily.com
Han bloqueado a CCBot:
- nytimes.com
- shutterstock.com
- reuters.com
- goodhousekeeping.com
- tumblr.com
- cosmopolitan.com
- pixabay.com
- depositphotos.com
- pbs.org
- elle.com
- glosbe.com
- patch.com
- wired.com
- womenshealthmag.com
- esquire.com
- indiatoday.in
- menshealth.com
- countryliving.com
- zippia.com
- chron.com
- harpersbazaar.com
- tr-ex.me
- detik.com
- theatlantic.com
- newyorker.com
- digitalspy.com
- etymonline.com
- thepioneerwoman.com
- caranddriver.com
- hinative.com
- teacherspayteachers.com
- delish.com
- masterclass.com
- archiveofourown.org
- theathletic.com
- vogue.com
- glamour.com
- alltrails.com
- gq.com
- ingles.com
- prevention.com
- kbb.com
- popularmechanics.com
- vanityfair.com
- housebeautiful.com
- cntraveler.com
- allure.com
- spanishdict.com
- architecturaldigest.com
- self.com
- sfgate.com
- womansday.com
- songkick.com
- seventeen.com
- oprahdaily.com
- autotrader.com
- bonappetit.com
- aajtak.in
- coursera.org
- townandcountrymag.com
- faz.net
- teenvogue.com
- glamourmagazine.co.uk
Credit: Source link