Inteligencia artificial abre las bibliotecas de EU: empresas recurren a libros para enseñarle sobre la humanidad

AP.- Todo lo que se ha dicho en internet fue tan sólo el comienzo de enseñarle a la inteligencia artificial acerca de la humanidad. Ahora las empresas de tecnología están recurriendo a un depósito de conocimiento más antiguo: las estanterías de libros en las bibliotecas.

Casi un millón de libros publicados inclusive en una época tan antigua como el siglo XV —y en 254 idiomas— forman parte de una colección de la Universidad de Harvard que se compartió recientemente con investigadores.

Próximamente, también se incluirán tesoros de periódicos antiguos y documentos gubernamentales en poder de la biblioteca pública de Boston.

Abrir las bóvedas para tener acceso a tomos centenarios podría suponer una fortuna de datos para las empresas de tecnología que enfrentan demandas de novelistas, artistas visuales y otros cuyas obras creativas han utilizado sin su consentimiento para entrenar a chatbots de IA.

“Es una decisión prudente comenzar con la información de dominio público, porque eso es menos controversial en este momento que el contenido que todavía tiene derechos de autor”, expresó Burton Davis, abogado general adjunto de Microsoft.

Davis indicó que las bibliotecas también resguardan "enormes cantidades de datos culturales, históricos y lingüísticos interesantes", ausentes en las últimas décadas de comentarios en línea de los que los chatbots de IA han aprendido en su mayoría.

Los temores a quedarse sin información también han llevado a los desarrolladores de IA a recurrir a datos “sintéticos”, creados por los propios chatbots y de menor calidad.

Con el apoyo de “obsequios sin restricciones” de Microsoft y OpenAI —el fabricante de ChatGPT—, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas y museos de todo el mundo sobre cómo hacer que sus colecciones históricas estén listas para la IA de una manera que también beneficie a las comunidades.

“Estamos tratando de trasladar parte del poder que en este momento está en manos de la IA de vuelta a estas instituciones”, manifestó Aristana Scourtas, quien dirige la investigación en el Laboratorio de Innovación de Bibliotecas de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los administradores de los datos y la información”.

El conjunto de datos que recién publicó Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas de papel escaneadas.

Una de las obras más antiguas es del siglo XV: las reflexiones escritas a mano de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras es del siglo XIX, sobre temas como literatura, filosofía, derecho y agricultura, todas ellas meticulosamente conservadas y organizadas por generaciones de bibliotecarios.

Promete ser muy beneficioso para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.

“Muchos de los datos que se han utilizado en la capacitación en IA no provienen de fuentes originales”, señaló el director ejecutivo de la iniciativa de datos, Greg Leppert, quien también es jefe de tecnología en el Berkman Klein Center for Internet & Society de Harvard, un organismo enfocado en el estudio del ciberespacio.

Esta colección de libros cubre “hasta la copia física que escanearon las instituciones que, de hecho, reunieron dichos materiales”, agregó.

Antes de que ChatGPT desencadenara un frenesí comercial por la inteligencia artificial, a la mayoría de los investigadores de IA no les interesaba mucho la procedencia de los pasajes de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de amplios depósitos de libros pirateados.

Sólo necesitaban lo que los especialistas en informática llaman tokens: unidades de datos, cada una de las cuales puede representar el fragmento de una palabra.

La nueva colección de capacitación en IA de Harvard tiene un estimado de 242 mil millones de tokens, una cantidad que es difícil de comprender para los humanos, pero que sigue siendo sólo una gota de lo que se está introduciendo en los sistemas de IA más avanzados.

Por ejemplo, la empresa matriz de Facebook, Meta, ha dicho que la última versión de su amplio modelo de lenguaje de IA fue entrenada con más de 30 billones de tokens extraídos de texto, imágenes y videos.

Meta también hace frente a una demanda de la comediante Sarah Silverman y de otros autores con obras publicadas que acusan a la compañía de robar sus libros a partir de “bibliotecas fantasma” de obras pirateadas.

Ahora, con algunas reservas, las bibliotecas reales están imponiendo sus condiciones.

OpenAI, que también está enfrentando una serie de demandas por violaciones de derechos de autor, donó 50 millones de dólares este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de antigüedad, perteneciente a la Universidad de Oxford, que está digitalizando libros raros y usa IA para transcribirlos.

Cuando la compañía contactó por primera vez a la Biblioteca Pública de Boston, una de las más grandes de Estados Unidos, el recinto especificó claramente que cualquier información que digitalizara estaría disponible para todo el mundo, compartió Jessica Chapel, su directora de servicios digitales y en línea.

La digitalización es costosa. Por ejemplo, para la biblioteca de Boston ha sido un trabajo meticuloso escanear y organizar docenas de periódicos en francés de Nueva Inglaterra que se distribuyeron ampliamente a fines del siglo XIX y principios del XX entre las comunidades de inmigrantes canadienses de Quebec.

Ahora que dicho texto se utiliza para entrenar IA, ayuda a financiar proyectos que los bibliotecarios quieren hacer de todos modos.

La colección de Harvard ya se había empezado a digitalizar desde el 2006 para otro gigante tecnológico, Google, en su controvertido proyecto de crear una biblioteca en línea con capacidad de búsqueda de más de 20 millones de libros.

Google pasó años defendiéndose de demandas de autores por su biblioteca en línea, que incluía muchas obras más nuevas y con derechos de autor. Por fin se solucionó en 2016, cuando la Corte Suprema de Estados Unidos dio el visto bueno a fallos de tribunales inferiores que rechazaron reclamos por infracción de derechos de autor.

Ahora, por primera vez, Google ha trabajado con Harvard para extraer volúmenes de Google Books que son del dominio público y allanar el camino para compartirlos con los desarrolladores de IA.

Las protecciones de derechos de autor en Estados Unidos suelen durar 95 años, y más tiempo para las grabaciones de sonido.

La nueva iniciativa fue aplaudida por el mismo grupo de autores que demandó a Google por su proyecto de libros y que más recientemente ha llevado a empresas de IA a los tribunales.

Queda por verse qué tan útil será todo esto para la próxima generación de herramientas de IA, a medida que los datos se comparten en la plataforma Hugging Face, que alberga conjuntos de datos y modelos de IA de código abierto que cualquier persona puede descargar.

La colección de libros es más diversa lingüísticamente que las fuentes de datos características de IA.

Menos de la mitad de los volúmenes están en inglés, aunque los idiomas europeos siguen predominando, en particular el alemán, el francés, el italiano, el español y el latín.

Con información de Latinus

Tips al momento

Dejan elección de consejeros del INE hasta la reforma electoral de Sheinbaum

La Cámara de Diputados declaró formalmente clausurado su periodo ordinario de sesiones, sin embargo, hay una omisión que ha encendido las alarmas en el sector electoral, como es la convocatoria para renovar tres espacios del Consejo General del Instituto Nacional Electoral.

Claudia Zavala, Dania Ravel y Jaime Rivera concluirán sus funciones como consejero en abril de 2026, pero debió haber iniciado el proceso de selección y los diputados optaron por ser omisos.

Esto apunta no ser una casualidad ante la reforma electoral de la presidenta Claudia Sheinbaum y poner personajes a modo.


EU tendría en la mira a funcionarios de Chihuahua y el narco

En la reciente columna de Raymundo Riva Palacio para El Financiero del espacio Estrictamente Personal, bajo el título de "La narcopolítica no sólo es morena", menciona que el Departamento de Estado de los Estados Unidos tendría bajo la mira al gobierno de Chihuahua que encabeza Maru Campos.

Riva Palacio realiza una sentencia firme: "La gobernadora Maru Campos no parece haber comprendido los embates estadounidenses contra la narcopolítica, y su falta de ajustes en las áreas judiciales ha creado otra sospecha" y deja en manifiesto que las  investigaciones del gobierno de Estados Unidos contra la narcopolítica han puesto a Chihuahua en el centro de atención, por la supuesta  penetración del crimen organizado en la alta esfera del gobierno estatal.

Refiere que la cancelación de la visa a un alto funcionario de la Fiscalía General del Estado, habría sido parte de las investigaciones que sigue el gobierno estadounidense, que incluso se anticipa que  otro de mayor rango está próximo a perderla.

Según Riva Palacio, cabe la posibilidad de que el gobierno de Donald Trump no se detuviera en revocar la visa de la gobernadora.

Otro de los puntos que aborda son los cambios de la estructura judicial y la sospecha de que dinero ilícito pueda ser inyectado en las campañas para la gubernatura de Chihuahua en 2027.

La molestia de EU y la atención sobre Chihuahua acrecenta al no advertir que no existe cambios en los cargos relevantes, a pesar de presuntas evidencias de vinculación institucional con el crimen organizado.

El gobierno de Estados Unidos cuenta con dos testigos protegidos ante el FBI que detallan el asesinato de cuatro agentes de la Agencia Estatal de Investigación y el delegado del INM en 2022 y que han revelado que existe una abogada de narcos vinculada a un alto funcionario de la fiscalía estatal fue quien puso a los agentes para ser emboscados. Así como  la operación del Cereso número 3 de Ciudad Juárez por  La Línea, que domina aproximadamente el 80% del crimen en el estado y está ligada al Cártel Jalisco Nueva Generación (CJNG).

Tras la clasificación de los cárteles como organizaciones terroristas por parte de Trump, ha generado que se confirmen operaciones de contraterrorismo se están manejando desde Fort Bliss en El Paso, bajo la supervisión de Tulsi Gabbard, Directora Nacional de Inteligencia. Participan el FBI y el Departamento de Seguridad Nacional, demostrando que Estados Unidos está eliminando los límites para enfrentar a los cárteles en la frontera, lo que presiona directamente al gobierno de Chihuahua a actuar.


Mientras Maru Campos anda en Italia, otra gobernadora habla por los chihuahuenses con Sheinbaum 

La gobernadora de Aguascalientes, Tere Jiménez, habló a nombre de los chihuahuenses ante la ausencia de Maru Campos al Consejo Nacional de Seguridad Pública que convocó la presidenta Claudia Sheibaum en Palacio Nacional.

Mientras la gobernadora Maru Campos anda en Italia, los demás mandatarios del país respondieron al llamado de Sheinbaum en materia de seguridad.

Pero la ausencia de Maru Campos fue más evidente, porque su homóloga de Aguascalientes habló a nombre de los chihuahuenses.

“De parte del gobierno de Chihuahua: se piden más recursos para la Policía, tanto estatales, como municipales”, eso fue lo que según Tere Jiménez piden los chihuahuenses.


Jueza dicta prisión preventiva a Duarte por acusaciones de lavado de dinero

Durante la audiencia celebrada el día de ayer, en contra del ex gobernador César Duarte, se determinó que el parralense se mantendrá en prisión preventiva por acusaciones de lavado de dinero. 

Medios nacionales expusieron que la audiencia se extendió por 15 horas en el Centro de Justicia Penal Federal en Almoloya de Juárez, y la Jueza María Jazmín Ambriz López, determinó que Duarte se mantendrá privado de su libertad mientras avanza la investigación.

Por cierto, trascendió que la defensa de Duarte solicitó duplicidad del término constitucional, por lo que será en los próximos días cuando se decida si será vinculado a proceso.


Y la FGR, ¿para cuándo los casos de la 4T con el mismo ímpetu?

Señalan en redes que, en medio de la detención de César Duarte por parte de la FGR, el ex gobernador Javier Corral se presenta como una figura clave nacional adjudicando a su quinquenio la investigación que replica la federación, y de la que personalmente la fiscal General de la República, Ernestina Godoy, confirma haber obtenido la autorización del gobierno de Estados Unidos.

Javier Corral, luego de la detención del ex gobernador Duarte, emprendió una serie de entrevistas en medios nacionales asegurando que la misma captura obedecería a la investigación en 2019 y que dio seguimiento la FGR durante la gestión de Gertz Manero.

Esto ocurre en el momento en el que Ernestina Godoy se autopresenta a nivel nacional como la primera Fiscal General de la República y con esta primera acción tratar de mandar un mensaje de cero impunidad y autonomía.

Ante este escenario en las redes sociales, se les cuestiona a Javier Corral por la pasarela mediática,  y  cuándo comparecerá ante la justicia de Chihuahua por el presunto delito de peculado de 98.6 millones de pesos, así como de su llegada a Morena para protegerse con el fuero.

Mientras que a Ernestina Godoy, se le señala si así con el mismo ímpetu con el que celebra la detención de César Duarte, lo mismo ocurrirá en contra de Adán Augusto López Hernández por el tema de "LaBarredora",  las caravanas médicas donadas a Andrea Chávez, las denuncias contras los hijos de López Obrador, lo relacionado al Huachicol Fiscal, así como la corrupción en Segalmex y Pemex.


No coinciden agendas de Daniela y Lilia para el debate

El debate que se han cantado, la diputada federal del PT y la presidenta del PAN en Chihuahua, parece que no tendrá fecha de coincidir. 

Primero fue Lilia Aguilar quien propuso debatir con Daniela en el DEGA el pasado viernes, sin embargo, no estuvo en Chihuahua Daniela Álvarez por agenda en otra ciudad.

Luego Daniela Álvarez durante el fin de semana convocó al debate para este lunes en el Congreso del Estado en punto de las 12pm.

Lilia Aguilar dio a conocer que no estará presente porque este lunes tienen trabajo en Comisión de Puntos Constitucionales, donde es Secretaria de la Comisión. "Quiero aclarar que el Congreso del Estado no es la oficina particular de nadie", dijo.


Rosa Icela Rodríguez encabeza la mañanera de este viernes

Debido a la visita de la presidenta Claudia Sheinbaum a los Estados Unidos, la secretaria de gobernación Icela Rodríguez encabezó esta mañana la "mañanera del pueblo".

Rodríguez expuso que la presidenta salió a Estados Unidos la tarde del jueves 04 de diciembre en un avión de la Secretaría de la Defensa Nacional, según la secretaria, por los tiempos de ida y vuelta, además expuso que se informó al Senado de la República sobre su ausencia y el motivo.

Sheinbaum estará esta mañana en el sorteo para determinar el grupo de países que jugarán en el Mundial de Futbol 2026, en compañía del presidente Donald Trump y el ministro de Canadá Mark Carney. Por otro lado, se espera que la mandataria nacional se reúna con los anteriormente mencionados para llevar a cabo platicas del T-MEC. 


Conclave de "morenistas" con titular de Conagua, acusan mercado negro del agua

Este martes se reunieron en privado los senadores de Morena, con el titular de la Comisión Nacional del Agua, Efraín Morales, previo a la votación de la reforma a la Ley de Aguas Nacionales que se someterá a votación este miércoles.

El senador Juan Carlos Loera confirmó que esta reunión es “para analizar la Ley de Aguas Nacionales, con la cual se busca frenar el mercado negro y la sobreexplotación de este recurso".

Aseguran que se legislará sin afectar derechos, pero poniendo límites a los abusos, a la corrupción y al acaparamiento del agua.


Se le olvida a Claudia Sheinbaum que el que calla otorga…

Bien dicen que el que calla otorga, y en esta ocasión quien evitó dar declaraciones sobre la causa de la salida de Alejandro Gertz Manero de la FGR que se calificó como “grave”, fue la presidenta Claudia Sheinbaum. 

Pues al ser cuestionada por una reportera durante la rueda de prensa matutina, la mandataria nacional evadió la pregunta y dijo que se reconoce el trabajo del ex fiscal, “lo importante es el reconocimiento a su trabajo y que él acepta irse a una embajada, ahora está Ernestina Godoy de interina y el proceso que se va a llevar a cabo en el senado… creo yo que es importante, manteniendo la la autonomía de la fiscalía que es fundamental, fortalecer la coordinación”, se limitó a decir.

Pese a esta nula respuesta, la periodista reformuló la pregunta en vano y mencionó la carta enviada por parte del Senado, a lo que Sheinbaum respondió que se trata de “otra cosa”, la razón de la salida de Gertz, “eso es otra cosa, lo importante es que hoy estamos en esta circunstancia y vamos a seguir hacía adelante”, sentenció.


Loera y Mata se retan a debatir en medio de disputa por reforma a la Ley de Aguas Nacionales

 La tensión política en torno a la reforma a la Ley de Aguas Nacionales escaló luego de un intercambio directo entre el senador de Morena, Juan Carlos Loera, y el director general de la Junta Central de Agua y Saneamiento de Chihuahua, Mario Mata.

El desencuentro surgió en un chat donde Loera señaló a Mata como parte de un “grupo violento” y lo acusó de recurrir a agresiones físicas ante la falta de argumentos. Mata respondió de inmediato, rechazando categóricamente las acusaciones y negando haber agredido o mandado agredir a alguien.

“No sé a qué te refieres, estimado Juan Carlos. Nunca he agredido a nadie ni mandado agredir. Acepto tu reto y pon el lugar y la fecha”, escribió Mata, quien además exigió aclaraciones frente a lo que calificó como señalamientos infundados.

El intercambio terminó convirtiéndose en un reto público a debatir, aunque ninguno de los dos ha anunciado hasta ahora la fecha, el formato o el lugar donde podría realizarse el encuentro.

La discusión se da en medio del creciente debate nacional sobre la reforma a la Ley de Aguas Nacionales, un tema que ha encendido fricciones entre distintos actores políticos y sectores productivos, especialmente en Chihuahua, entidad históricamente marcada por disputas sobre uso y control del agua.

Notas recientes