Inteligencia artificial abre las bibliotecas de EU: empresas recurren a libros para enseñarle sobre la humanidad

AP.- Todo lo que se ha dicho en internet fue tan sólo el comienzo de enseñarle a la inteligencia artificial acerca de la humanidad. Ahora las empresas de tecnología están recurriendo a un depósito de conocimiento más antiguo: las estanterías de libros en las bibliotecas.

Casi un millón de libros publicados inclusive en una época tan antigua como el siglo XV —y en 254 idiomas— forman parte de una colección de la Universidad de Harvard que se compartió recientemente con investigadores.

Próximamente, también se incluirán tesoros de periódicos antiguos y documentos gubernamentales en poder de la biblioteca pública de Boston.

Abrir las bóvedas para tener acceso a tomos centenarios podría suponer una fortuna de datos para las empresas de tecnología que enfrentan demandas de novelistas, artistas visuales y otros cuyas obras creativas han utilizado sin su consentimiento para entrenar a chatbots de IA.

“Es una decisión prudente comenzar con la información de dominio público, porque eso es menos controversial en este momento que el contenido que todavía tiene derechos de autor”, expresó Burton Davis, abogado general adjunto de Microsoft.

Davis indicó que las bibliotecas también resguardan "enormes cantidades de datos culturales, históricos y lingüísticos interesantes", ausentes en las últimas décadas de comentarios en línea de los que los chatbots de IA han aprendido en su mayoría.

Los temores a quedarse sin información también han llevado a los desarrolladores de IA a recurrir a datos “sintéticos”, creados por los propios chatbots y de menor calidad.

Con el apoyo de “obsequios sin restricciones” de Microsoft y OpenAI —el fabricante de ChatGPT—, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas y museos de todo el mundo sobre cómo hacer que sus colecciones históricas estén listas para la IA de una manera que también beneficie a las comunidades.

“Estamos tratando de trasladar parte del poder que en este momento está en manos de la IA de vuelta a estas instituciones”, manifestó Aristana Scourtas, quien dirige la investigación en el Laboratorio de Innovación de Bibliotecas de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los administradores de los datos y la información”.

El conjunto de datos que recién publicó Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas de papel escaneadas.

Una de las obras más antiguas es del siglo XV: las reflexiones escritas a mano de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras es del siglo XIX, sobre temas como literatura, filosofía, derecho y agricultura, todas ellas meticulosamente conservadas y organizadas por generaciones de bibliotecarios.

Promete ser muy beneficioso para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.

“Muchos de los datos que se han utilizado en la capacitación en IA no provienen de fuentes originales”, señaló el director ejecutivo de la iniciativa de datos, Greg Leppert, quien también es jefe de tecnología en el Berkman Klein Center for Internet & Society de Harvard, un organismo enfocado en el estudio del ciberespacio.

Esta colección de libros cubre “hasta la copia física que escanearon las instituciones que, de hecho, reunieron dichos materiales”, agregó.

Antes de que ChatGPT desencadenara un frenesí comercial por la inteligencia artificial, a la mayoría de los investigadores de IA no les interesaba mucho la procedencia de los pasajes de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de amplios depósitos de libros pirateados.

Sólo necesitaban lo que los especialistas en informática llaman tokens: unidades de datos, cada una de las cuales puede representar el fragmento de una palabra.

La nueva colección de capacitación en IA de Harvard tiene un estimado de 242 mil millones de tokens, una cantidad que es difícil de comprender para los humanos, pero que sigue siendo sólo una gota de lo que se está introduciendo en los sistemas de IA más avanzados.

Por ejemplo, la empresa matriz de Facebook, Meta, ha dicho que la última versión de su amplio modelo de lenguaje de IA fue entrenada con más de 30 billones de tokens extraídos de texto, imágenes y videos.

Meta también hace frente a una demanda de la comediante Sarah Silverman y de otros autores con obras publicadas que acusan a la compañía de robar sus libros a partir de “bibliotecas fantasma” de obras pirateadas.

Ahora, con algunas reservas, las bibliotecas reales están imponiendo sus condiciones.

OpenAI, que también está enfrentando una serie de demandas por violaciones de derechos de autor, donó 50 millones de dólares este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de antigüedad, perteneciente a la Universidad de Oxford, que está digitalizando libros raros y usa IA para transcribirlos.

Cuando la compañía contactó por primera vez a la Biblioteca Pública de Boston, una de las más grandes de Estados Unidos, el recinto especificó claramente que cualquier información que digitalizara estaría disponible para todo el mundo, compartió Jessica Chapel, su directora de servicios digitales y en línea.

La digitalización es costosa. Por ejemplo, para la biblioteca de Boston ha sido un trabajo meticuloso escanear y organizar docenas de periódicos en francés de Nueva Inglaterra que se distribuyeron ampliamente a fines del siglo XIX y principios del XX entre las comunidades de inmigrantes canadienses de Quebec.

Ahora que dicho texto se utiliza para entrenar IA, ayuda a financiar proyectos que los bibliotecarios quieren hacer de todos modos.

La colección de Harvard ya se había empezado a digitalizar desde el 2006 para otro gigante tecnológico, Google, en su controvertido proyecto de crear una biblioteca en línea con capacidad de búsqueda de más de 20 millones de libros.

Google pasó años defendiéndose de demandas de autores por su biblioteca en línea, que incluía muchas obras más nuevas y con derechos de autor. Por fin se solucionó en 2016, cuando la Corte Suprema de Estados Unidos dio el visto bueno a fallos de tribunales inferiores que rechazaron reclamos por infracción de derechos de autor.

Ahora, por primera vez, Google ha trabajado con Harvard para extraer volúmenes de Google Books que son del dominio público y allanar el camino para compartirlos con los desarrolladores de IA.

Las protecciones de derechos de autor en Estados Unidos suelen durar 95 años, y más tiempo para las grabaciones de sonido.

La nueva iniciativa fue aplaudida por el mismo grupo de autores que demandó a Google por su proyecto de libros y que más recientemente ha llevado a empresas de IA a los tribunales.

Queda por verse qué tan útil será todo esto para la próxima generación de herramientas de IA, a medida que los datos se comparten en la plataforma Hugging Face, que alberga conjuntos de datos y modelos de IA de código abierto que cualquier persona puede descargar.

La colección de libros es más diversa lingüísticamente que las fuentes de datos características de IA.

Menos de la mitad de los volúmenes están en inglés, aunque los idiomas europeos siguen predominando, en particular el alemán, el francés, el italiano, el español y el latín.

Con información de Latinus

Tips al momento

Comienza instalación de equipo para evento “Los Compas de Cruz”

Este viernes comenzó la instalación de equipo de sonido, así como la colocación de sillas, en la Plaza de la Mexicanidad con motivo del evento denominado “Los Compas de Cruz”.

La invitación a esta fiesta empezó a circular a través de redes sociales, donde se señala que sería organizada presuntamente por el alcalde Cruz Pérez Cuéllar.

De acuerdo con la información difundida, el evento está programado para realizarse este sábado 18 de abril en uno de los espacios públicos más emblemáticos de la ciudad.


Andrea Chávez acusa al gobierno estatal de subir precio en las casetas

El aumento en las tarifas de casetas en Chihuahua generó controversia luego de que la senadora Andrea Chávez acusara a la gobernadora María Eugenia Campos de impulsar un “tarifazo”.

No obstante, el ajuste responde a disposiciones federales: las tarifas son definidas por la Secretaría de Infraestructura, Comunicaciones y Transportes y se actualizan conforme a la inflación con base en datos del Instituto Nacional de Estadística y Geografía, por lo que no dependen directamente del gobierno estatal.


Cruz Pérez Cuéllar felicita a Citlalli Hernández tras su nuevo encargo en Morena rumbo a 2027

 

El alcalde de Ciudad Juárez, Cruz Pérez Cuéllar, felicitó a Citlalli Hernández por su nuevo encargo dentro de Morena, luego de que fuera designada para encabezar la Comisión Nacional de Elecciones del partido de cara a los comicios de 2027.

A través de sus redes sociales, el edil juarense reconoció su trabajo como la primera titular de la Secretaría de las Mujeres en México y le deseó éxito en esta nueva responsabilidad, destacando que será clave para el avance del movimiento en el país y en Chihuahua.

La felicitación ocurre después de que la presidenta nacional de Morena, Luisa María Alcalde, anunciara que Hernández asumirá la presidencia de la Comisión Nacional de Elecciones, desde donde dará seguimiento a la mesa de alianzas y participará en el proceso interno de selección de candidaturas.


Renueva espectaculares Gilberto Loya en Ciudad Juárez; reaparecen sobre la Tecnológico

 

En distintos puntos de la avenida Tecnológico comenzaron a verse nuevamente espectaculares del secretario de Seguridad Pública Estatal, Gilberto Loya, con el mensaje “Gobernar con seguridad para todo Chihuahua”.

Al menos varios anuncios fueron detectados a lo largo de esta vialidad. 


Autorizan licencia indefinida a Andrea Chávez en el Senado por embarazo

El Senado de la República autorizó a la senadora de Morena, Andrea Chávez, separarse de su cargo a partir de este 15 de abril por tiempo indefinido, debido a su embarazo.

 

La legisladora había dado a conocer recientemente que espera a su primer hijo.

 

Su suplente Nora Elena Yu Hernández asumirá el escaño mientras dure su ausencia.


SNTE pide suspender clases en CDMX durante partidos del Mundial

Las secciones 9, 10, 11 y 60 del SNTE en la Ciudad de México solicitaron a la SEP suspender clases los días 11, 17, 24 y 30 de junio, debido a la movilidad y concentración masiva de personas que generarán los partidos del Mundial de futbol en la capital.


El sindicato argumentó que la medida busca evitar afectaciones en los traslados de alumnos, docentes y personal educativo, principalmente por el aumento del tránsito en zonas cercanas al Estadio Banorte (Azteca). 


Hasta ahora, la SEP no ha informado si aprobará la petición.


El PAN le copia a Morena y dejan al MCPRI el movimiento del sombrero 

El limitado ingenio del PAN sólo le da para ser una copia de la estrategia preelectoral de Morena, tanto así que ya habrá "coordinadores de defensa albiazules", es decir potenciales candidatos a las gubernaturas.

Un ejemplo muy claro es Michoacán, donde el PAN en vez de ir con Grecia Quiroz, ha decidido perfilar a Alfonso Martínez Alcázar, actual alcalde de Morelia, al que Jorge Romero nombrará "coordinador del cambio y la defensa de la familia", algo así como los "Coordinadores de la Defensa" de Morena.

El PAN ya marca distancia con el PRI, incluyendo que esto signifique derrota.

Quedaría para el PRI y MC la apuesta con Grecia Quiroz, viuda de Carlos Manzo y el Movimiento del Sombrero.

Notas recientes