El año pasado, la IA generativa arrasó en el mundo. El ritmo de avance ha sido poco menos que asombroso, con OpenAI (y su asociación con Microsoft) acaparando gran parte de la atención después del lanzamiento de ChatGPT a finales del año pasado.
La semana pasada, Google subió las apuestas con la presentación de su último modelo de IA generativa. Geminisun esfuerzo conjunto de Google Brain y DeepMind y un competidor directo del GPT-4 de OpenAI.
Google está promocionando Gemini como nativamente multimodal. Eso significa que sus componentes no están unidos después del hecho a partir de tipos separados de contenido y datos. En cambio, se construyó desde cero en diferentes modalidades, combinando miles de millones de parámetros que representan texto, imágenes, video, audio y código de programación.
Con el lanzamiento de Gemini, algunas personas se preguntan si quizás finalmente hemos creado la inteligencia artificial general, o AGI, llegando al punto en que nuestra tecnología se vuelve más inteligente que nosotros mismos.
“Es imposible juzgar si [Google] logró AGI o no en base a videos de relaciones públicas muy editados sin acceso público a la API”, dijo Yejin Choiprofesor Wissner-Slivka y miembro MacArthur de la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen de la Universidad de Washington y director senior del Instituto Allen para la IA (AI2).
AI2, un instituto de investigación sin fines de lucro con sede en Seattle, está a la vanguardia de la exploración y el avance de la IA desde su fundación en 2014. Su misión es contribuir a la humanidad a través de la investigación y la ingeniería de IA de alto impacto.
“El progreso tecnológico en GPT y similares ha sido impresionante, pero todavía no estamos ni cerca de la inteligencia a nivel humano”, dijo Oren Etzioni, profesor emérito de la Universidad de Washington y ex director ejecutivo de AI2. “Por ejemplo, todavía estamos luchando por introducir vehículos autónomos”.
Los modelos de lenguaje grande (LLM) y otras formas de IA generativa han hecho posible que la inteligencia artificial realice un número cada vez mayor de tareas con capacidades que parecen ser paralelas y, a veces, incluso superiores, a las de la cognición humana. Desde preparar instantáneamente plantillas comerciales hasta componer poesía y explorar rápidamente nuevos enfoques para la resolución de problemas, estos avances recientes nos están llevando a una relación verdaderamente diferente con nuestra tecnología.
Con Gemini, Google no sólo parece haber alcanzado al ChatGPT basado en GPT-4 de OpenAI, sino que lo ha superado. Los resultados de las pruebas publicadas por Google muestran que Gemini supera a ChatGPT e incluso supera muchas puntuaciones humanas en su comprensión del conocimiento mundial y la resolución de problemas.
Según Google, con una puntuación del 90%, Gemini Ultra es el primer modelo que supera a los expertos humanos en el MMLU (Comprensión masiva del lenguaje multitarea). MMLU, que evalúa tanto el conocimiento mundial como las habilidades de resolución de problemas, cubre conocimientos en 57 materias. Si los resultados de estas pruebas se mantienen, Gemini avanzará y acelerará el conocimiento humano como ninguna IA lo ha hecho antes.
Pero a pesar de esto, no deberíamos cometer el error de pensar que esta nueva IA es en realidad tan inteligente como una persona. En verdad, Gemini y otros modelos grandes parecen tener todavía muchos desafíos por delante.
Al anunciar el lanzamiento de Gemini, Google produjo una serie de videos para comercializar la nueva IA, incluido un video de demostración que muestra a Gemini respondiendo rápida y sin esfuerzo a las preguntas de un usuario humano fuera de la pantalla. Pero mientras fue indicado en la descripción de YouTube que el video había sido editado por latencia, pronto se reveló que estas ediciones eran mucho más extensas de lo que sugiere su declaración.
Detrás de escena, también hay indicaciones Parece haber sido mucho más extenso y detallado. que los retratados en el vídeo. La respuesta posterior de los medios ha sido poco generosa. Si bien todavía tenemos que ver exactamente qué tan capaz es Gemini en el mercado, este no es el tipo de lanzamiento que nadie quiere para su producto. En retrospectiva, Google probablemente habría estado mejor con una descripción más realista de las capacidades actuales de Gemini.
Entonces, por muy emocionantes que sean todos estos avances, la AGI probablemente siga siendo una aspiración lejana. Sin duda, esta será una pregunta que se planteará habitualmente con cada avance importante de la IA en las próximas décadas.
Mientras tanto, esto no disminuye las preocupaciones sobre la seguridad de la IA. Incluso si esta IA no alcanza el AGI, ¿cómo nos aseguraremos de que estos nuevos y poderosos sistemas sean adecuados para uso público y empresarial?
Entrenamiento y salvaguardias de IA
Al entrenar y probar Gemini, Google supuestamente utilizó AI2 Avisos de toxicidad real para garantizar que su producción sea adecuada para estos fines. A principios de 2021, el equipo de Choi en AI2 desarrolló y publicó este conjunto de 100.000 mensajes, como informé en Chinaderita y ½ hace casi tres años.
Debido a que la toxicidad en el lenguaje es compleja y extensa, particularmente cuando se extrae del contenido de la web, no es posible filtrar simplemente por palabras vulgares u odiosas. Real Toxicity Prompts proporciona una forma de entrenar sistemas para identificar y filtrar formas más matizadas de lenguaje y significado tóxicos.
Esto es extremadamente importante porque a medida que estos grandes modelos se han vuelto cada vez más complejos, se han necesitado más esfuerzos para crear salvaguardias en torno a su producción. Esto probablemente será aún más crucial a medida que los desarrolladores empiecen a confiar en enfoques multimodales.
Gemini “fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video”, Demis Hassabis, director ejecutivo y cofundador de Mente profunda, escribió en un blog reciente de Google.
Al aprovechar el poder del gran modelo multimodal, Gemini ofrece capacidades que habrían sido imposibles hace sólo unos pocos años. En los últimos años, los enfoques multimodales han llegado a ser vistos como una forma de aportar nuevas capacidades importantes a la IA generativa debido al contexto adicional que estas capas adicionales de información pueden proporcionar.
A diferencia de los grandes modelos originales de lenguajes que construyeron su producción exclusivamente a partir de vastas colecciones de texto, los modelos multimodales obtienen más significado de las muchas formas diferentes de sus datos subyacentes. En cierto modo, esto es paralelo a cómo nosotros mismos construimos una comprensión mucho más profunda de las situaciones recurriendo a nuestros múltiples sentidos: vista, oído, etc. Este enfoque multimodal permite que estos sistemas generen resultados mucho más capaces, matizados y útiles.
Géminis se lanza en tres niveles.
- Gemini Pro ya se está incorporando a Google Bard.
- Actualmente, Gemini Ultra se está perfeccionando y probando su seguridad con planes para implementarlo para desarrolladores y clientes empresariales a principios de 2024.
- Gemini Nano, una versión más compacta que se puede utilizar en dispositivos móviles, ahora forma parte del Pixel 8 Pro y se agregará a una cantidad cada vez mayor de productos en los próximos meses.
Obstáculos restantes para la IA
Tras el meteórico lanzamiento de ChatGPT por parte de OpenAI, a muchas personas les pareció que Google se estaba poniendo al día. Pero la compañía parece haber elegido un enfoque más lento para construir y lanzar su nuevo modelo, ya que aborda seriamente las preocupaciones sobre la seguridad de la IA, esforzándose por incorporar salvaguardias importantes en Gemini, como reducir su potencial de lenguaje tóxico.
Hay muchas otras consideraciones cuando se trata de la seguridad y la ética de la IA. Como vimos con ChatGPT, ha habido muchos casos de uso imprevistos, muchos de ellos ilegales o dañinos.
Si bien es reconfortante que Google se haya tomado su tiempo y haya aplicado un gran esfuerzo para crear salvaguardas en torno a su nueva tecnología, aún está por ver si esto será suficiente. Dada la complejidad del sistema y la opacidad de los datos subyacentes, lo más probable es que ahora nos enfrentemos a toda una nueva serie de desafíos.
Además de todo esto, probablemente sea seguro decir que nos espera otra ronda de entusiastas bombardeos de relaciones públicas y exageración sin aliento dentro de los medios a medida que todos entendemos estos últimos avances y aceptamos lo que realmente significan estos nuevos sistemas. puedo y no puedo hacer. ¿Destruirán empleos o simplemente transformarán nuestra forma de trabajar? ¿Nos ayudarán estos modelos a gestionar mejor las grandes cantidades de información que nuestro mundo está creando? ¿O conducirán a una explosión de desinformación y la consiguiente desconfianza que esto conlleva?
A pesar de todos los problemas que trae consigo la nueva tecnología, vale la pena recordar que construimos estas IA para que sean nuestras herramientas. Todavía están muy lejos de ser conscientes de sí mismos o de tener algo parecido a las motivaciones humanas que impulsan nuestras propias elecciones y acciones.
Los medios estadísticos por los cuales la IA generativa razona y genera resultados son completamente diferentes del funcionamiento de la cognición humana y probablemente seguirán siéndolo durante mucho tiempo. Probablemente sea una suerte. En muchos aspectos, es esta diferencia la que hace que la IA sea tan útil para nosotros como herramienta que necesitaremos para las siguientes etapas de progreso. Qué papel jugará Géminis en todo esto, sólo el tiempo lo dirá.