¿Qué es Sora? Una nueva herramienta de inteligencia artificial generativa podría transformar la producción de videos y amplificar los riesgos de desinformación
A fines de la semana pasada, OpenAI anunció un nuevo sistema de inteligencia artificial generativo llamado Sora , que produce videos cortos a partir de indicaciones de texto. Si bien Sora aún no está disponible para el público, la alta calidad de las muestras publicadas hasta ahora ha provocado reacciones tanto de entusiasmo como de preocupación.
Los videos de muestra publicados por OpenAI, que según la compañía fueron creados directamente por Sora sin modificaciones, muestran resultados de mensajes como «vídeo fotorrealista de primer plano de dos barcos piratas luchando entre sí mientras navegan dentro de una taza de café» y «imágenes históricas de California». durante la fiebre del oro.»
A primera vista, a menudo es difícil decir que son generados por IA, debido a la alta calidad de los videos, las texturas, la dinámica de las escenas, los movimientos de la cámara y un buen nivel de consistencia.
El director ejecutivo de OpenAI, Sam Altman, también publicó algunos videos en X (anteriormente Twitter) generados en respuesta a indicaciones sugeridas por los usuarios, para demostrar las capacidades de Sora.
¿Cómo funciona Sora?
Sora combina características de herramientas de generación de texto e imágenes en lo que se llama un » modelo de transformador de difusión «.
Los transformadores son un tipo de red neuronal presentada por primera vez por Google en 2017 . Son más conocidos por su uso en grandes modelos de lenguaje como ChatGPT y Google Gemini.
Los modelos de difusión, por otro lado, son la base de muchos generadores de imágenes de IA. Funcionan comenzando con ruido aleatorio e iterando hacia una imagen «limpia» que se ajuste a un mensaje de entrada.
Se puede hacer un vídeo a partir de una secuencia de dichas imágenes. Sin embargo, en un vídeo la coherencia y consistencia entre fotogramas son fundamentales.
Sora utiliza la arquitectura transformadora para manejar cómo se relacionan los marcos entre sí. Si bien los transformadores se diseñaron inicialmente para encontrar patrones en tokens que representan texto, Sora usa tokens que representan pequeños fragmentos de espacio y tiempo .
Riesgos y preocupaciones éticas
Las principales preocupaciones en torno a herramientas como Sora giran en torno a su impacto social y ético. En un mundo ya plagado de desinformación , herramientas como Sora pueden empeorar las cosas.
Es fácil ver cómo la capacidad de generar videos realistas de cualquier escena que puedas describir podría usarse para difundir noticias falsas convincentes o arrojar dudas sobre imágenes reales. Puede poner en peligro las medidas de salud pública, utilizarse para influir en las elecciones o incluso cargar al sistema judicial con posibles pruebas falsas .
Los generadores de vídeo también pueden permitir amenazas directas a personas específicas, a través de deepfakes, particularmente pornográficos . Estos pueden tener terribles repercusiones en las vidas de las personas afectadas y sus familias.
Más allá de estas preocupaciones, también existen cuestiones de derechos de autor y propiedad intelectual. Las herramientas de IA generativa requieren grandes cantidades de datos para el entrenamiento, y OpenAI no ha revelado de dónde provienen los datos de entrenamiento de Sora.
Por este motivo también se han criticado los grandes modelos de lenguajes y los generadores de imágenes. En Estados Unidos, un grupo de autores famosos ha demandado a OpenAI por un posible uso indebido de sus materiales. El caso sostiene que los grandes modelos lingüísticos y las empresas que los utilizan están robando el trabajo de los autores para crear nuevos contenidos.
No es la primera vez en la historia reciente que la tecnología se adelanta a la ley. Por ejemplo, la cuestión de las obligaciones de las plataformas de redes sociales a la hora de moderar el contenido ha generado un acalorado debate en los últimos años, gran parte del cual gira en torno a la Sección 230 del Código de Estados Unidos .
Si bien estas preocupaciones son reales, según la experiencia pasada no esperaríamos que detuvieran el desarrollo de la tecnología de generación de vídeo . OpenAI dice que está «tomando varias medidas de seguridad importantes» antes de que Sora esté disponible para el público, incluido trabajar con expertos en «información errónea, contenido de odio y prejuicios» y «crear herramientas para ayudar a detectar contenido engañoso».
Foto portada: OpenAI