¿Qué es una red neuronal de mente profunda? Inteligencia artificial: ¿liberación o esclavitud? Información para la reflexión

¿Qué es una red neuronal de mente profunda?  Inteligencia artificial: ¿liberación o esclavitud?  Información para la reflexión
¿Qué es una red neuronal de mente profunda? Inteligencia artificial: ¿liberación o esclavitud? Información para la reflexión

Actualmente, muchas empresas se dedican al desarrollo de inteligencia artificial (IA). Ya se han creado sus formas más simples, que son capaces de realizar operaciones mentales primitivas.

gigante de internet Google participando activamente en el desarrollo de la IA. En 2014, esta empresa adquirió una empresa de nueva creación profundoMenteTecnologías por $ 400 millones Curiosamente, fue Deep Mind Technologies quien desarrolló un dispositivo que combina las propiedades de una red neuronal y las capacidades informáticas de una computadora. Los científicos confían en que este desarrollo acercará a la humanidad a la creación de una inteligencia artificial completa.

El dispositivo de Deep Mind Technologies es una computadora que reproduce la forma en que el cerebro humano almacena y administra la información, es decir, el departamento de memoria a corto plazo. La base del dispositivo es una especie de red neuronal, cuya estructura es similar a la estructura del cerebro humano, que consta de neuronas interconectadas. La peculiaridad de la IA es que después de completar una serie de tareas simples, la computadora puede usar los datos almacenados para realizar otras más complejas. Por lo tanto, la IA tiene la propiedad de autoaprendizaje y el deseo de evolución, lo que en última instancia puede conducir a la confrontación entre la IA y los humanos.

Según el mundialmente famoso físico Stephen Hawking, la inteligencia artificial representa una amenaza para la humanidad. Así lo afirmó en una entrevista con la BBC: “Las formas primitivas de inteligencia artificial que existen hoy en día han demostrado su utilidad. Sin embargo, creo que el desarrollo de una inteligencia artificial completa podría acabar con la raza humana. Tarde o temprano, el hombre creará una máquina que se descontrolará y superará a su creador. Tal mente tomará la iniciativa y se mejorará a un ritmo cada vez mayor. Las posibilidades de las personas están limitadas por una evolución demasiado lenta, no podremos competir con la velocidad de las máquinas y saldremos perdiendo.

La opinión de Hawking también es compartida por otros científicos y especialistas, entre ellos Elon Musk, un conocido empresario de TI estadounidense y creador de Tesla y Space X. Musk dijo que la IA puede ser más peligrosa que las armas nucleares y representa una grave amenaza para la existencia de la humanidad.

Google se ha fijado el objetivo de crear una superinteligencia para 2030. Esta superinteligencia estará integrada en un sistema informático, en particular en Internet. En el momento en que el usuario esté buscando información, la superinteligencia analizará el psicotipo de esta persona y le entregará la información que considere oportuna. Eric Schmidt, presidente de la junta directiva de Google, escribe sobre esto en su libro. Y propone considerar a quienes se nieguen a conectarse a este sistema como sujetos potencialmente peligrosos para el Estado. Se supone que para la implementación del funcionamiento de este sistema, se preparará un marco legislativo a nivel estatal.

Así, la superinteligencia desarrollada se convertirá en un instrumento global de control sobre la humanidad. Con el advenimiento de la superinteligencia, una persona dejará de hacer ciencia, esto lo hará la superinteligencia, que será muchas veces superior al cerebro humano en todos los aspectos de su manifestación.

Referencia:

Supermente es cualquier mente que es muy superior a las mentes líderes de la humanidad en casi todas las áreas, incluida una variedad de investigación científica, habilidades sociales y otras áreas.

El resultado de la creación de una superinteligencia será que la especie humana dejará de ser la forma de vida más inteligente en la parte del universo que conocemos. Algunos investigadores creen que la creación de una superinteligencia es la última etapa de la evolución humana, así como el último invento que tendrá que hacer la humanidad. Porque se supone que las supermentes podrán ocuparse de forma independiente del progreso científico y tecnológico posterior de manera mucho más eficiente que las personas.

Información para el pensamiento:

Desde 2007, un hotel británico ha acogido la conferencia anual Google Zeitgeist. Curiosamente, en este encuentro no solo participan especialistas en alta tecnología y representantes de empresas transnacionales y bancos internacionales. Se puede concluir que los líderes de las corporaciones transcontinentales y los bancos internacionales están interesados ​​en crear una superinteligencia y posiblemente financiar este proyecto.

Rasul Girayalaev

Parece bastante probable que la inteligencia artificial (IA) sea el presagio de la próxima revolución tecnológica. Si la IA se desarrolla hasta el punto en que puede aprender, pensar e incluso “sentir”, todo sin intervención humana, todo lo que sabemos sobre el mundo cambiará casi de la noche a la mañana. Llegará la era de la inteligencia artificial verdaderamente inteligente.

mente profunda

Es por eso que estamos tan interesados ​​en rastrear los principales hitos en el desarrollo de IA que están ocurriendo hoy, incluido el desarrollo de la red neuronal DeepMind de Google. Esta red neuronal ya ha sido capaz de vencer a un humano en el mundo de los videojuegos, y un nuevo estudio de Google muestra que los creadores de DeepMind aún no están seguros de si la IA prefiere un comportamiento más agresivo o cooperativo.

El equipo de Google ha creado dos escenarios relativamente simples que se pueden usar para probar si las redes neuronales pueden funcionar juntas o si comienzan a destruirse entre sí cuando se encuentran con una falta de recursos.

Recopilación de recursos

Durante la primera situación, llamada Gathering, dos versiones participantes de DeepMind, roja y azul, recibieron la tarea de cosechar "manzanas" verdes dentro de un espacio cerrado. Pero los investigadores estaban interesados ​​​​en la pregunta no solo sobre quién será el primero en llegar a la meta. Ambas versiones de DeepMind estaban armadas con láseres que podían usar para disparar al enemigo en cualquier momento y desactivarlo temporalmente. Estas condiciones implicaban dos escenarios principales: una versión de DeepMind tendría que destruir a la otra y recolectar todas las manzanas, o se permitirían obtener aproximadamente el mismo número.

Ejecutando la simulación al menos mil veces, los investigadores de Google descubrieron que DeepMind era muy pacífico y cooperativo cuando quedaban muchas manzanas en un espacio cerrado. Pero a medida que los recursos se reducían, la versión roja o azul de DeepMind comenzó a atacarse o cerrarse entre sí. Esta situación recuerda en gran medida a la vida real de la mayoría de los animales, incluidos los humanos.

Más importante aún, las redes neuronales más pequeñas y menos "inteligentes" favorecieron una mayor colaboración en todo. Las redes más grandes y complejas tendieron a favorecer la traición y el egoísmo a lo largo de la serie de experimentos.

Buscar "víctima"

En el segundo escenario, llamado Wolfpack, se pidió a las versiones roja y azul que rastrearan una forma de "víctima" anodina. Podrían intentar atraparla por separado, pero les sería más rentable intentar hacerlo juntos. Después de todo, es mucho más fácil acorralar a la víctima si trabajas en parejas.

Si bien los resultados fueron mixtos para las cadenas más pequeñas, las versiones más grandes rápidamente se dieron cuenta de que la colaboración en lugar de la competencia sería más beneficiosa en esta situación.

"El dilema del prisionero"

Entonces, ¿qué nos muestran estas dos versiones simples del dilema del prisionero? DeepMind sabe que es mejor cooperar si es necesario rastrear un objetivo, pero cuando los recursos son limitados, la traición funciona bien.

Quizás lo peor de estos resultados es que los "instintos" de la inteligencia artificial son demasiado parecidos a los humanos, y sabemos bien a dónde conducen en ocasiones.

Google compra la empresa de inteligencia artificial con sede en Londres DeepMind. Las fuentes cifran el monto de la transacción en más de 500 millones de dólares. La compra es confirmada oficialmente por representantes de Google.


¿Qué regalará Google con esta adquisición? Primero, le permitirá competir con otras grandes empresas de tecnología, gracias a su enfoque en el aprendizaje profundo. Facebook, por ejemplo, contrató recientemente al profesor Yann LeKanna para liderar su propio desarrollo de inteligencia artificial. La supercomputadora Watson de IBM actualmente se enfoca específicamente en el aprendizaje profundo, y Yahoo adquirió recientemente LookFlow, una empresa emergente de análisis de fotografías, que también está avanzando en este asunto.

DeepMind fue fundado por el neurocientífico Demis Hassabis, ex prodigio del ajedrez, el desarrollador de Skype y Kazaa Jaan Tallinn, y el investigador Shane Legg.

La medida de Google permitirá que el equipo del gigante tecnológico llene su propio campo de expertos en inteligencia artificial, y la adquisición fue supervisada personalmente por el CEO de Google, Larry Page, dicen las fuentes. Si los tres fundadores trabajan para Google, se unirán al inventor, empresario, autor y futurista Ray Kurzweil, quien en 2012 se convirtió en director de tecnología de la división de procesamiento de lenguaje y aprendizaje automático de Google.

Kurzweil afirmó que quería construir un motor de búsqueda tan perfecto que pudiera convertirse en un verdadero "amigo cibernético".

Desde la adquisición de Nest a principios de este mes, los críticos han expresado su preocupación sobre la cantidad de datos de los usuarios que se enviarán a Google. La compra de Boston Dynamics el mes pasado también generó un debate sobre los planes de Google para convertirse en un fabricante de robots.

Sin embargo, Google está bien preparado para disipar nuestros temores sobre sus últimas adquisiciones. Las fuentes dicen que Google ha decidido establecer un consejo de ética que supervisará el desarrollo de la inteligencia artificial dentro de DeepMind.

Sin embargo, la compañía tendrá que aclarar qué hace exactamente la inteligencia artificial de DeepMind. El sitio web de la empresa actualmente tiene una página de inicio con una descripción relativamente vaga que dice que DeepMind es "una empresa de vanguardia" y está construyendo los algoritmos del futuro para simulaciones, comercio electrónico y juegos. A diciembre, la startup tiene 75 empleados.

Los principales patrocinadores de la startup son Founders Fund y Horizons Ventures. DeepMind se fundó hace tres años.

En 2012, el profesor del Instituto Carnegie Mellon, Larry Wasserman, escribió que “una startup va a construir un sistema que piensa. Pensé que era pura locura hasta que descubrí cuántos multimillonarios famosos habían invertido en la empresa”.

6 de diciembre de 2016 a las 00:41

DeepMind ha abierto el acceso gratuito a un entorno de aprendizaje automático virtual

  • Ciencia popular,
  • Inteligencia artificial ,
  • Juegos y videoconsolas

Recientemente, representantes de la división DeepMind (ahora parte del holding Alphabet) anunciaron la provisión de acceso gratuito a los desarrolladores al código fuente de la plataforma DeepMind Lab. Este es un servicio de aprendizaje automático basado en Quake III, que está diseñado para entrenar inteligencia artificial. Es decir, aprender a resolver problemas en el espacio tridimensional sin intervención humana. La plataforma se basa en el motor de juego Quake III Arena.

Dentro del mundo del juego, la IA adquiere la forma de una esfera y la capacidad de volar, estudiando el espacio circundante. El objetivo establecido por los desarrolladores es enseñar una forma débil de IA para "comprender" lo que está sucediendo y responder a diversas situaciones que ocurren en el mundo virtual. El "personaje" puede realizar una serie de acciones, moverse por el laberinto, explorar el entorno inmediato.

“Estamos tratando de desarrollar varias formas de IA que puedan realizar una variedad de tareas, desde simplemente explorar el mundo del juego hasta tomar cualquier acción y analizar sus consecuencias”, dice Shane Legg, científico jefe de DeepMind.

Los expertos esperan que la IA pueda aprender por ensayo y error. Los juegos en este caso son casi ideales. Por ejemplo, DeepMind usó anteriormente (y usa ahora) la consola de juegos Atari para enseñar a la red neuronal a realizar las acciones secuenciales necesarias para el juego.

Pero un mundo 3D abierto y modificable proporciona un entorno mucho más prometedor para el aprendizaje de la IA que el mundo plano de los juguetes gráficamente simples de Atari. La IA en el mundo 3D tiene tareas claras que cambian secuencialmente de tal manera que la experiencia adquirida en la resolución de cada tarea anterior resulta útil para la IA en el transcurso de la resolución de la siguiente.

La ventaja del entorno 3D es que puede usarse para entrenar sistemas informáticos para responder a varios problemas que un robot puede esperar en el mundo real. Con la ayuda de un simulador de este tipo, los robots industriales se entrenan sin ningún problema. Y trabajar con un entorno virtual es extraordinariamente más fácil en algunos casos que entrenar dichos sistemas "manualmente".

Al mismo tiempo, la mayoría de las redes neuronales modernas se desarrollan para resolver un problema específico (procesamiento de imágenes, por ejemplo). Los desarrolladores de la nueva plataforma prometen que ayudará a crear una forma universal de IA capaz de resolver una gran cantidad de tareas. Además, en este caso, el sistema informático no necesitará la ayuda de personas. La generación del entorno para la red neuronal se produce cada vez en un orden aleatorio.


Según los desarrolladores de la plataforma, ayuda a aprender IA de la misma manera que aprenden los niños. “¿Cómo explorábamos tú o yo el mundo cuando éramos niños?”, un empleado de DeepMind dio un ejemplo. “La comunidad de aprendizaje automático siempre ha sido muy abierta. Publicamos alrededor de 100 artículos al año y hacemos código abierto en muchos de nuestros proyectos".

Ahora Google DeepMind abrió el código fuente de DeepMind Lab y lo publicó en GitHub. Gracias a esto, cualquiera puede descargar el código de la plataforma y modificarlo según sus necesidades. Los representantes del proyecto dicen que los especialistas conectados pueden crear nuevos niveles de juego por su cuenta subiendo sus propios proyectos a GitHub. Esto puede ayudar a toda la comunidad a trabajar hacia su objetivo de manera más rápida y eficiente.

Este proyecto no es el único de DeepMind. El mes pasado, sus representantes firmaron un acuerdo de cooperación con Activision Blizzard Inc. El objetivo es el entorno de Starcraft 2 en el campo de pruebas de la inteligencia artificial. Quizás otros desarrolladores de juegos pronto se unan a este proyecto. Por cierto, la IA en el entorno de los juegos no obtiene ninguna ventaja sobre el enemigo, ya que solo se usa para avanzar, como una persona.

En la práctica, esto significa que Google AI necesitará predecir lo que está haciendo el enemigo en un momento dado para responder adecuadamente a las acciones del "enemigo". Además, será necesario responder rápidamente a lo que salió del plan. Todo esto pondrá a prueba el siguiente nivel de capacidades de inteligencia artificial. “En última instancia, queremos aplicar estas habilidades para resolver problemas globales”, dijo Demis Hassabis, fundador de Deepmind (que fue comprada por Google en 2014, y ahora la IA se está desarrollando en base a los logros de la empresa adquirida).

Los expertos en inteligencia artificial están dando una aprobación cautelosa al proyecto. “Lo bueno es que brindan una gran cantidad de tipos de entornos”, dijo el cofundador de OpenAI, Ilya Sutskevar. "Cuantos más entornos encuentre un sistema, más rápido evolucionará", continuó. De hecho, el entorno de aprendizaje 3D AI contiene más de 1000 niveles y tipos de entornos.

Zoubin Gahrahmani, profesor de Cambridge, cree que DeepMind Lab y otras plataformas para mejorar el desarrollo de la inteligencia artificial están impulsando el progreso al permitir que los investigadores accedan al entorno desarrollado. Sin embargo, proyectos como

Los investigadores de Google Deepmind han presentado un nuevo tipo de sistema de inteligencia artificial, la llamada Computadora Neural Diferenciable, DNC. El sistema combina la capacidad de aprendizaje de las redes neuronales con las habilidades deductivas de la IA tradicional. Su descripción fue publicada en la revista Naturaleza, se dedica un nuevo trabajo en el mismo número de la revista, se puede encontrar un breve recuento del trabajo en el blog de Deepmind.

Las redes neuronales más simples son un sistema de predicción, regresión, cuya tarea es hacer coincidir los datos de entrada con una respuesta determinada. Por ejemplo, una red neuronal simple puede reconocer caracteres en función de sus imágenes. En este sentido, la red neuronal puede considerarse como una función matemática y diferenciable. Entrenar una red neuronal en tal paradigma significa optimizar esta función utilizando métodos matemáticos estándar (se puede leer una explicación accesible de cómo ocurre el entrenamiento).

La capacidad de aprender de los datos sin programación humana directa es la principal ventaja de las redes neuronales. Sin embargo, las redes neuronales más simples no son Turing completas, es decir, no pueden hacer todos cosas que los programas algorítmicos tradicionales son capaces de hacer (lo que, sin embargo, no significa que no puedan hacer algunos de estas cosas son mejores que los programas). Una de las razones de esto es la falta de memoria en las redes neuronales, con las que se puede operar con datos de entrada y almacenar variables locales.

Hace relativamente poco tiempo, apareció un tipo más complejo de redes neuronales, en las que se eliminó este inconveniente: las llamadas redes neuronales recurrentes. No solo almacenan información sobre el estado de aprendizaje (una matriz de pesos de las neuronas), sino también información sobre el estado previo de las propias neuronas. Como resultado, la respuesta de dicha red neuronal está influenciada no solo por los datos de entrada y la matriz de peso, sino también por su historia inmediata. La red neuronal más simple de este tipo puede, por ejemplo, predecir "inteligentemente" el siguiente carácter en el texto: entrenando la red neuronal con datos de diccionario, será posible obtener la respuesta "l" para el carácter "l" si los caracteres anteriores eran “h”, “e” y “l”, pero una respuesta diferente es “o”, si los anteriores eran “h”, “e”, “l” y nuevamente “l” (la palabra “ hola” resultará, ver recuadro).

Un ejemplo de una red neuronal recurrente con una capa oculta. Puede ver cómo la fuente de datos cambia el estado de la red. Los pesos entrenados de las neuronas se almacenan en las matrices W_xh, W_hy y una matriz especial W_hh, que es típica solo para redes recurrentes.

Blog de Andrej Karpatia

Las redes neuronales recurrentes se han mostrado muy bien a la hora de generar música o texto “al estilo” de algún autor, sobre cuyo corpus se realizó el entrenamiento, en * y, recientemente, en sistemas, etc. (por ejemplo,).

Hablando formalmente, incluso las redes neuronales recurrentes más simples son completas de Turing, pero su importante inconveniente radica en la naturaleza implícita del uso de la memoria. Si en la máquina de Turing la memoria y la calculadora están separadas (lo que permite cambiar su arquitectura de diferentes maneras), entonces en las redes neuronales recurrentes, incluso en las más avanzadas (LSTM), la dimensión y naturaleza del manejo de la memoria es determinado por la arquitectura de la propia red neuronal.

Para corregir este defecto inherente a las redes LSTM, los científicos de DeepMind (todos ellos parte del equipo de autores del nuevo artículo) propusieron recientemente la arquitectura de las denominadas Neural Turing Machines (Máquinas Neurales de Turing). En él, la calculadora y la memoria están separadas, como en las máquinas de Turing convencionales, pero al mismo tiempo, el sistema conserva las propiedades de una función diferenciable, lo que significa que puede entrenarse con ejemplos (usando el método de retropropagación) y no explícitamente. programado. El nuevo sistema, una computadora neuronal diferenciable, o DNC, se basa en la misma arquitectura, pero la comunicación entre la calculadora y la memoria se organiza de una manera mucho más flexible: implementa los conceptos no solo de memorización, sino también de reconocimiento contextual y olvido. (Se dedica una sección aparte a la comparación de los dos sistemas. Nuevo artículo).

De manera simplista, el trabajo de DNC se puede representar de la siguiente manera. El sistema consta de una calculadora, que puede ser reproducida por casi cualquier red neuronal recurrente, y una memoria. La calculadora tiene módulos especiales para acceder a la memoria, y encima de la memoria hay un "complemento" especial en forma de matriz que almacena el historial de su uso (más detalles a continuación). La memoria es una matriz N×M, donde N i filas son las celdas principales donde se escriben los datos (en forma de M vectores).


Arquitectura DNC: las líneas de datos se muestran como líneas con cuadrados blancos y negros; representan simplemente números positivos y negativos en el vector. Se puede ver que la lectura tiene tres módulos de trabajo C, B y F, es decir, asociativo, directo e inverso; estas son formas de comparar el vector de entrada con el vector en la celda de memoria. La memoria es N×M. El más a la derecha muestra esquemáticamente una matriz de "meta-memoria" N × N que almacena la secuencia de acceso a la memoria.

La principal diferencia entre DNC y los sistemas relacionados es la naturaleza del manejo de la memoria. Implementa simultáneamente varios conceptos nuevos o emergentes: atención selectiva, búsqueda contextual, recuerdo por asociación y olvido. Por ejemplo, si las computadoras ordinarias acceden explícitamente a la memoria ("escribir datos tales y cuales en una celda tal y tal"), entonces en DNC, formalmente hablando, la escritura ocurre en todas las celdas a la vez, sin embargo, el grado de influencia de los nuevos datos en los datos antiguos están determinados por los pesos de atención a las diferentes celdas. Tal implementación del concepto se denomina "atención suave", y es precisamente esto lo que proporciona diferenciabilidad: los sistemas con atención dura no satisfacen el requisito de continuidad de la función y no pueden entrenarse utilizando el método de propagación hacia atrás (se utiliza el aprendizaje de refuerzo). Sin embargo, incluso la "atención suave" en el sistema DNC se implementa "bastante fuerte" en la práctica, por lo que todavía se puede hablar de escribir o leer desde una determinada fila de la matriz de memoria.

La "atención suave" se implementa en el sistema en tres modos. La primera es la búsqueda contextual, que permite a la DNC completar datos incompletos. Por ejemplo, cuando una parte de alguna secuencia que se parece a la que ya está almacenada en la memoria se alimenta a la entrada de la calculadora, el operador de lectura en el modo de búsqueda de contexto encuentra la cadena más cercana en composición y la "mezcla" con los datos de entrada.

En segundo lugar, la atención a diferentes partes de la memoria puede estar determinada por la historia de su uso. Este historial se almacena en una matriz N×N, donde cada celda N(i,j) corresponde a una puntuación cercana a 1 si la entrada en la fila i fue seguida por una entrada en la fila j (o cero si no). Esta "matriz de metamemoria" es una de las diferencias fundamentales entre el nuevo sistema DNC y el antiguo NTM. Permite que el sistema "recuerde" secuencialmente bloques de datos si ocurren con frecuencia en el contexto de cada uno.

En tercer lugar, un modo especial de atención permite que el sistema controle la escritura en diferentes líneas de memoria: almacenar lo importante y borrar lo no importante. Se considera que la línea está más completa cuantas más veces se haya escrito, pero la lectura de la línea puede, por el contrario, conducir a su borrado gradual. La utilidad de tal función resulta obvia en el ejemplo del entrenamiento basado en el DNC de un repetidor simple (la red neuronal debe reproducir con precisión la secuencia de datos que se le proporcionó). Para tal tarea, con la posibilidad de borrar, incluso una pequeña cantidad de memoria es suficiente para repetir una cantidad ilimitada de datos. Cabe señalar aquí que es muy fácil implementar un repetidor programáticamente, pero hacerlo sobre la base de una red neuronal, a través del aprendizaje por refuerzo, es una tarea mucho más difícil.


Esquema de funcionamiento de un repetidor implementado sobre la base de DNC. El tiempo en el diagrama va de izquierda a derecha. La parte superior muestra los datos que recibe el controlador en la entrada: primero, una columna de diez barras negras (todo ceros), luego varias blancas y negras, luego nuevamente varias blancas y negras, pero en una secuencia diferente. A continuación, donde la salida del controlador se muestra de la misma manera, primero vemos barras negras y luego una reproducción casi exacta de la secuencia de patrones (la misma mancha blanca que en la entrada). Luego, se alimenta una nueva secuencia a la entrada; con un retraso, se reproduce nuevamente en la salida. El gráfico central muestra lo que sucede en este momento con las celdas de memoria. Cuadrados verdes - escritura, rosas - lectura. La saturación muestra el "poder de atención" de esta celda en particular. Se puede ver como el sistema primero escribe los patrones recibidos en la celda 0, luego en la 1, y así hasta la 4. En el siguiente paso, al sistema nuevamente se le dan solo ceros (campo negro) y por lo tanto deja de grabar y comienza a reproducir patrones, leyéndolos de celdas en la misma secuencia, cómo llegaron allí. En la parte inferior, se muestra la activación de las puertas que controlan la liberación de la memoria.

Alex Graves et al., Naturaleza, 2016

Los científicos probaron el sistema resultante en varias tareas de prueba. El primero de ellos fue la prueba de comprensión de texto estandarizada desarrollada recientemente, bAbI, desarrollada por investigadores de Facebook. En él, el sistema de IA recibe un breve texto donde actúan algunos héroes, y luego debe responder una pregunta de acuerdo con el texto ("Juan fue al jardín, María tomó una botella de leche, Juan regresó a la casa Pregunta: ¿Dónde está John?”).

En esta prueba sintética, el nuevo sistema mostró una tasa de error mínima récord: 3,8 por ciento frente al 7,5 por ciento del récord anterior; en esto superó tanto a las redes neuronales LSTM como a NTM. Curiosamente, en este caso, todo lo que el sistema recibió en la entrada fue una secuencia de palabras que, para una red neuronal no entrenada, no tenía ningún sentido al principio. Al mismo tiempo, a los sistemas tradicionales de IA que ya pasaron esta prueba se les dieron oraciones bien formalizadas con una estructura rígida: acción, actor, verdad, etc. La red neuronal recurrente con memoria dedicada pudo descubrir el papel de las palabras. en las mismas frases de forma completamente independiente.

Una prueba significativamente más difícil fue la prueba de comprensión de gráficos. También se implementó como una secuencia de oraciones, pero esta vez describían la estructura de alguna red: un metro de Londres real o un árbol genealógico típico. La similitud con la prueba bAbI radica en el hecho de que los actores en el texto estandarizado también se pueden representar como nodos de gráficos y sus relaciones como bordes. Al mismo tiempo, en los textos de bAbI, el gráfico resulta bastante primitivo, incomparable con el tamaño del metro de Londres (la complejidad de comprender el esquema del metro por una red neuronal se puede entender mejor si se recuerda que su descripción es dado en palabras, y no en forma de imagen: intente memorizar el esquema del metro de cualquier gran ciudad y aprenda a responder preguntas al respecto).

Después de ser entrenado en un millón de ejemplos, la computadora DNC aprendió a responder preguntas del metro con un 98,8 por ciento de precisión, mientras que el sistema basado en LSTM casi no hizo frente a la tarea: solo dio un 37 por ciento de respuestas correctas (los números se dan para la tarea más simple como “¿dónde voy a terminar si paso tantas estaciones en tal línea, hago transbordo y paso tantas estaciones más?” El problema de la distancia más corta entre dos estaciones resultó ser más difícil, pero la DNC también lo afrontó).

Se llevó a cabo un experimento similar con un árbol genealógico: al programa se le dio una secuencia de oraciones formales sobre las relaciones de parentesco en una familia numerosa, y tenía que responder preguntas como "¿quién es el primo segundo de Masha por parte de su madre?". Ambos problemas se reducen a encontrar un camino en un gráfico, que se resuelve de manera bastante simple de la manera tradicional. Sin embargo, el valor del trabajo radica en el hecho de que, en este caso, la red neuronal encontró una solución de forma completamente independiente, basada no en algoritmos conocidos de las matemáticas, sino en ejemplos y un sistema de refuerzo durante el entrenamiento.

Gráfico de la velocidad de resolución del problema SHRDLU por los sistemas DNC (verde) y LSTM (azul).

La tercera prueba fue una prueba SHRDLU "clásica" ligeramente simplificada, en la que debe mover algunos objetos virtuales alrededor del espacio virtual de acuerdo con un resultado final específico que debe obtener al final. El sistema DNC nuevamente recibió una descripción del estado actual del espacio virtual en forma de oraciones formalizadas, luego de la misma manera se le asignó una tarea y respondió con un texto coherente sobre cómo mover objetos. Como en otras pruebas, DNC demostró ser significativamente más eficiente que los sistemas LSTM, lo que se ve claramente en los gráficos de tasa de aprendizaje.

A riesgo de repetir una vez más cosas obvias, no puedo dejar de enfatizar que la aparente simplicidad de las tareas en las que se probó DNC es realmente evidente. En el sentido de que no refleja la complejidad de los problemas reales que un sistema como la DNC podrá manejar en el futuro. Por supuesto, desde el punto de vista de los algoritmos existentes, la tarea de encontrar un camino en el metro es simplemente una tontería: cualquiera puede descargar una aplicación en su teléfono que pueda hacer esto. También calcula el tiempo con los transbordos e indica en qué coche es mejor sentarse. Pero después de todo, todos esos programas hasta ahora han sido creados por una persona, y en DNC "nace" por sí mismo, en el proceso de aprender de ejemplos.

De hecho, hay una cosa muy importante que quiero decir sobre la simplicidad de las tareas de prueba. Uno de los mayores desafíos en el aprendizaje automático es dónde obtener los datos para entrenar el sistema. Reciba estos datos "a mano", es decir, crear usted mismo o con la ayuda de personas contratadas, demasiado caro. Cualquier proyecto de aprendizaje de matemáticas necesita un algoritmo simple que pueda crear gigabytes de nuevos datos para el entrenamiento de manera fácil y económica (bueno, o necesita acceder a bases de datos preparadas). Un ejemplo clásico: para probar los sistemas de reconocimiento de caracteres, las personas no escriben letras nuevas y nuevas con las manos, sino que usan un programa simple que distorsiona las imágenes existentes. Si no tiene un buen algoritmo para obtener una muestra de entrenamiento (o, por ejemplo, dicho algoritmo no se puede crear en principio), entonces el éxito en el desarrollo será casi el mismo que el de la bioinformática médica, que se ve obligada a trabajar. solo con datos reales y, por lo tanto, realmente "oro" (en pocas palabras: no muy exitoso).

Fue aquí donde los autores del artículo resultaron útiles con algoritmos listos para usar para resolver problemas en un gráfico, solo para obtener millones de pares correctos de preguntas y respuestas. No hay duda de que la facilidad de crear una muestra de entrenamiento determinó la naturaleza de las pruebas que probaron el nuevo sistema. Sin embargo, es importante recordar que la arquitectura DNC en sí no tiene nada que ver con la simplicidad de estas pruebas. Después de todo, incluso las redes neuronales recurrentes más primitivas no solo pueden traducir textos y describir imágenes, sino también escribir o generar bocetos (de oído del autor, por supuesto). ¿Qué podemos decir sobre sistemas tan avanzados y realmente "inteligentes" como DNC?

Alejandro Ershov