Cazadores de información extraviada

EL DESAFÍO

Ayuda a encontrar formas para mejorar el desempeño del machine learning y de los modelos predictivos. Para ello, puedes rellenar los espacios de los conjuntos de datos previos a la capacitación modelo. Descubre métodos que permitan recuperar o aproximarse a través de sistemas informáticos a la información que se ha perdido debido a problemas con sensores o ruidos en la señal que comprometen la recopilación de datos experimentales. Este trabajo se ve inspirado en la recopilación de datos durante los procesos de fabricación aditiva donde los sensores captan las características de construcción in-situ, pero tiene aplicación en muchos ámbitos de la NASA.

Bases

Los datos se han perdido ……

El machine learning (ML) y la inteligencia artificial (IA) en conjunto tienen el potencial de cambiar la forma en que los científicos e ingenieros usan los datos experimentales. Entre las muchas implementaciones valiosas de ML/IA, algunos ejemplos incluyen la investigación de la autonomía para encontrar patrones previamente indetectables, para complementar o validar el modelado basado en la física, o de lo contrario para sacar conclusiones de conjuntos de datos muy grandes que tomarían meses o incluso años procesar.

Un componente fundamental de ML y el modelado basado en datos es tener un conjunto de datos completo, del cual se puedan extraer numerosas, posiblemente incluso cientos de características. Luego, el modelo “aprende” cómo hacer predicciones basadas en esas características a través de un proceso llamado capacitación. Cada algoritmo de ML requiere grandes cantidades de datos, con algoritmos complejos como redes neuronales que a menudo requieren miles de registros u observaciones en un conjunto de datos para entrenar adecuadamente un modelo.

Si bien existe un gran potencial en el uso de datos experimentales para ML/IA, un posible inconveniente es que los datos experimentales a menudo se vean comprometidos durante el proceso de recopilación de datos. La recopilación de datos es impulsada por sensores que monitorean algún sistema y, dependiendo del entorno o configuración experimental, esos sensores pueden tener limitaciones. El hardware puede ser poco confiable, los sensores no supervisados ​​pueden fallar y el ruido de la señal siempre es una posible responsabilidad. Un ejemplo de ello es la investigación actual en la caracterización de procesos de fabricación aditiva (additive manufacturing, AM) para la investigación en ciencia de materiales. Más comúnmente conocida como impresión 3-D, AM se está explorando como un método rentable y eficiente para crear componentes físicos para la aeronáutica. Sin embargo, los datos del sensor in situ recopilados durante la AM también capturan el ruido, lo que genera conjuntos de datos incompletos.

Este problema limita la capacidad de usar ML para predecir las características de la estructura y modelar cómo pueden funcionar las partes y, por lo tanto, para comprender su integridad estructural. Inspirado por la pérdida de datos en la investigación de AM con el objetivo de construir modelos de ML precisos, tu desafío es identificar formas de recuperar a través de sistemas informáticos lo que se pierde cuando los conjuntos de datos tienen espacios y ruido excesivo.

Consideraciones previas

Los investigadores investigan una amplia variedad de dominios científicos y de ingeniería, por lo que los métodos que se pueden aplicar a diferentes tipos de datos de diferentes tipos de sensores son especialmente útiles. Los científicos e ingenieros también deben asegurarse de que los métodos que utilizan en su trabajo puedan ser evaluados y validados por otros, por lo que también es útil comprender cómo se puede medir el rendimiento de su enfoque. Las ideas posibles de las aplicaciones podrían incluir (pero no se limitan a) métodos de imputación, finalización de matriz y finalización de tensor.

Los principiantes en programación están invitados a crear un método que pueda aproximar los datos faltantes de los conjuntos de datos en formato de valores separados por comas (CSV). Los programadores de niveles intermedio y avanzado están invitados a crear métodos para aproximar los datos faltantes y evaluar ese método mediante la construcción de un modelo ML y describir la mejora en el rendimiento de ese modelo antes y después de la aplicación del método de recuperación de datos.

A continuación se enumeran algunas consideraciones y recomendaciones adicionales potenciales (pero no necesarias). El desafío de manejar los datos faltantes es algo que confunde a muchos investigadores, pero es especialmente crítico para implementar enfoques de ML, que utilizan modelos basados ​​en datos para hacer sus predicciones.

  • Las características varían ampliamente entre diferentes conjuntos de datos; sin embargo, un enfoque que pueda generalizarse para muchas aplicaciones diferentes sería particularmente útil.
  • Los métodos deben considerar datos mixtos (tipos de datos categóricos y continuos).
  • El código fuente y los modelos deben ser abiertos y gratuitos para su reutilización por el público.
  • El código en lenguajes de programación ML de código abierto populares, como Python o R, es útil.
  • El código debe incluir documentación sobre los parámetros del modelo elegidos y por qué se eligieron.
  • Aunque los datos de prueba para el desarrollo de métodos pueden incluir conjuntos de datos pequeños, se debe considerar la viabilidad de las aplicaciones de esos métodos a conjuntos de datos grandes (gigabytes o más).

Recursos de ejemplo

En los recursos se proporcionan conjuntos de datos de la NASA adecuados para explorar los elementos de datos faltantes. Cada uno de estos se puede descargar en formato CSV, y cada uno contiene una mezcla de variables categóricas y continuas. Falta una cantidad de datos en cada uno de estos conjuntos de datos.

Las bibliotecas de Python para algoritmos de imputación y terminación de matrices se proporcionan a continuación. Estos son ejemplos, que no están destinados a ser una lista completa de bibliotecas disponibles. Del mismo modo, estas no son las únicas técnicas que se pueden explorar para este problema. Los participantes no están obligados a estas bibliotecas enumeradas a continuación y se les recomienda buscar el mejor método posible para desarrollar sus soluciones.

La NASA de ninguna manera respalda a ninguna entidad gubernamental que no sea de los EE. UU. Y no es responsable de la información contenida en los sitios web del gobierno que no sea de los EE. UU.

Recursos de ejemplo


Traducción: Lucía Perabó, Corina Manchado, Andrés Almarza Garrido. Fuente: https://2019.spaceappschallenge.org/challenges/planets-near-and-far/raiders-lost-data/details