- Organization
- Universidad Federal de Rio Grande del Sur (UFRGS)
- Tipo
- Sector Académico
- Years
- 2023
- Countries
- Brasil
El proyecto aborda un problema apremiante en la investigación y el desarrollo de la seguridad de la red, que es la falta de explicabilidad en las soluciones innovadoras basadas en ML aplicadas para identificar, prevenir y responder a los ataques en la infraestructura de Internet, especialmente considerando el auge de Internet de las cosas (IoT) y malware de día cero. Si bien este problema no es exclusivo de América Latina, el conocimiento técnico de los investigadores de la región es especialmente adecuado para abordar este asunto apremiante.
Los objetivos de este proyecto son definir una métrica de calidad de datos específica para cada uno de los siguientes aspectos de calidad de los datos: precisión, puntualidad, singularidad, validez, consistencia e integridad. Dadas las métricas establecidas para la calidad de los datos en las redes, el proyecto desarrollará una plataforma colaborativa en línea para evaluar y clasificar los conjuntos de datos disponibles públicamente y los conjuntos de datos de uso común para ML en las redes. Se espera que esta plataforma sirva como guía para que los investigadores elijan qué conjunto de datos se adapta mejor a las necesidades de la investigación que están desarrollando. Además, este rango servirá como punto de referencia para el desarrollo de nuevos conjuntos de datos en el futuro.
Los resultados esperados son una clasificación y categorización de los enfoques actuales para medir la calidad de los datos en ML en general, y para las redes y la seguridad de la red en particular, brindando recomendaciones a los desarrolladores e investigadores sobre cómo aumentar la calidad de los conjuntos de datos utilizados en las redes, con base en las observaciones producidas a través de las métricas de calidad de datos. Estas recomendaciones se basarán en la clasificación y las evaluaciones realizadas para que estén respaldadas por evidencia científica. Los resultados del proyecto serán un paquete Python de código abierto que permitirá a cualquier desarrollador o investigador utilizar las métricas de calidad de datos desarrolladas en cualquier captura de tráfico en particular; una plataforma colaborativa de código abierto para clasificar conjuntos de datos relacionados con la red y un software de código abierto para permitir y facilitar la evaluación local de conjuntos de datos privados.