simon burgos's profile

ML Metro Santiago

En este portafolio, exploraremos los datos de flujos de personas en el metro de Santiago, proporcionados por el Instituto Nacional de Estadísticas (INE). 

Nuestro objetivo es analizar la información y construir un modelo predictivo de Machine Learning para estimar el flujo mensual de personas. Los datos abarcan desde el año 2010 hasta junio de 2023, lo que nos permitirá obtener una comprensión completa de los patrones de uso del metro a lo largo del tiempo. Este análisis y modelo predictivo pueden resultar valiosos para la planificación y gestión eficiente del transporte público en la ciudad.
La disminución significativa en el flujo de pasajeros del metro a partir del año 2019 se atribuye a dos factores principales. En primer lugar, el estallido social que comenzó en septiembre de 2019 tuvo un impacto considerable en la baja de flujo en la red. Este evento generó protestas y disturbios que afectaron la movilidad y la confianza de los usuarios en el sistema de transporte. En segundo lugar, en marzo de 2020, se declaró la llegada del COVID-19 en Chile, lo que dio inicio a la pandemia. Las medidas de confinamiento y restricciones de movilidad adoptadas para contener la propagación del virus tuvieron un impacto significativo en la disminución adicional del flujo de pasajeros en el metro durante la pandemia.
El objetivo de nuestro modelo predictivo es analizar la evolución de la demanda de pasajeros a lo largo del tiempo y capturar patrones estacionales y tendencias significativas. Observamos una clara ruptura en la tendencia a partir del año 2019 debido a cambios en el contexto gubernamental y las medidas tomadas para mitigar la pandemia, lo que resultó en una reducción considerable de pasajeros escolares debido a la adopción de clases en línea.

En el gráfico de distribución porcentual, se destaca cómo el porcentaje de pasajeros comunes en comparación con los escolares ha experimentado fluctuaciones notables en los años 2019, 2020 y 2021 debido a los cambios mencionados anteriormente.
Mi enfoque analítico se centra en comprender y predecir las variaciones en la demanda de pasajeros a lo largo del tiempo, teniendo en cuenta la estacionalidad y la tendencia, y considerando factores externos que influyen en los patrones observados.
Al observar inicialmente los datos, se identificó una notable disminución en el total de pasajeros durante el mes de febrero, atribuida a las vacaciones en el país durante este período. Sin embargo, en los otros meses, el número total de pasajeros mostró variaciones mínimas, lo que indica la ausencia de estacionalidad significativa. En cambio, se pudo apreciar una clara y constante tendencia al alza en los datos a lo largo del tiempo.
Al analizar los datos por separado para pasajeros comunes y estudiantes, se encontró una tendencia similar a lo largo de los meses. La comparación de esta información con el gráfico anual de pasajeros totales confirmó que el aumento general de usuarios seguía la tendencia mes a mes.

El propósito de este análisis fue visualizar patrones de estacionalidad y tendencia en el uso del metro para seleccionar el mejor modelo de aprendizaje automático (ML) para predecir la cantidad de pasajeros en el futuro. Los datos se presentaron en dos gráficos de barras, que muestran el número total de pasajeros por mes.
Análisis de Datos:
Tras un análisis exhaustivo de los datos, se ha encontrado una clara tendencia al alza en el uso del metro a lo largo del tiempo. No obstante, la presencia de estacionalidad es mínima, lo que sugiere que el comportamiento del número de pasajeros se mantiene relativamente constante mes a mes.

Objetivos:
Para validar la efectividad de los modelos predictivos, se realizará un análisis de predicción desde el año 2010 hasta 2018 dodne se intentara predecir el año 2019. El objetivo es evaluar si los modelos logran ajustarse correctamente a los datos disponibles en este período.

Modelos Predictivos:
Se estudiarán tres modelos predictivos: ARIMA (Autoregressive Integrated Moving Average), SARIMA (Seasonal Autoregressive Integrated Moving-Average), y Prophet. Estos modelos serán utilizados para proyectar la cantidad de pasajeros en el futuro, considerando la tendencia y la estacionalidad identificadas en los datos.

Desafíos:
Es importante mencionar que el cambio en los datos a partir de octubre del 2019 debido al estallido social y, posteriormente, la disminución de pasajeros como consecuencia de las restricciones por la pandemia del Covid-19, representan desafíos significativos para cualquier modelo predictivo. Estos eventos inesperados generan una incertidumbre que dificulta la precisión de las predicciones.
Modelo ML (SARIMA)
Tras realizar una comparación entre los modelos ARIMA, Prophet y SARIMA para pronosticar el uso del metro, se determinó que SARIMA es el más adecuado debido a su capacidad para manejar tanto la tendencia como la mínima estacionalidad presente en los datos. La gráfica de comparación entre las predicciones y los datos reales del 2019 muestra su efectividad.
Para obtener más información sobre los códigos, otros modelos y conclusiones detalladas, se invita a visitar nuestro repositorio en GitHub [enlace al repositorio], donde encontrarán información adicional, otros modelos y mas concluciones.

ML Metro Santiago
Published:

ML Metro Santiago

Published:

Creative Fields