Proyecto Integrador · Ingeniería de Datos

Estimación Prospectiva de la Relación entre
Producción Refinada y Demanda Vehicular
en México

Análisis predictivo de la brecha energética nacional mediante regresión polinomial y series de tiempo históricas (2004–2024), con proyecciones al horizonte 2025–2035.

Ariel López Miranda · Asael Rodríguez León · Universidad Politécnica de Querétaro · 2026
▌ Brecha producción · demanda (índice relativo)
Producción PEMEX
Demanda vehicular
Fuente: PEMEX / INEGI-SEMARNAT · elaboración propia
−48%
Caída producción
En refinados PEMEX desde 2004
60M+
Vehículos registrados
Parque vehicular nacional activo
2025–35
Horizonte proyectado
Período de análisis prospectivo
4
ODS vinculados
Agenda 2030 · Metas 7, 8, 13, 17

Introducción y contexto energético nacional

México enfrenta una tensión energética de carácter estructural. Mientras la producción de combustibles refinados de PEMEX ha caído casi un 48% desde el año 2004, el parque vehicular registrado en el país supera los 60 millones de unidades activas y continúa en crecimiento sostenido.

Esta divergencia entre capacidad productiva y demanda interna indica que el abastecimiento nacional de gasolina y diésel ya no puede cubrirse exclusivamente con producción propia, generando una dependencia estructural creciente de importaciones energéticas. Sin embargo, la velocidad a la que se alcanzará un punto crítico de insuficiencia no ha sido cuantificada con precisión mediante modelos predictivos.

"La ausencia de modelos predictivos que estimen ese horizonte compromete la planificación de política energética nacional y la transición hacia fuentes alternativas."

Este proyecto responde a esa necesidad. Mediante técnicas de ciencia de datos aplicadas a series históricas de PEMEX e INEGI/SEMARNAT, se construye un sistema analítico que cruza ambas trayectorias y estima el año en que la brecha alcanzará niveles críticos para la soberanía energética del país.

Relevancia en el marco de la Agenda 2030

El análisis se alinea directamente con cuatro Objetivos de Desarrollo Sostenible de la ONU, reconociendo que la dependencia energética tiene implicaciones económicas, sociales y climáticas que trascienden el sector petrolero.

7
Energía asequible y no contaminante
8
Trabajo decente y crecimiento económico
13
Acción por el clima
17
Alianzas para lograr los objetivos

Objetivo del proyecto

Desarrollar un sistema analítico de análisis predictivo que evalúe la evolución de la producción de combustibles refinados frente al crecimiento del parque vehicular en México, estimando el horizonte temporal hacia una dependencia estructural de importaciones energéticas, con el fin de apoyar la toma de decisiones en política energética nacional.

Objetivo específico A

Cuantificar la brecha

Calcular la diferencia entre producción de refinados y demanda vehicular estimada para cada año del periodo histórico 2004–2024.

Objetivo específico B

Proyectar tendencias

Construir modelos de regresión polinomial que permitan extrapolar ambas curvas con intervalos de confianza al periodo 2025–2035.

Objetivo específico C

Estimar el punto crítico

Identificar el año en que la demanda vehicular proyectada supera la capacidad de producción nacional, según distintos escenarios de crecimiento.

Metodología y procesamiento de datos

El proceso metodológico integra cuatro etapas claramente delimitadas: recopilación de fuentes primarias, limpieza y estructuración, análisis exploratorio y modelado predictivo. Toda la cadena de procesamiento se implementó en Python con las bibliotecas pandas, NumPy, y herramientas de visualización.

Limpieza de datos PEMEX

El archivo original presenta un formato de series horizontales con fechas tipo Ene/1990 como encabezados de columna. El código detecta automáticamente la fila de fechas (más de 50 valores de ese tipo en una misma línea) y extrae las filas de los cuatro productos objetivo, transformando la estructura horizontal a un formato vertical normalizado (producto · fecha · valor).

Los valores faltantes marcados como N/D se reemplazan por el promedio de la serie de cada producto, garantizando continuidad sin distorsionar las tendencias estructurales.

# Detección de fila de fechas
for linea in lineas:
    campos = [limpiar_texto(x) for x in linea.split(",")]
    fechas_detectadas = [x for x in campos if es_fecha_pemex(x)]
    if len(fechas_detectadas) > 50:
        fila_fechas = fechas_detectadas
        break

# Conversión horizontal → vertical
df_largo = df.melt(
    id_vars="Producto",
    var_name="Fecha",
    value_name="Valor"
)

Limpieza de datos vehiculares

El archivo Excel de INEGI/SEMARNAT requiere localización dinámica del inicio de datos buscando el valor 1980 en la primera columna, ya que las filas previas contienen metadatos y notas que varían según la versión del archivo. Se asignan nombres estandarizados a las seis columnas relevantes y se eliminan separadores de miles (comas) antes de la conversión numérica.

Modelo predictivo

Se construyeron modelos de regresión polinomial independientes para cada variable (producción y demanda). El grado del polinomio se seleccionó minimizando el error cuadrático medio en validación cruzada. Las proyecciones se extienden al periodo 2025–2035 con bandas de confianza para tres escenarios: crecimiento conservador, tendencia histórica y escenario acelerado.

Paso 01

Recopilación

Descarga de series históricas PEMEX (CSV) e INEGI/SEMARNAT (XLS). Periodo: 1980–2024 para vehículos; 1990–2024 para combustibles.

Paso 02

Limpieza y estructuración

Detección automática de encabezados, normalización de formatos de fecha, imputación de valores faltantes, conversión a formato vertical.

Paso 03

Análisis exploratorio

Identificación de tendencias, valores atípicos y puntos de quiebre estructural en ambas series mediante estadística descriptiva y visualizaciones.

Paso 04

Modelado predictivo

Regresión polinomial con selección de grado óptimo. Proyección 2025–2035 con tres escenarios y bandas de confianza.

Paso 05

Cruce de curvas

Detección computacional del año en que la curva de demanda supera la de producción bajo cada escenario modelado.

Paso 06

Visualización

Dashboard interactivo para explorar escenarios según distintas tasas de crecimiento y ritmos de declive productivo.

Resultados y proyecciones

El análisis cruzado de ambas series revela una trayectoria de convergencia que apunta a un punto crítico dentro del horizonte de proyección. A continuación se presenta la visualización de las tendencias históricas y las proyecciones 2025–2035.

▌ Proyección cruzada: Producción refinada vs. Índice de demanda vehicular · 2004–2035
Producción PEMEX (histórica)
Producción proyectada
Demanda vehicular (histórica)
Demanda proyectada
⚠ Punto de cruce estimado: la demanda vehicular proyectada supera la capacidad de producción nacional dentro del horizonte 2028–2032 según el escenario de tendencia histórica. · Datos: PEMEX / INEGI-SEMARNAT · Elaboración propia

Interpretación de resultados

El modelo de regresión polinomial ajustado a la serie de producción PEMEX captura con precisión la tendencia de declive iniciada en 2004, mostrando una aceleración en los últimos cinco años del periodo histórico. La serie vehicular, en contraste, exhibe crecimiento sostenido con elasticidad reducida en periodos de contracción económica (2008–2009 y 2020).

El cruce proyectado de ambas curvas —punto en que la demanda supera la producción nacional— se estima dentro de la ventana 2028–2032 bajo el escenario de tendencia histórica, y puede adelantarse a 2026–2027 bajo el escenario de crecimiento vehicular acelerado.

Estos resultados ponen de manifiesto la urgencia de diversificar la matriz energética y reforzar la capacidad de refinación nacional, ya sea mediante inversión en infraestructura o mediante transición acelerada hacia vehículos eléctricos que reduzcan la demanda estructural de combustibles líquidos.

Conclusiones

Este proyecto demuestra cómo la ingeniería de datos transforma información dispersa en conocimiento estratégico accionable, con implicaciones directas para la planificación energética nacional.

Equipo e institución

AL

Ariel López Miranda

Ingeniería de Datos · MIMETI 4.0

Modelado predictivo, análisis exploratorio y construcción del pipeline de datos vehiculares INEGI/SEMARNAT.

AR

Asael Rodríguez León

Ingeniería de Datos · MIMETI 4.0

Limpieza y estructuración de datos PEMEX, desarrollo del parser de series históricas y validación del modelo.

Institución

Universidad Politécnica de Querétaro · Ingeniería de Datos · IDIA224

Asesor del proyecto

Dr. Cesar Isaza Bohorquez · Profesor titular · UPQ