José Antonio Ortega Osona – La econometría: ¿cómo aprender de los datos?

Blog

La econometría: ¿cómo aprender de los datos?

Vivimos en la época de los datos y en la época de las decisiones que se basan en los datos. Por eso, como futuros economistas o administradores de empresas, tenemos que saber cómo podemos conseguir esos datos, cómo analizarlos y, quizá lo más importante, qué podemos decir y qué no podemos decir a partir de ellos. Para ello empleamos los modelos. Las asignaturas de econometría son las que nos proporcionan las herramientas para poder realizar análisis empírico dentro de los grados en Administración y Dirección de Empresas y en Economía.

La primera parte del análisis empírico es la de formular la pregunta que nos interesa. A veces, ésta puede ser una pregunta muy concreta: cómo influye el ciclo económico sobre las ventas de nuestra empresa. Otras veces puede ser algo más difuso, como qué factores están asociados al precio del alquiler de las viviendas de nuestra ciudad. En otras ocasiones puede estar relacionado con una variable que podemos controlar, como la influencia del precio de nuestro producto sobre las ventas o de promover un producto en la página inicial de la web de la empresa.

Una vez que hemos formulado el problema que nos interesa, tenemos que plantearnos qué tipo de datos nos va a permitir estudiarlo y cómo obtenerlos. En el caso de estudios observacionales, como los dos primeros que hemos planteado, tendremos que acudir a fuentes diversas para obtenerlos. Estos pueden proceder de las páginas web de un instituto de estadística o de un organismo internacional, o debemos obtenerlos mediante «web-scrapping» desde una web especializada que contenga información sobre pisos en alquiler. También pueden ser datos de la propia empresa que tengamos que solicitar en el departamento de contabilidad o a los gestores de la página web. Cuando el problema es muy concreto estará más definido qué datos debemos obtener, mientras que en problemas más difusos habrá una serie de variables que nos parecerán a priori más importantes, pero debemos esforzarnos por conseguir todas aquellas que creemos que puedan jugar un papel para que los datos nos permitan aprender. En el caso de variables que podemos controlar, la estrategia empírica será diferente puesto que podremos realizar experimentos cambiando de manera controlada nuestra variable de tratamiento. Por ejemplo, a partir de promociones en determinadas tiendas, podremos valorar el impacto que tiene el precio sobre nuestra variable de respuesta, en este caso, las ventas.

La forma que tenemos de hacer hablar a los datos es a través de los modelos. Pero antes de poder aplicar cualquier modelo tendremos que transformar los datos desde el formato en que los hayamos conseguido hasta quedarnos con las variables que nos interesan, con las medidas para las unidades de observación relevantes y con la estructura adecuada. Para ello tendremos que utilizar herramientas de la emergente ciencia de los datos, así como programas informáticos adecuados. En nuestro caso utilizaremos el programa R, que es un programa que utilizan los profesionales de la estadística, la econometría y la ciencia de datos. R es gratuito y, gracias a herramientas como los paquetes que componen el «tidyverse», permite realizar de manera intuitiva tanto el manejo inicial de los datos como el análisis exploratorio inicial, la estimación de modelos y el análisis de los resultados e, incluso, la fase final de comunicación de resultados a través de informes y gráficos.

Una vez que tenemos preparados los datos, llegamos a la elección del modelo adecuado para estudiar el problema que nos interese. Debemos manejar una variedad de modelos para poder saber cuáles pueden ser los más adecuados para nuestro problema. El proceso de análisis empírico no es un proceso cerrado en el que antes de empezar sabemos con exactitud qué tipo de modelo y qué método de estimación del modelo debemos utilizar. Debemos tener una idea respecto al modelo inicial que queremos emplear, pero debemos estar dispuestos a aprender de los datos. Esto requiere utilizar herramientas de validación de nuestro modelo, que, en general, nos señalarán los problemas existentes y nos apuntarán en qué dirección debemos modificar nuestro modelo. La regla general es que queremos utilizar el modelo más sencillo posible, pero siempre que nuestro modelo sea suficientemente válido. La econometría moderna reconoce el problema del sobreajuste: podemos estar tentados de aplicar un modelo que reproduce todas las características de nuestros datos pero que funciona muy mal en la práctica porque no es generalizable a otros datos. Para evitarlo existen herramientas como la estimación «bootstrap», que se plantea qué otras estimaciones podríamos haber obtenido o las técnicas de validación cruzada, que se basan en reservar una parte de la muestra para comprobar la capacidad de nuestro modelo para predecir fuera de la muestra utilizada para el ajuste. En esta fase serán también claves las herramientas estadísticas que nos permitan determinar la especificación final de nuestro modelo.

La última fase, y quizá la más importante, es la utilización práctica de nuestro modelo para responder a las preguntas que nos habíamos planteado y ayudar en la toma de decisiones. Este proceso dependerá de cuál fuera nuestro propósito inicial. Si queríamos estudiar la relación entre el ciclo económico y las ventas, podemos plantear distintos escenarios de cómo evolucionarán las ventas en función del posible crecimiento de la economía. Si se trata de estudiar los determinantes del precio del alquiler, tendremos una idea de qué variables son relevantes y de cómo afectan al precio de alquiler, y las utilizaremos para ayudarnos en las políticas de alquiler de la empresa o para identificar chollos en el mercado. En el caso de experimentos sobre el efecto de cambios en el precio sobre las ventas, determinaríamos qué precio debemos de utilizar de modo que maximicemos el beneficio por unidad.

No todos los graduados en Administración y Dirección de Empresas y en Economía acaban realizando análisis empíricos propios. Lo que sí es más seguro es que van a utilizar herramientas que se basan en modelos. Por este motivo es importante comprender qué se puede y, sobre todo, qué no se puede decir a partir de un modelo. Los modelos no son aparatos de precisión sino herramientas estadísticas que incorporan explícitamente la incertidumbre. Tampoco son herramientas de validez universal, sino que debemos estar preparados para identificar cuándo fallan y cuándo puede ser necesario volver a estimar o cambiar la especificación del modelo.

También es posible que algunos graduados acaben trabajando profesionalmente en el análisis de datos. Este artículo del Financial Times (Moules, J.: «Data science is the big draw in business schools», Financial Times, 16 de abril de 2018.), por ejemplo, cuenta cómo está creciendo la demanda de estudios de master en análisis de datos respecto a los MBAs en distintos países.

El curso de econometría del grado en Administración y Dirección de Empresas es el único curso obligatorio sobre estos temas. Intenta proporcionar una visión general tanto a los que van a seguir trabajando con datos como a los que no. La capacidad de realizar análisis empíricos y de aplicarlos correctamente es algo muy valorado en las empresas. Resulta clave haber trabajado todas las fases del análisis empírico y también es muy útil haber empleado las herramientas que utilizan los profesionales. También lo es conocer cómo generar informes que integren análisis, tablas y gráficos que pueden estar basados en modelos o no. En cualquier caso, el curso intenta abrir la puerta a un mundo que puede ser apasionante y que, queramos o no, nos guste o no, define el mundo en que vivimos: el mundo de los datos.

 

José Antonio es Doctor en Demografía y Ciencias Económicas y Empresariales, y Profesor Titular de Fundamentos del Análisis Económico en la Universidad de Salamanca, donde imparte docencia de Econometría. Es especialista en el estudio empírico y teórico de temas de población y de su relación con la economía.