En un artículo anterior sobre análisis predictivo >> que solo mi abuela y un par de amigos cercanos leyeron, afirmé que ese procedimiento puede convertir datos en dinero. Hoy les traigo un caso de estudio práctico para demostrar que no exageraba en mi afirmación. Bueno, a decir verdad no debería estar demostrando nada, ya que cualquiera que trabaje en aerolíneas y grandes cadenas hoteleras sabría que ese mismo hecho está científicamente comprobado desde hace mucho tiempo. Pero aparentemente los sectores “menores” de la industria de los viajes aún creen que el análisis de datos es algo sin sentido, pura jerga reservada para el equipo de IT. Así pues, este texto es un ejercicio de auto afirmación, más que nada.
Espero que alguien lo encuentre al menos un poco estimulante o útil para su propia empresa.
Prólogo: no se dice “Inteligencia Artifical”
Mis disculpas a los ingenieros y expertos que podrían leer accidentalmente este texto. Yo también me estremezco cada vez que veo “I.A” en este tipo de publicación, pero necesitaba algún tipo de señuelo para obtener al menos tres o cuatro lectores de mi industria. Llamemos a las cosas por su nombre propio, pues: lo que estamos utilizando para realizar nuestras predicciones no es “I.A” sino una de sus muchas facetas, un método llamado aprendizaje automático (machine learning). Es una forma de inteligencia porque, efectivamente, esta técnica implica una forma de aprendizaje. Damos un vistazo a los datos y, si son buenos y hay suficientes, podemos crear un “modelo” que se utilizará para predecir resultados. Luego se construye (o se recicla) un algoritmo para “ejecutar” el modelo de predicción, que se verificará de varias formas y en diferentes entornos. Finalmente, el resultado se evalúa: o la predicción fue precisa (lo suficientemente cercana a la vida real) o incorrecta. Ambos casos son buenos, porque la “máquina” tomará nota y aprenderá donde y como falló, así la próxima vez lo hará mejor. Y la vez siguiente aún mejor, y así sucesivamente.
Como tú y yo deberíamos hacer…
El sujeto
Ten en cuenta que un proyecto como este se puede realizar para cualquier empresa que haya implementado un motor de reservas. Para este artículo, nuestra rata de laboratorio es un mayorista italiano, que tiene una recopilación de datos de más de un año (el mínimo indispensable para obtener predicciones aceptables). La red troncal de sus clientes está conformada por minoristas leales; nos enfocamos en algunos de ellos con datos suficientes para asegurarnos que las predicciones serían confiables. En este caso de estudio presentaremos los resultados de una sola agencia por simplicidad; el cuadro de mandos de nuestro mayorista amigo muestra el mismo análisis para todas sus agencias clientes, aportartando valor a la relación.
Los datos
Tuvimos que combinar dos conjuntos de datos procedentes de la misma base de datos, ya que la gran mayoría de los motores de reservas no proporcionan fácilmente los registros de búsquedas, se deben exportar por separado. Aparte de eso, el tamaño del conjunto de datos era bastante pequeño y no había ningún desafío técnico en términos de ETL, solo unas pocas correcciones aquí y allá. Los datos originados en los sistemas habitualmente utilizados en la industria suelen estar bien estructurados. Por desgracia, casi nunca se almacenan y gestionan adecuadamente … De todos modos, observa que el dataset de este estudio va de mayo de 2017 a mayo de 2018. También usamos un conjunto de datos ficticios, como “método de entrenamiento”. Adicionalmente, como sistema de corrección redundante, a veces ejecutamos los algoritmos “al revés” (prescindiré de la explicación) para ver si las predicciones arrojaban resultados similares a las reservas reales realizadas en los últimos meses. Resulta que lo hicieron, con un margen de error aceptable.
El objetivo
Queríamos saber qué comprarían nuestros fieles agentes minoristas en el futuro, cuánto gastarían, cuándo y en qué destinos. El enfoque principal se posó en en viajes “múltiples”, es decir, reservas que incluyen más de una ciudad y / o hotel y / o medio de transporte. Obviamente, eso es de especial interés siendo el tipo de reserva más rentable, pero en el análisis estudiamos todo tipo de servicios comprados, especialmente hotel + vuelo.
Las herramientas
Olvídalo, no voy a ayudarte en tu pequeño proyecto de bricolaje. Aún si tuvieras infinitos recursos disponibles para adquirir sofisticado software y potentes ordenadores, es imprescindible un científico de datos experto para diseñar el flujo y usar los algoritmos correctos (o adaptar los existentes) …. Y por supuesto, nada de eso sirve si no tienes a alguien que ayude al científico de datos a crear el modelo predictivo adecuado y descubrir las posibles inferencias. Una persona con conocimientos técnicos que además posea lo que se llama “domain expertise” (conocimiento del negocio). Ese sería yo (llámame “dragoman >>” , si quieres).
El resultado
Una vez que hay suficiente información con la que jugar, hipótesis y correlaciones son fáciles de obtener. Sin embargo, no todas serían útiles, especialmente para fines predictivos. En fin, quien diseña el análisis debe saber qué buscar, qué preguntas hacer (o sea, el dragoman). ¿Ves por qué no es suficiente tener las herramientas y los científicos de datos?
Para propósitos ilustrativos, nos concentraremos en tres aspectos: expectativas, cronogramas y posibilidades de reservas de viajes “múltiples”.
El gráfico “Reservas pronosticadas y posibilidades” resultó en cambio ser bastante conservador. El aumento de las reservas realizadas en marzo se debe a las vacaciones de pascua, más ofertas especiales de verano. La línea roja muestra la “confianza” que tiene el sistema en su propia predicción: cuanto más alta es la curva, más confianza tiene. Durante los últimos meses (anteriores a junio de 2018), como mencioné, las predicciones fueron conservadoras, porque el número real de reservas fue entre 5% y 10% más alto (excepto marzo). Una menor confianza significa que, en general, no hubo suficientes datos para tenerla. Oye, que es un algoritmo recién nacido: ¡dale tiempo a la máquina para aprender! El próximo año, con más datos, lo hará mejor. ¡Garantizado!
· Reservas “Multi”: todo lo anterior se podría hacer específicamente para este tipo de viajes, por supuesto. Además, comparamos las posibilidades que tienen los viajes “múltiples” de que se reserven en lugar de paquetes de vuelo + hotel. Por último, intentamos predecir con cuánta antelación y en qué meses se registrarían con mayores posibilidades los viajes “múltiples”.
Dejaré de lado por ahora los resultados de pronóstico de la demanda de destinos: no tiene mucho sentido anticipar las localidades preferidas de una sola agencia, pero el conjunto de clientes en su totalidad ofrece una idea bastante clara de lo que el mercado busca en el futuro cercano. Un tema fascinante que merece su propio artículo.
Pregunta clave: ¿son estas predicciones confiables?
Respuesta clave: depende. El principal problema aquí es la cantidad de datos: incluso si tenemos un historial de más de un año de transacciones, el número real de reservas de una sola agencia no es tan grande, por lo que el margen de error no es aceptable en algunos casos. El número de pasajeros reservados, por ejemplo, es una predicción simple, y si tuviera un DMC podría dar por bueno el tráfico estimado, para ir produciendo los próximos traslados y excursiones. También podría confiar ciegamente en los pronósticos de ventas y demanda compilados de esta manera, si fuera el revenue manager de un hotel. Pero aún no apostaría a los cálculos de allotments para vuelos charter, por ejemplo. Pronosticar qué tipo de viaje se reservará con varios meses de anticipación a partir de los datos históricos y de búsqueda es complicado. Nadie lo intentó hasta donde sabemos, y no pudimos encontrar ningún contenido académico para darnos orientación.
Las reservas y los números de transacciones no serán un problema cuando pongamos nuestras sucias manos en el enorme conjunto de datos de un gran banco de camas: tienen cientos de reservas, millones de búsquedas por día. No veo la hora de comenzar ese proyecto (¡mis científicos de datos están salivando por la expectación!)
Volviendo a nuestro caso de estudio, usamos un intervalo de confianza y un procedimiento que consideramos válido, aunque se puede argumentar que nuestros algoritmos de aprendizaje automático basados en datos de entrenamiento podrían no ser lo suficientemente precisos. Quizás las predicciones de series temporales funcionarían mejor: eso es algo que intentaremos la próxima vez. Mis científicos locos de datos mencionaron métodos arcanos como Heterocedasticidad Condicional Autorregresiva Generalizada (no es broma), modelos bayesianos, ARIMA y cosas por el estilo. Publicaré nuestros hallazgos a su debido tiempo. Resumiendo:
Nuestras predicciones con I.A. son hasta ahora correctas cualitativamente, no tanto cuantitativamente. Aún no tenemos una bola de cristal, pero cada vez estamos más cerca.
Conclusiones y un desahogo
Cualquiera que trabaje con datos tiene una honestidad natural e inherente que impide presentar resultados inventados o interpretaciones improvisadas. Además, ejecuto proyectos para mis clientes como si sus resultados fueran vitales para mí, así que no voy a venderles humo, afirmando que nuestras predicciones son una ventana mágica que muestra el futuro exactamente como será. Aun así, este enfoque es, por lejos, muchísimo más preciso que cualquiera de los métodos comúnmente utilizados en nuestra industria (a saber, Excel o un dedo mojado al viento). ¿Te puedes imaginar todo lo anterior hecho en hojas de cálculo? No, no puedes.
A pesar de eso, cadenas hoteleras grandes e incluso costosos sistemas de revenue management basan sus pronósticos de demanda y ventas solamente en datos históricos, con procedimientos antediluvianos. ¡Increíble! Algún día la industria del alojamiento actualizará su caja de herramientas, pero los operadores turísticos y los bancos de cama que recién están entrando en la óptica de los pronósticos avanzados, no deberían adoptar sencillos métodos estadísticos como su arma de elección. ¿Por qué usar una honda cuando tienes a disposición un lanzamisiles?
Además, la belleza de la metodología moderna de forecasting radica en que no ha de limitarse exclusivamente a datos endógenos. ¿Porqué no agregar a la mezcla los parámetros climáticos, el tráfico aéreo, las cifras oficiales de llegada por destino, etc.? No estoy especulando aquí; ¡Me sorprende que todavía no se esté haciendo de forma generalizada!
No me malinterpretes, esto no es alardear en absoluto. Más bien, se trata de un tibio esfuerzo catártico que no certificará mi genialidad visionaria … Al contrario, demuestra que podría estar cometiendo el mismo error que ya cometí tres veces en mi larga carrera. Parece que mi máquina cerebral no logra aprender que ser pionero en tecnología sin dinero para respaldar las tonterías del marketing, equivale a un éxito muy limitado (en el mejor de los casos).
Algún día, cuando la previsión impulsada por I.A. sea convencional en las empresas turísticas, me regocijaré en mi propia estupidez. Pero de momento, noto las mismas miradas de desconcierto que recibí en su día, cuando trataba de explicar a hoteleros los beneficios de un motor de reservas online. Y sintiendo -una vez mas- la misma maldita frustración.
Gracias por leer, disculpa el desahogo.