- Realizar planteamiento de preguntas (el paso #2 en todo proyecto de ciencia de datos).
- Haber identificado un problema
- Haber realizado algo de investigación sobre el problema y entenderlo bien
- Haber buscado soluciones o análisis que otras personas hayan realizado anteriormente para enriquecer nuestro proceso
Ya que hemos identificado un problema y que lo entendemos a profundidad, el siguiente paso es del Planteamiento de Preguntas.
Esto significa hacer una lista de preguntas que nos gustaría responder usando Ciencia de Datos. Es importante plantearse estas preguntas para tener una idea de qué estamos buscando. Esta lista se va a ir modificando con el tiempo así que no te preocupers si no está completa o si no es muy extensa aún. Conforme vayamos avanzando en nuestro proyecto, nuevas preguntas surgirán y algunas de las preguntas que teníamos se transformarán.
Vamos a usar un ejemplo que extraje de Kaggle (lo pueden revisar aquí). Este dataset tiene información de la situación del mercado de bienes raíces en Melbourne, Australia , hace un par de años. Básicamente, la persona que lo subió a la plataforma estaba pensando comprar una propiedad (una unidad de 2 recámaras) en la zona pero sabía que había una cosa importante que tomar en cuenta: En ese momento estaba sucediendo lo que se llama una "búrbuja" en el mercado. Esta "búrbuja" estaba causando que los precios de las propiedades se inflaran mucho más de lo que era su valor "real". Como todas las búrbujas, eventualmente tenía que reventar (parece ser que sucedió a finales del 2018) y esta persona quería saber si alguien podría predecir cuándo iba a suceder eso.
Tenemos entonces:
- Un Problema:
Quiero comprar una propiedad de dos recámaras pero hay una búrbuja en el mercado de bienes raíces y sé que algo problemático puede suceder.
- Una serie de Preguntas:
a) ¿Cuáles son los mejores suburbios para comprar propiedades en ellos en este momento? b) ¿Cómo han cambiado los precios a través del tiempo? ¿Hay alguna relación entre los cambios de precio y el paso del tiempo? c) ¿Estamos en una "búrbuja"? Si es así, ¿hay manera de predecir cuándo va a terminar? d) ¿Podemos saber si una propiedad está siendo vendida al "precio que le corresponde" o si está siendo inflada fuera de proporción? e) ¿Cuáles son las zonas más caras de la ciudad? ¿Se puede saber por qué? f) ¿Hay alguna relación entre las temporadas del año y los precios de las casas? g) Hay alguna relación entre el número de recámaras y el precio de una propiedad?
Ésas son sólo algunas de las preguntas que podríamos hacernos. Son preguntas que sentimos que si logramos responder nos pueden ayudar a encontrar una solución a nuestro problema.
Plantea una serie de preguntas sobre el problema que te interesa y debate con tus compañeros y la experta si son las mejores preguntas que se pueden hacer para resolver el problema, o si son preguntas que es posible responder.