Comparativa entre muestras de datos y herramientas (TV shows)
Hola, mi nombre es Alexander Morales, autor de este blog y analista de datos. El objetivo de este blog es doble.
Por una parte es comprobar hasta que punto una muestra pequeña de datos es representativa enfrente una muestra masiva de datos del mismo tipo. ¿Los patrones y relaciones que podemos sacar de analizar datasets muy grandes se pueden vislumbrar de forma burda en una muestra pequeña scrapeada manualmente? ¿Puedes sacar conclusiones sobre información contando con una muestra de datos pequeña? ¿Que tan grande es el sesgo resultante de analizar pocos datos en contrapunte de analizar decenas de miles de estos?
El segundo objetivo es el de comparar el tratamiento y obtención de datos entre diferentes herramientas. Por una parte la obtención de datos mediante Parsehub y su posterior tratamiento con Excel, y por otra parte la obtención de un dataset masivo mediante Github y su tratamiento con PowerBI. Analizando estas herramientas desde diferentes prismas, tales como la facilidad de uso y la calidad del resultado final.
Para la realización de este estudio se ha optado para analizar las series de televisión a partir de la famosa base de datos IMDB. Extrayendo y analizando los datos de este directorio con los fines explicados anteriormente.
Para empezar se utilizó la herramienta de Parsehub, con la cual se scrapeó y extrajo datos de 100 series, listadas en IMDB como las más populares del momento. Antes de realizar esta extracción se comprobó visualmente que esta muestra constaba a priori de series de diferentes décadas así como de diferentes tipos y rating. Una vez extraídos estos datos con Parsehub se generó desde la propia herramienta un archivo CSV, posteriormente adaptado a Excel para poder trabajar cómodamente con estos datos. Después de un tiempo considerable limpiando, filtrando y ordenando estos datos se procedió a generar unas visualizaciones de los mismos. Siendo estas visualizaciones fáciles de generar y fácilmente entendibles, pero con una falta de interactividad, estética y relacionalidad evidentes.
Por otra parte, en el tratamiento de datos masivos estos datos han sido obtenidos a través de un directorio de datasets en Github. A partir de este directorio se ha llegado al dataset utilizado, extraído de Kaggle en formato csv. Una vez conseguido el dataset se ha adaptado a excel y después de unos breves ajustes y limpieza previa se ha importado este dataset de 50.000 series de televisión a la herramienta de PowerBI. Con las propias herramientas nativas de PowerBI se transforman los datos y se adecuan a su posterior tratado. Cambio de formato, eliminación de errores y valores nulos o reemplazamiento de valores. La limpieza de datos ha sido más sencilla e intuitiva que con Excel y la posterior visualización ofrece muchas más opciones y personalización. Además ofrece una muy buena interconexión entre grafismos y es visualmente muy atrayente. Al final de este artículo se emitirá el juicio final, pero a priori PowerBI lleva muy buena ventaja.
Para comparar los resultados se han generado los mismos tipos de grafismos para las dos bases de datos y las dos herramientas, para poder tener una comparativa lo más fiel posible. Empezaremos analizando los resultados obtenidos con la base de datos pequeña.
Parsehub y Excel
Analizando una comparativa de géneros según el rating promedio por cada uno de los géneros vemos como el género con mayor rating es el de "Deporte", seguido por "Western" y "Animación". Por otro lado los géneros con peor puntuación son "Misterio", "Acción" y "Thriller".





Comentarios
Publicar un comentario