Comparativa entre muestras de datos y herramientas (TV shows)

Hola, mi nombre es Alexander Morales, autor de este blog y analista de datos. El objetivo de este blog es doble. 

Por una parte es comprobar hasta que punto una muestra pequeña de datos es representativa enfrente una muestra masiva de datos del mismo tipo. ¿Los patrones y relaciones que podemos sacar de analizar datasets muy grandes se pueden vislumbrar de forma burda en una muestra pequeña scrapeada manualmente? ¿Puedes sacar conclusiones sobre información contando con una muestra de datos pequeña? ¿Que tan grande es el sesgo resultante de analizar pocos datos en contrapunte de analizar decenas de miles de estos?

El segundo objetivo es el de comparar el tratamiento y obtención de datos entre diferentes herramientas. Por una parte la obtención de datos mediante Parsehub y su posterior tratamiento con Excel, y por otra parte la obtención de un dataset masivo mediante Github y su tratamiento con PowerBI. Analizando estas herramientas desde diferentes prismas, tales como la facilidad de uso y la calidad del resultado final.

Para la realización de este estudio se ha optado para analizar las series de televisión a partir de la famosa base de datos IMDB. Extrayendo y analizando los datos de este directorio con los fines explicados anteriormente.

Para empezar se utilizó la herramienta de Parsehub, con la cual se scrapeó y extrajo datos de 100 series, listadas en IMDB como las más populares del momento. Antes de realizar esta extracción se comprobó visualmente que esta muestra constaba a priori de series de diferentes décadas así como de diferentes tipos y rating. Una vez extraídos estos datos con Parsehub se generó desde la propia herramienta un archivo CSV, posteriormente adaptado a Excel para poder trabajar cómodamente con estos datos. Después de un tiempo considerable limpiando, filtrando y ordenando estos datos se procedió a generar unas visualizaciones de los mismos. Siendo estas visualizaciones fáciles de generar y fácilmente entendibles, pero con una falta de interactividad, estética y relacionalidad evidentes.

Por otra parte, en el tratamiento de datos masivos estos datos han sido obtenidos a través de un directorio de datasets en Github. A partir de este directorio se ha llegado al dataset utilizado, extraído de Kaggle en formato csv. Una vez conseguido el dataset se ha adaptado a excel y después de unos breves ajustes y limpieza previa se ha importado este dataset de 50.000 series de televisión a la herramienta de PowerBI. Con las propias herramientas nativas de PowerBI se transforman los datos y se adecuan a su posterior tratado. Cambio de formato, eliminación de errores y valores nulos o reemplazamiento de valores. La limpieza de datos ha sido más sencilla e intuitiva que con Excel  y la posterior visualización ofrece muchas más opciones y personalización. Además ofrece una muy buena interconexión entre grafismos y es visualmente muy atrayente. Al final de este artículo se emitirá el juicio final, pero a priori PowerBI lleva muy buena ventaja.

Para comparar los resultados se han generado los mismos tipos de grafismos para las dos bases de datos y las dos herramientas, para poder tener una comparativa lo más fiel posible. Empezaremos analizando los resultados obtenidos con la base de datos pequeña.

Parsehub y Excel


Analizando una comparativa de géneros según el rating promedio por cada uno de los géneros vemos como el género con mayor rating es el de "Deporte", seguido por "Western" y "Animación". Por otro lado los géneros con peor puntuación son "Misterio", "Acción" y "Thriller".


Analizando la frecuencia y la cantidad de producciones de cada género vemos un claro número 1, el género de "Drama". Seguido por "Crimen" y "Comedia".


Para ver tendencias o patrones a lo largo de la historia se ha generado una visualización de la evolución del rating promedio de cada año a lo largo de los últimos 70 años. Siendo una muestra de datos pequeña los datos de los años anteriores a los 2010 son muy pequeñas, por lo tanto se genera una varianza muy grande teniendo altibajos muy pronunciados. A medida que pasan los años los cambios son menos bruscos y se puede apreciar una tendencia. Se puede ver como en los últimos 10 años ha habido una bajada de nota de aproximadamente 1,5 puntos, una disminución muy sustancial.


En cuanto a la evolución de la duración de las series a lo largo del mismo periodo histórico se puede observar esta varianza inicial ya comentada y como se estabiliza alrededor de 45 minutos.


Cuando comparamos el rating con la duración para comprobar si existe alguna correlación entre estas dos métricas vemos como no se aprecia un patrón claro, debido quizá a la poca muestra analizada.

Github y PowerBI

Empezando por el gráfico de la comparación de genero en base a su rating vemos como el resultado es claramente diferente al obtenido con el otro estudio. En este caso los géneros mejor valorados son "Biográfico""Crimen" y "Drama". En cambio los géneros predominantes en el estudio de Parsehub se encuentran dispersos por el medio en este estudio de largo alcance.



Seguidamente en el caso de la frecuencia de géneros el número uno y el dos se mantienen intactos, y los géneros de "Comedia" y "Acción" también se mantienen en el top. Así que en este caso si podemos decir que la muestra pequeña si era representativa en esta medida.

En relación a las dos evoluciones a lo largo de los años, del rating y la duración, se puede ver una disminución clara de la varianza y como los resultados son mucho más estables. Aún así vemos como a partir del año 2007 en ambos casos la media se queda prácticamente igual durante 15 años. En el caso del rating alrededor de 8.15 y en la duración en 49.85 minutos. Esto se puede deber a una estandarización del medio más una mayor muestra de datos, gracias a la explotación masiva del medio en los últimos 15 años. 

Finalmente en cuanto a la dispersión entre el rating y la duración, en el estudio anterior no se podía apreciar ningún patrón. En cambio con el análisis de más de 40.000 series si podemos llegar a vislumbrar un patrón. Siendo este patrón el hecho de que a menor duración menor rating.

Conclusión

En cuanto a la cuestión de si la muestra pequeña ofrece unos resultados preliminares aceptables y permite ver patrones el resultado es ambiguo. Por un lado podemos confirmar que esta muestra no es representativa, como serian en los casos del grafismo de rating y genero y el grafismo de dispersión. En cambio en el recuento de género los datos son bastante buenos. Y por último en las evoluciones no se podría usar para emitir un juicio sobre estas métricas.

Como conclusión la muestra de 100 series es demasiado pequeña, y haciendo una estimación se necesitaría por lo menos una muestra de 1000.

En relación al otro objeto del estudio el resultado es claro, PowerBI es una herramienta mejor que produce resultados ya no solo mejores en tanto visualización y análisis, sino también en la vertiente estética. Siendo además una herramienta más fácil de usar, siendo su principal inconveniente la obtención de un dataset externo inicial.


Comentarios