Fundamentos del data science¶
A la hora de elaborar un modelo o programa basado en IA, los datos con los que vamos a trabajar son una parte sumamente importante, hasta el punto de que, en la mayoría de ocasiones, se invierte mucho más tiempo recopilando y preparando estos datos que desarrollando el propio modelo.
En esta web se recogen los aspectos importantes del campo del data science y el análisis de datos, incluyendo librerías y operaciones habituales con lenguajes como Python o R.
Dado que los fundamentos que se requieren sobre Python o R ya se recogen en otras páginas de esta web, nos limitaremos aquí a enlazar con las páginas relevantes dedicadas a uso de librerías para data science.
Conceptos generales¶
- Introducción al análisis de datos. En esta página se explican los fundamentos del proceso de análisis de datos y cuáles son sus etapas fundamentales.
- Herramientas. A continuación se habla sobre las herramientas adicionales que podemos emplear si queremos hacer programas que realicen análisis de datos, más allá de los IDEs convencionales para programar en uno u otro lenguaje.
- Conceptos matemáticos. En este documento se explican los fundamentos matemáticos principales para el campo del análisis de datos. En especial, aquellos relacionados con el campo de la estadística y la probabilidad.
Análisis de datos con Python¶
- La librería NumPy. La librería NumPy se emplea muy habitualmente para crear vectores o tablas de datos en Python. Es utilizada a su vez por otras librerías muy populares, como Pandas o TensorFlow.
- La librería Pandas. Pandas es otra librería muy popular para gestionar tablas de datos y poderlas recorrer, filtrar, ordenar y manipular convenientemente, preparando los datos para nuestro programa.
- Representaciones gráficas. Las representaciones gráficas de los datos con que trabajamos nos ayudan a entenderlos mejor, y forman parte de un proceso llamado "análisis exploratorio de datos" (EDA, Exploratory Data Analysis).
- Ejemplo completo. En este documento se puede consultar un ejemplo completo de aplicación de los conceptos vistos en documentos anteriores: limpieza de datos, ingeniería de características, representaciones gráficas, etc.