Saltar a contenido

Fundamentos del data science

A la hora de elaborar un modelo o programa basado en IA, los datos con los que vamos a trabajar son una parte sumamente importante, hasta el punto de que, en la mayoría de ocasiones, se invierte mucho más tiempo recopilando y preparando estos datos que desarrollando el propio modelo.

En esta web se recogen los aspectos importantes del campo del data science y el análisis de datos, incluyendo librerías y operaciones habituales con lenguajes como Python o R.

Dado que los fundamentos que se requieren sobre Python o R ya se recogen en otras páginas de esta web, nos limitaremos aquí a enlazar con las páginas relevantes dedicadas a uso de librerías para data science.

Conceptos generales

  1. Introducción al análisis de datos. En esta página se explican los fundamentos del proceso de análisis de datos y cuáles son sus etapas fundamentales.
  2. Herramientas. A continuación se habla sobre las herramientas adicionales que podemos emplear si queremos hacer programas que realicen análisis de datos, más allá de los IDEs convencionales para programar en uno u otro lenguaje.
  3. Conceptos matemáticos. En este documento se explican los fundamentos matemáticos principales para el campo del análisis de datos. En especial, aquellos relacionados con el campo de la estadística y la probabilidad.

Análisis de datos con Python

  1. La librería NumPy. La librería NumPy se emplea muy habitualmente para crear vectores o tablas de datos en Python. Es utilizada a su vez por otras librerías muy populares, como Pandas o TensorFlow.
  2. La librería Pandas. Pandas es otra librería muy popular para gestionar tablas de datos y poderlas recorrer, filtrar, ordenar y manipular convenientemente, preparando los datos para nuestro programa.
  3. Representaciones gráficas. Las representaciones gráficas de los datos con que trabajamos nos ayudan a entenderlos mejor, y forman parte de un proceso llamado "análisis exploratorio de datos" (EDA, Exploratory Data Analysis).
  4. Ejemplo completo. En este documento se puede consultar un ejemplo completo de aplicación de los conceptos vistos en documentos anteriores: limpieza de datos, ingeniería de características, representaciones gráficas, etc.