Librerías en Data Science

Hay varias librerías de Python que son fundamentales en Data Science. Echemos un vistazo rápido al tipo de funcionalidad que ofrecen:

  • NumPy: Ofrece una estructura crítica para el almacenamiento y operaciones con datos: el array multidimensional. NumPy es una librería de bajo nivel sobre la que se han desarrollado otras.
  • pandas: Ejemplo de librería desarrollada sobre NumPy. Ofrece dos estructuras de datos basadas en el array NumPy: la serie (estructura unidimensional) y el DataFrame (estructura bidimensional).
  • SciPy: Esta librería ofrece herramientas matemáticas de todo tipo: resolución de ecuaciones diferenciales, distribuciones, gestión de matrices...
  • Matplotlib: Es la librería de visualización referencia en el entorno Python. Aun cuando ofrece herramientas de bajo nivel y su uso no es especialmente amigable, sigue siendo obligado su conocimiento, más cuando otras librerías de visualización se han construido sobre ésta.
  • seaborn: Otra librería de visualización, en este caso desarrollada sobre Matplotlib. Mucho más amigable que Matplotlib y con un estilo visual mucho más atractivo, es la primera opción en muchos casos.
  • Bokeh: Tercera librería de visualización de esta lista, aunque en este caso no está basada en Matplotlib. Bokeh ofrece visualizaciones interactivas muy atractivas y útiles.
  • Scikit-learn: Librería de referencia en el mundo del Machine Learning para Python. Ofrece innumerables algoritmos y herramientas imprescindibles en cualquier proyecto de análisis de datos.
  • TensorFlow: TensorFlow ofrece herramientas para la definición y entrenamiento de redes neuronales.
  • Keras: Keras se ofrece como interfaz de alto nivel para librerías como TensorFlow, Theano o CNTK.
  • NLTK: Librería de procesamiento de lenguaje natural, con multitud de herramientas orientadas al análisis de textos.
  • XGBoost, LightGBM: Librerías que implementan los algoritmos homónimos, fundamentales en entornos tabulares.