Librerías en Data Science

Hay varias librerías de Python que son fundamentales en Data Science. Echemos un vistazo rápido al tipo de funcionalidad que ofrecen:

NumPy: Ofrece una estructura crítica para el almacenamiento y operaciones con datos: el array multidimensional. NumPy es una librería de bajo nivel sobre la que se han desarrollado otras.
pandas: Ejemplo de librería desarrollada sobre NumPy. Ofrece dos estructuras de datos basadas en el array NumPy: la serie (estructura unidimensional) y el DataFrame (estructura bidimensional).
SciPy: Esta librería ofrece herramientas matemáticas de todo tipo: resolución de ecuaciones diferenciales, distribuciones, gestión de matrices...
Matplotlib: Es la librería de visualización referencia en el entorno Python. Aun cuando ofrece herramientas de bajo nivel y su uso no es especialmente amigable, sigue siendo obligado su conocimiento, más cuando otras librerías de visualización se han construido sobre ésta.
seaborn: Otra librería de visualización, en este caso desarrollada sobre Matplotlib. Mucho más amigable que Matplotlib y con un estilo visual mucho más atractivo, es la primera opción en muchos casos.
Bokeh: Tercera librería de visualización de esta lista, aunque en este caso no está basada en Matplotlib. Bokeh ofrece visualizaciones interactivas muy atractivas y útiles.
Scikit-learn: Librería de referencia en el mundo del Machine Learning para Python. Ofrece innumerables algoritmos y herramientas imprescindibles en cualquier proyecto de análisis de datos.
TensorFlow: TensorFlow ofrece herramientas para la definición y entrenamiento de redes neuronales.
Keras: Keras se ofrece como interfaz de alto nivel para librerías como TensorFlow, Theano o CNTK.
NLTK: Librería de procesamiento de lenguaje natural, con multitud de herramientas orientadas al análisis de textos.
XGBoost, LightGBM: Librerías que implementan los algoritmos homónimos, fundamentales en entornos tabulares.

Acerca de Interactive Chaos

Información de contacto