pandas

pandas.DataFrame.rank

Leer más sobre pandas.DataFrame.rank

El método rank de un DataFrame pandas devuelve otro DataFrame pandas en el que los valores son el resultado de asignar rangos (desde 1 hasta n) a los valores del DataFrame original considerándolos ordenados, por defecto, de menor a mayor a lo largo del eje 0. Es decir, el menor valor de una columna recibe el rango 1, el siguiente el 2, etc. El parámetro method controla el método de asignación de rangos a valores coincidentes.

El índice del DataFrame original se mantiene. Los rangos asignados son números reales.

pandas.Series.rank

Leer más sobre pandas.Series.rank

El método rank de una serie pandas devuelve otra serie pandas en la que los valores son el resultado de asignar rangos (desde 1 hasta n) a los valores de la serie original considerándolos ordenados, por defecto, de menor a mayor. Es decir, el menor valor recibe el rango 1, el siguiente el 2, etc. El parámetro method controla el método de asignación de rangos a valores coincidentes.

El índice de la serie original se mantiene. Los rangos asignados son números reales.

pandas.crosstab

Leer más sobre pandas.crosstab

La función pandas.crosstab devuelve la tabla de contingencia resultante de cruzar dos o más campos de un dataframe. Aunque, por defecto, el resultado evalúa las frecuencias (absolutas o relativas) de cada combinación de valores, es posible especificar una función de agregación.

pandas.DataFrame.drop

Leer más sobre pandas.DataFrame.drop

El método .drop() asociado a un dataframe pandas devuelve una copia del mismo tras eliminar las filas o columnas indicadas. Éstas deberán referenciarse por sus etiquetas explícitas, no por su posición en el eje.

La eliminación se realiza, por defecto, en el eje vertical (se eliminan filas, por lo tanto).

pandas.DataFrame.select_dtypes

Leer más sobre pandas.DataFrame.select_dtypes

El método de un dataframe select_dtypes devuelve el subconjunto del dataframe formado por las columnas de los tipos especificados, pudiendo especificarse los tipos que se quieren seleccionar y/o aquellos que se quieren excluir.

Los tipos pueden referenciarse por su nombre (np.number, por ejemplo) o por una cadena de texto ("category", por ejemplo).

pandas.Series.str

Leer más sobre pandas.Series.str

El método str de una serie pandas nos da acceso a funciones vectorizadas de tratamiento de cadenas de texto, haciendo innecesario el recurrir a bucles externos.

Extracción de una columna de un DataFrame como Serie independiente

Leer más sobre Extracción de una columna de un DataFrame como Serie independiente

En este sencillo escenario partimos de un DataFrame que incluye tanto las características predictivas como la etiqueta. Por ejemplo... el dataset "iris":

import seaborn as sns

iris = sns.load_dataset("iris")
iris.head()

Copiado rápido de datos de Excel o Google Sheets a un DataFrame Pandas

Leer más sobre Copiado rápido de datos de Excel o Google Sheets a un DataFrame Pandas

Si tenemos datos contenidos en un libro Excel o en Google Sheets y queremos copiarlos a nuestro notebook en forma de DataFrame Pandas podemos, por supuesto, volcar dicho fichero a disco (en formato Excel o CSV) y leerlo usando funciones de esta librería. Pero hay otro método más rápido. Supongamos que tenemos el siguiente dataset en un libro Excel:

Codificación rápida de una columna categoría de un DataFrame

Leer más sobre Codificación rápida de una columna categoría de un DataFrame

Librerías como Scikit-Learn o Pandas (por mencionar apenas un par de ellas) nos ofrece diferentes codificadores de características predictivas categóricas (LabelEncoder, OneHotEncoder, get_dummies, etc.), herramientas que nos devuelven los valores codificados, las etiquetas originales, el d

Configuración del número de columnas mostradas en un DataFrame

Leer más sobre Configuración del número de columnas mostradas en un DataFrame

Con cierta frecuencia tenemos que trabajar con DataFrames pandas que, al ser mostrados en un cuaderno Jupyter, muestran solo parte de las columnas que incluyen. Por ejemplo, carguemos el dataset Breast Cancer de Scikit Learn:

from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns = data.feature_names)

Suscribirse a pandas