Soluci贸n - Crear un DataFrame a partir de una Lista
Pandas
Vista general
Un DataFrame
es una poderosa y conveniente estructura de datos creada por la libreria pandas. Se trata de
una estructura en forma de tabla 2D, similar a una hoja de c谩lculo o una tabla SQL. Cada fila representa un
registro individual y cada columna representa un atributo diferente.
Para este problema, nuestro objetivo es convertir una lista 2D en un DataFrame
. Esta es una aplicaci贸n com煤n
de la librer铆a pandas para cuando tenemos datos brutos en una lista y queremos convertirlos a un formato m谩s
estructurado y etiquetado para facilitar su an谩lisis.
Conceptos clave:
- Lista 2D: Una lista de listas donde cada lista interna representa un registro de informaci贸n.
DataFrame
: Una estructura de datos bidimensional etiquetada en pandas.
Intuici贸n
Veamos el paso a paso para crear un DataFrame
con las herramientas proporcionadas por la librer铆a pandas.
- Importar pandas:
import pandas as pd
Esta l铆nea importa la libreria pandas y le asigna un alias pd
. Pandas proporciona estructuras de datos
r谩pidas, flexibles y expresivas dise帽adas para trabajar con informaci贸n (tabular, multidimensional,
potencialmente heterog茅nea) estructurada.
- Definici贸n de funci贸n:
def createDataframe(student_data: List[List[int]]) -> pd.DataFrame:
Esta l铆nea define una funci贸n llamada createDataframe
que toma una lista 2D student_data
como un argumento
y retorna un DataFrame
.
- Utilizar
pd.DataFrame()
:
pd.DataFrame(student_data)
nos permitir谩 transformar nuestra lista 2D en un DataFrame
.
Veamos la representaci贸n visual de pd.DataFrame()
en el siguiente diagrama:
Se puede ver que el DataFrame
resultante tiene cabeceras etiquetadas como 0 y 1. Esto se debe a que todos
los DataFrames se etiquetan y por default crear谩n cabeceras usando valores enteros empezando con 0.
Podemos asignar nombres de columnas personalizadas usando el par谩metro columns
. Primero, creamos la lista de
nuestros nombres de columnas en el orden deseado. Enseguida, proporcionamos la lista como un par谩metro al
momento de instanciar la clase pd.DataFrame
.
column_names = ["student_id", "age"]
pd.DataFrame(student_data,
columns=column_names)
El diagrama subsecuente demuestra el impacto del par谩metro columns
:
Implementaci贸n
import pandas as pd
def createDataframe(student_data: List[List[int]]) -> pd.DataFrame:
column_names = ["student_id", "age"]
result_dataframe = pd.DataFrame(
student_data,
columns=column_names
)
return result_dataframe