Solución - Analisis del juego IV

Pandas

Vista general

Referencia del problema:

Escriba una solución para reportar la fracción de jugadores que volvieron a iniciar sesión el día siguiente al que lo hicieron por primera vez, redondee el resultado a 2 decimales. En otras palabras, se requiere contar el número de jugadores que se conectaron durante al menos dos días consecutivos a partir de la fecha de su primer inicio de sesión, y a continuación, dividir ese número por el número total de jugadores.

Este problema es una extensión o continuación natural de la parte II de la serie de problemas de cinco partes Análisis del juego. ¿Por qué? Porque contar el número de jugadores que iniciaron sesión durante al menos dos días consecutivos a partir de su primera fecha de inicio de sesión implica naturalmente iniciar el proceso de resolución del problema averiguando la primera fecha de inicio de sesión de cada jugador (que, debemos notar, es en realidad la solución de la parte I de esta serie de problemas).

Pero encontrar el primer inicio de sesión de cada jugador es solo el inicio para resolver este problema. Necesitamos, de alguna forma, usar esta información para determinar si el usuario se conectó un día después de su primera conexión. ¡Cómo determinar esto es una parte crucial para este problema!.

Estrategía 1: Manipulación de fechas y agregación condicional

Visualización de este enfoque

Intuición

Analicemos el paso a paso de este enfoque usando el siguiente DataFrame como entrada:

player_id	device_id	event_date	games_played
1	2	2016-03-01	5
1	2	2016-03-02	6
2	3	2017-06-25	1
3	1	2016-03-02	0
3	4	2018-07-03	5

Paso 1: Identificar la fecha de la primera conexión

Objetivo: Determinar la primera fecha en que cada jugador inicio sesión.
Intuición: Agrupando la información por player_id y obteniendo el event_date mínimo, determinamos la fecha de inicio de sesión de cada jugador. Esto constituye nuestra línea base para el seguimiento de la actividad de inicio de sesión de cada jugador a lo largo del tiempo

first_login = activity.groupby('player_id')['event_date'].min().reset_index()

player_id	event_date
1	2016-03-01
2	2017-06-25
3	2016-03-02

Paso 2: Calcular el día antes de cada Fecha de Evento

Objetivo: Facilitar la identificación de conexiones consecutivas.
Intuición: Tenga en cuenta que en la pregunta, las fechas consecutivas en realidad representan dos fechas adyacentes con una diferencia de un día. Por lo tanto, creamos una columna que representa el día anterior a cada event_date para ayudarnos a identificar inicios de sesion consecutivos en los pasos siguientes. Basicamente, esta columna nos permitirá compararla con la fecha del primer inicio de sesión para ver si un jugador inició sesión consecutivamente. Por ejemplo, si un jugador inicio sesión por primera vez el 2016-03-02 y tuvo inicios de sesión consecutivos el 2016-03-03, agregaríamos un valor de day_before_event = '2016-03-02' al segundo registro, el cual coincide con la fecha de la primera conexión.

activity['day_before_event'] = activity['event_date'] - pd.to_timedelta(1, unit='D')

player_id	device_id	event_date	games_played	day_before_event
1	2	2016-03-01	5	2016-02-29
1	2	2016-03-02	6	2016-03-01
2	3	2017-06-25	1	2017-06-24
3	1	2016-03-02	0	2016-03-01
3	4	2018-07-03	5	2018-07-02

Paso 3: Fusionar los DataFrames para identificar potenciales inicios de sesión consecutivos

Objetivo: Alinear las fechas de inicio de sesión reales con las primeras fechas de inicio de sesión de cada jugador.
Intuición: Fusionamos la información en base a su player_id para obtener un conjunto de datos combinado donde tendremos los detalles de cada inicio de sesión de cada jugados con todos los otros días que iniciaron sesión. Esto nos prepara para directamente comparar si alguna de las fechas de inicio de sesión se alinea por un día con su primer inicio de sesión, indicando que son inicios de sesión consecutivos.

merged_df = activity.merge(first_login, on='player_id', suffixes=('_actual', '_first'))

player_id	device_id	event_date_actual	games_played	day_before_event	event_date_first
1	2	2016-03-01	5	2016-02-29	2016-03-01
1	2	2016-03-02	6	2016-03-01	2016-03-01
2	3	2017-06-25	1	2017-06-24	2017-06-25
3	1	2016-03-02	0	2016-03-01	2016-03-02
3	4	2018-07-03	5	2018-07-02	2016-03-02

Paso 4: Identificar inicios de sesión consecutivos

Objetivo: Identificar los casos exactos de inicios de sesión consecutivos que ocurren un día después del primer inicio de sesión.
Intuición: Al filtrar el conjunto de datos combinado para filas donde day_before_event es igual a event_date_first, identificamos los momentos precisos en los que se produjo un inicio de sesión un día después del primer inicio de sesión, resaltando de manera efectiva los inicios de sesión consecutivos.

consecutive_login = merged_df[
    merged_df['day_before_event'] == merged_df['event_date_first']
]

player_id	device_id	event_date_actual	games_played	day_before_event	event_date_first
1	2	2016-03-02	6	2016-03-01	2016-03-01

Paso 5: Calcular la fracción de inicios de sesión consecutivos

Objetivo: Encontrar la fracción que representa a los jugadores que iniciaron sesión el día después de su primer inicio de sesión.
Intuición: Aquí encontramos el conteo único de jugadores que iniciaron sesión consecutivamente y lo dividimos por el total de jugadores en el conjunto de datos. Esto nos da la proporción de jugadores que exhibieron este comportamiento, lo que nos da una sensación de la retención de los jugadores después del primer inicio de sesión.

fraction = round(consecutive_login['player_id'].nunique() / activity['player_id'].nunique(), 2)

Returns: 0.33

Paso 6: Formatear el resultado

Objetivo: Preparar el resultado final.
Intuición: Creamos un nuevo DataFrame para almacenar la fracción calculada asegurando que retornamos el resultado en un formato estructurado y legible, cumpliendo con el tipo de retorno de nuestra función.

output_df = pd.DataFrame({'fraction': [fraction]})

fraction
0.33

Implementación

import pandas as pd

def gameplay_analysis(activity: pd.DataFrame) -> pd.DataFrame:
    # Step 1: Find the first login date for each player
    first_login = activity.groupby('player_id')['event_date'].min().reset_index()
    # Step 2: Create a new column for the day before each event_date in the original DataFrame
    activity['day_before_event'] = activity['event_date'] - pd.to_timedelta(1, unit='D')

    # Step 3: Merge the dataframes to find rows where player logged in a day after their first login
    merged_df = activity.merge(first_login, on='player_id', suffixes=('_actual', '_first'))

    # Step 4: Find the rows where the actual event date matches the day after the first login date
    consecutive_login = merged_df[merged_df['day_before_event'] == merged_df['event_date_first']]

    # Step 5: Calculate the fraction of players that logged in again on the day after their first login
    fraction = round(consecutive_login['player_id'].nunique() / activity['player_id'].nunique(), 2)

    # Step 6: Create a dataframe to hold the output
    output_df = pd.DataFrame({'fraction': [fraction]})

    return output_df