martes, 30 de agosto de 2011

Lift Chart (SQL SERVER 2008 Analysis Services - Data Mining)

En la pagina de Microsoft msdn el tutorial de DataMining de AdventureWorks  indica el Testing Accuracy con LiftChart pero la explicacion mas detallada del LiftChart es la siguiente (http://msdn.microsoft.com/en-us/library/ms175428(v=sql.100).aspx):

Se puede ver diferentes tipos de gráficos en la ficha Gráfico Lift de la ficha Gráfico de Accuracy de minería de datos del Diseñador de minería de datos, dependiendo del modelo que seleccione, del atributo predecible del modelo y de otras configuraciones.

Si su modelo predice un valor discreto, puede crear un gráfico de elevación o un gráfico de beneficios. Un gráfico de elevación compara la precisión de las predicciones de cada modelo y se puede configurar para mostrar la precisión de las predicciones en general o de las predicciones para un valor concreto. Un gráfico de beneficios es un tipo de gráfico relacionado que contiene la misma información que un gráfico de elevación, pero también muestra el aumento proyectado en la ganancia que se asocia al uso de modelo. Use la lista Tipo de gráfico para seleccionar el tipo de gráfico que desea.

Nota   No puede mostrar los modelos de serie temporal en un gráfico de elevación o en un gráfico de beneficios, pero puede ver un gráfico que contenga las series históricas y las predicciones basándose en la serie mediante la ficha Predicción de modelo de minería de datos. Para obtener más información, vea Algoritmo de serie temporal de Microsoft.

Para obtener más información: Profit Chart (Analysis Services - Data Mining), Scatter Plot (Analysis Services - Data Mining) Gráfico de beneficios (Analysis Services - Minería de datos) , Gráfico de dispersión (Analysis Services - Minería de datos)

La ficha Gráfico de Lift muestra una representación gráfica del cambio en la elevación que provoca un modelo de minería de datos. Por ejemplo, el departamento de marketing de Adventure Works Cycles desea crear una campaña de distribución de correo directo. Por las campañas anteriores, saben que el índice de respuesta típico es de un 10 por ciento. Tienen una lista de 10.000 clientes potenciales almacenada en una tabla de la base de datos. Por lo tanto, según el índice típico de respuesta, pueden esperar que respondan 1.000 clientes potenciales.

Sin embargo, el dinero presupuestado para el proyecto no es suficiente para llegar a los 10.000 clientes de la base de datos. Basándose en el presupuesto, pueden permitirse enviar publicidad por correo a sólo 5.000 clientes. El departamento de marketing tiene dos opciones:

  • Seleccionar aleatoriamente 5.000 clientes como objetivo

  • Usar un modelo de minería de datos para dirigirse a los 5.000 clientes con mayores probabilidades de respuesta

Si la compañía selecciona de forma aleatoria 5.000 clientes, pueden esperar recibir sólo 500 respuestas, según la tasa de respuesta típica. La línea aleatoria del gráfico de elevación representa esta situación. Sin embargo, si el departamento de marketing usa un modelo de minería de datos para dirigir la distribución de correo, puede esperar un mayor índice de respuesta ya que se orienta a los clientes que tienen más probabilidades de responder. Si el modelo es perfecto, significa que el modelo crea predicciones infalibles y que la empresa podría esperar recibir 1.000 respuestas mediante una distribución de correo de los 1.000 clientes potenciales que recomienda el modelo. La línea ideal del gráfico de elevación representa esta situación. La realidad es que el modelo de minería de datos probablemente se sitúa entre estos dos extremos, entre una estimación aleatoria y una predicción perfecta. Cualquier mejora en la estimación aleatoria se considera una elevación.

Puede crear dos tipos de gráficos de elevación: uno en el que se especifique un valor de destino para la columna de predicción y otro en el que no se especifique el valor. Cuando pasa de la ficha Selección de entrada a la ficha Gráfico de elevación, el gráfico se actualiza para reflejar los cambios realizados en las asignaciones de columnas o en otras configuraciones.

Gráfico Lift con valor de Target

El gráfico siguiente muestra un gráfico de elevación para el modelo Targeted Mailing que se crea en Tutorial básico de minería de datos. En este gráfico, el atributo de destino es [Bike Buyer] y el valor de destino es 1, lo que significa que el cliente compró una bicicleta o que es probable que lo haga. El gráfico de elevación muestra así la mejora que el modelo proporciona al identificar a los clientes que es probable que compren una bicicleta.

Además del modelo básico, el gráfico incluye un modelo relacionado filtrado para orientarse a clientes concretos. Puede agregar varios modelos a un gráfico de elevación, siempre que los modelos tengan todos el mismo atributo de predicción. Este filtro restringe los casos que se usan tanto en el entrenamiento como en la evaluación a los clientes menores de 30 años. Como resultado, el número de casos con los que el modelo se evalúa difiere para el modelo básico y para el modelo filtrado. Es importante recordar este punto al interpretar los resultados de predicción y otras estadísticas.

gráfico de elevación en el que se muestran dos modelos

El eje X del gráfico representa el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones. El eje Y del gráfico representa el porcentaje de valores de predicción.

La línea recta diagonal, mostrada aquí en azul, aparece en cada gráfico. Representa los resultados de la estimación aleatoria y es la línea base con la que evaluar la elevación. Con cada modelo que agrega a un gráfico de elevación, obtiene dos líneas adicionales: una muestra los resultados ideales para los datos de entrenamiento establecidos, si pudiera crear un modelo que siempre predijera perfectamente; y la segunda línea muestra la elevación real, o mejora en los resultados, para el modelo.

En este ejemplo, la línea ideal para el modelo filtrado se muestra en azul marino y la línea para la elevación real en amarillo. Puede deducir del gráfico que la línea ideal alcanza el máximo cerca del 40 por ciento, lo que significa que si tuviera un modelo perfecto, podría llegar al 100 por ciento de los clientes de destino enviando correo únicamente al 40 por ciento de la población total. La elevación real para el modelo filtrado al destinarse al 40 por ciento de la población está entre el 60 y el 70 por ciento, lo que significa que se podría llegar al 60 ó 70 por ciento de los clientes de destino enviando correo al 40 por ciento de la población total de clientes.

La Leyenda de minería de datos contiene los valores reales de cualquier punto de las curvas. Puede cambiar el lugar que se mide haciendo clic en la barra gris vertical y moviéndola. En el gráfico, la línea gris se ha movido al 30 por ciento, porque se trata del punto donde tanto el modelo filtrado como el modelo sin filtrar parecen ser más eficientes, y después de este punto la cantidad de elevación decae.

La Leyenda de minería de datos también contiene puntuaciones y estadísticas que ayudan a interpretar el gráfico. Estos resultados representan la exactitud del modelo en la línea gris, que en este escenario se determina para incluir el 30 por ciento de los casos de prueba totales.

Serie, Modelo

Puntuación

Población de destino

Probabilidad de predicción

Correo destinado a todos

0.71

47.40%

61.38%

Correo destinado a menores de 30

0.85

51.81%

46.62%

Modelo de estimación aleatoria

 

31.00%

 

Modelo ideal para: correo destinado a todos

 

62.48%

 

Modelo ideal para: correo destinado a menores de 30

 

65.28%

 

En estos resultados puede ver que, cuando se mide en el 30 por ciento de todos los casos, el modelo general (correo destinado a todos) puede predecir el comportamiento de compra de bicicletas en el 47,40% de la población de destino. En otras palabras, si enviara correo directo sólo al 30 por ciento de los clientes de la base de datos, podría llegar a algo menos de la mitad de los destinatarios pretendidos. Si utilizara el modelo filtrado, podría llegar aproximadamente al 51 por ciento de los clientes de destino.

El valor de Probabilidad de predicción representa el umbral necesario para incluir un cliente entre los casos "con probabilidad de comprar". Para cada caso, el modelo calcula la exactitud de cada predicción y almacena ese valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo, para identificar los clientes del modelo básico que son compradores probables, utilizaría una consulta para recuperar los casos con una probabilidad de predicción de al menos el 61 por ciento. Para obtener los clientes de destino del modelo filtrado, crearía una consulta que recuperara los casos que cumplieran todos los criterios: la edad y un valor de PredictProbability de al menos el 46 por ciento.

Es interesante comparar los modelos. El modelo filtrado parece capturar más clientes potenciales, pero al elegir a los clientes con una puntuación de probabilidad de predicción del 46 por ciento, también tiene una posibilidad del 53 por ciento de enviar correo a alguien que no va a comprar una bicicleta. Por consiguiente, si estuviera decidiendo qué modelo es mejor, sería conveniente equilibrar la mayor precisión y el menor tamaño de destino del modelo filtrado con respecto a la capacidad de selección del modelo básico.

El valor de Puntuación ayuda a comparar los modelos calculando la efectividad del modelo a través de una población normalizada. Una mayor puntuación es mejor, de modo que en este caso podría decidir que seleccionar a los clientes menores de 30 años es la estrategia más eficiente, a pesar de la menor probabilidad de predicción.

Gráfico Lift para un modelo sin valor de target

Si no especifica el estado de la columna de predicción, puede crear el tipo de gráfico que se muestra en el diagrama siguiente. Este gráfico muestra el modo en que el modelo se comporta para todos los estados del atributo de predicción. Por ejemplo, este gráfico le indicaría hasta qué punto el modelo predice bien tanto los clientes que es probable que compren una bicicleta como los que no es probable que la compren.

El eje X es el mismo que en el gráfico con la columna de predicción especificada, pero ahora el eje Y representa el porcentaje de predicciones correctas. Por consiguiente, la línea ideal es la línea diagonal, que muestra que en el 50 por ciento de los datos, el modelo predice correctamente el 50 por ciento de los casos, el máximo que se puede esperar.

Gráfico de elevación en el que se muestran predicciones correctas

Puede hacer clic en el gráfico para mover la barra gris vertical y la Leyenda de minería de datos muestra el porcentaje de casos total y el porcentaje de casos que se predijeron correctamente. Por ejemplo, si coloca la barra deslizante gris en la marca del 50 por ciento, la Leyenda de minería de datos muestra las puntuaciones de precisión siguientes. Estas cifras se basan en el modelo TM_Decision Tree creado en el Tutorial básico de minería de datos.

Serie, Modelo

Puntuación

Población de destino

Probabilidad de predicción

TM_Decision Tree

0.77

40.50%

72.91%

Modelo ideal

 

50.00%

 

En esta tabla se indica que, en el 50 por ciento de la población, el modelo que creó predice correctamente el 40 por ciento de los casos. Podría considerar este un modelo bastante preciso. Sin embargo, recuerde que este modelo determinado predice todos los valores del atributo de predicción. Por consiguiente, el modelo podría ser preciso para predecir que el 90 por ciento de los clientes no comprarán una bicicleta.

2 comentarios:

Anónimo dijo...

Write more, thats all I have to say. Literally, it seems as though you relied on the video to make
your point. You obviously know what youre talking about, why waste your intelligence on just posting videos to your
weblog when you could be giving us something informative to read?


Look into my web site: cellulite treatment

Anónimo dijo...

Burdick rosacea specialist

Feel free to visit my blog post :: Hodgen rosacea treatment