-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathLinearRegression.Rmd
More file actions
82 lines (71 loc) · 2.47 KB
/
LinearRegression.Rmd
File metadata and controls
82 lines (71 loc) · 2.47 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
---
title: 'Tecnica de Prediccion - Modelo de regresion simple'
author: "Anthony Servitá"
date: "5/8/2020"
output: html_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
5. Modelados de regresión en la variables cuantitativas:
1. Creando la data particionada con createdatapartition()
```{r wine}
# Observamos el desbalanceo de datos sobre la variable Alcohol
attach(df)
table(Alcohol)
## Eliminamos la variables cuyo origen es desconocido
df$none <- NULL
#revisión rapida
glimpse(df)
```
creación de la data partition, para prueba de validación cruzada.
```{r}
# modelo 1: prueba con el paquete caret
indexTraining = createDataPartition(Tono,
p = .80,
list = FALSE,
times = 1)
# Datos de entrenamiento y de prueba
datatraining = df[indexTraining, ]
datatest = df[-indexTraining, ]
length(datatraining[,11])
length(datatest[,11])
fitcontrol = trainControl(method = "CV",
number = 2)
# El modelo 1, method = lm
DTfit <- train(Tono ~ Malicacid,
data = datatraining,
method = "lm",
trControl = fitcontrol)
DTfit
summary(DTfit)
# Extracción de la ecuación de la recta
DTfit$finalModel$coefficients
intercept <- DTfit$finalModel$coefficients[1]
pendiente <- DTfit$finalModel$coefficient[2]
```
conclusiones de H0: dado que el P-valor para la variable Tono es menor al alpha usual .05 hay evidencia con un 95% de confianza
para rechazar la H0 nula, y por lo tanto se concluye que la variable ácido málico aporta información para predecir el tono de color del vino.
También se observa, un valor de r-ajustado del 29% lo que indica que el 29% de la dispersión de los datos, se encuentra representada
por la regresión calculada con un error residual del 1.9%. ~ 2%
6. Evaluación del modelo
```{r}
pred <- (datatest$Tono * pendiente) + intercept
pred
# comparamos el MSE del DTfit y de pred
MSE <- mean((datatest$Tono - pred) ** 2)
MSE
# RMSE
sqrt(MSE)
```
7. Visualización de resultados.
```{r wine, echo=FALSE}
datatraining %>%
ggplot(aes(y = Tono, x = Malicacid, color = Alcohol)) +
geom_point() +
geom_abline(lty = 2, intercept = intercept,
slope = pendiente, color = "red") +
theme_ipsum() +
labs(title = "Modelo de regresion lineal simple",
subtitle = "Tecnica de prediccion del tono del color del vino según la [ácido málico] en el vino")
```