Introducción - Regresión Discontinua

class: center, middle, inverse, title-slide

# Introducción - Regresión Discontinua
## Econometría I
### Paula Pereda (<a href="mailto:ppereda@correo.um.edu.uy" class="email">ppereda@correo.um.edu.uy</a>)
### 18 de noviembre de 2021

---

class: inverse, middle

# Regresión discontinua

---
# Estudio de caso: MLDA

- Seguiremos los estudios de caso utilizados en Angrist y Pitschke 
- En los Estados Unidos, el alcohol no puede comprarse y consumirse legalmente hasta que un individuo es mayor de 21 años 
             
    + ¡Estas rigideces y reglas en economía, finanzas, leyes, etc. son un gran escenario para la RDD!
- Supongamos que queremos examinar los efectos del acceso al alcohol y la mortalidad...

---

# MLDA y mortalidad

---

# Sharp RD de la MLDA y mortalidad

---

# Running variables y tratamiento

- Sharp RDD explota que el tratamiento (por ejemplo, el acceso al alcohol) es una función determinística de una variable (por ejemplo, la edad) 
      
    + Más adelante explicaremos Fuzzy RDD vs Sharp RDD

- El tratamiento es:

`\begin{equation}
D_{a}=\left\{\begin{array}{l}
1 \text { if } a \geq 21 \\
0 \text { if } a<21
\end{array}\right.
\end{equation}`

- El estado del tratamiento es una función .hi.pink[discontinua] de `$a$` 
  
    + No importa lo cerca que esté a del punto de corte, `$D_a = 0$` hasta que se alcance el punto de corte

+ Por ejemplo, ¡no puedes ir (legalmente) a un bar a las 23:59 la noche antes de tu cumpleaños número 21!

- La variable que determina el tratamiento se denomina "running variable".

+ En nuestro caso, la edad
   
---

# Regresión RDD

- La mortalidad cambia claramente con la edad por razones distintas de la MLDA

+ Por ejemplo, la tasa de mortalidad de una persona de 20 años frente a una de 99 años

- Por lo tanto, tendremos que controlar la variación de la variable dependiente (mortalidad) impulsada por la variable de ejecución:

- Una simple regresión RDD podría ser como:

`$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\varepsilon$$`

- ¿Y si la edad no está relacionada linealmente con la mortalidad?
   
    + Surgen los problemas conocidos de sesgo de variable omitida 
- Nos ocuparemos de controlar más a fondo nuestra variable corriente con dos métodos clave:

+ 1) RDD no lineal 
    + 2) RDD paramétrico

---
# RDD no lineal

- Recordemos que nuestra simple regresión RDD tenía el siguiente aspecto:

`$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\varepsilon$$`
 
- Si tenemos una relación no lineal con la edad, podemos introducir una función cuadrática

`$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\beta_{3} a^{2}+\varepsilon$$`

- Alternativamente, podríamos permitir diferentes coeficientes en la relación con la edad antes y después del corte

- Esto se hace tomando la diferencia de la variable en funcionamiento con el corte, y añadiendo un término de interacción

+ En nuestro ejemplo, `$a_0 = 21$`

- Esto da lugar a un modelo RD de

`$$\text{ Mortalidad }=\boldsymbol{\beta}_{0}+\boldsymbol{\beta}_{1} \boldsymbol{D}_{a}+\boldsymbol{\beta}_{2}\left(\boldsymbol{a}-\boldsymbol{a}_{0}\right)+\boldsymbol{\beta}_{3} \boldsymbol{D}_{a}\left(\boldsymbol{a}-\boldsymbol{a}_{0}\right)+\varepsilon$$`

---

# RDD paramétrico

- Recordemos que el tratamiento (por ejemplo, el acceso al alcohol) es una función determinista de una variable (por ejemplo, la edad).

- Una forma de evitar el impacto del sesgo de la variable omitida por la edad es centrarse en una banda estrecha de observaciones en torno al límite

+ Por ejemplo, restringir la regresión a las observaciones en las que los individuos tienen 19, 20, 21 y 22 años.

- Si una banda es demasiado estrecha, esto puede reducir la potencia estadística si hay muy pocas observaciones

- Si la banda es demasiado amplia, esto introduce el riesgo de que el sesgo de la variable omitida afecte a los resultados

- Una regresión RDD no paramétrica podría tener el siguiente aspecto:

`$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\varepsilon \ \ \text{donde:}  \ \  a_{0}-b \leq a \leq a_{0}+b$$`

- Esto requiere que el investigador o la investigadora seleccione el ancho de banda

---

# Fuzzy RDD

- En nuestro último ejemplo, cuando la variable en funcionamiento (edad) cruzó el umbral (21) se produjo el tratamiento 
    
    + Esto se denomina sharp RDD

- Sin embargo, a veces es más probable que el tratamiento se produzca cuando una variable cruza un umbral.

- Una forma conceptual de pensar en esto es que el RDD difuso es un enfoque de variable instrumental:     
    
    + ¡una running variable que cruza un umbral es un instrumento para el tratamiento!

---

# Reflexiones finales 
-  El RDD no es una nueva metodología de estimación, sino un escenario que ayuda a la identificación

- Los resultados de políticas o reglas rígidas son escenarios fantásticos para la RDD 
- .hi-pink[Otras cuestiones]

+ Aplicar variables de control según convenga a su entorno

- Tiene que seleccionar el orden polinómico correcto para controlar su running variable, y el ancho de banda correcto si utiliza una regresión no paramétrica

+ Mejor enfoque: ¡muestre que su resultado es robusto a múltiples especificaciones!

- ¿Se puede manipular el umbral?

+ No se puede forzar que la edad sea mayor o menor, pero otras running variables podrían verse influenciadas. ¡Esto crea problemas con el RDD!

- Si no se puede manipular perfectamente la running variable, puede seguir habiendo aleatoriedad, pero esto puede significar que se necesita un ancho de banda menor para eliminar el sesgo

+ Buena idea para comprobar la agrupación a ambos lados del umbral