class: center, middle, inverse, title-slide # Introducción - Regresión Discontinua ## Econometría I ### Paula Pereda (
ppereda@correo.um.edu.uy
) ### 18 de noviembre de 2021 --- class: inverse, middle # Regresión discontinua --- # Estudio de caso: MLDA - Seguiremos los estudios de caso utilizados en Angrist y Pitschke - En los Estados Unidos, el alcohol no puede comprarse y consumirse legalmente hasta que un individuo es mayor de 21 años + ¡Estas rigideces y reglas en economía, finanzas, leyes, etc. son un gran escenario para la RDD! - Supongamos que queremos examinar los efectos del acceso al alcohol y la mortalidad... --- # MLDA y mortalidad <center> <img src = "1.png" height = 400> </center> --- # Sharp RD de la MLDA y mortalidad <center> <img src = "2.png" height = 400> </center> --- # Running variables y tratamiento - Sharp RDD explota que el tratamiento (por ejemplo, el acceso al alcohol) es una función determinística de una variable (por ejemplo, la edad) + Más adelante explicaremos Fuzzy RDD vs Sharp RDD - El tratamiento es: `\begin{equation} D_{a}=\left\{\begin{array}{l} 1 \text { if } a \geq 21 \\ 0 \text { if } a<21 \end{array}\right. \end{equation}` - El estado del tratamiento es una función .hi.pink[discontinua] de `\(a\)` + No importa lo cerca que esté a del punto de corte, `\(D_a = 0\)` hasta que se alcance el punto de corte + Por ejemplo, ¡no puedes ir (legalmente) a un bar a las 23:59 la noche antes de tu cumpleaños número 21! - La variable que determina el tratamiento se denomina "running variable". + En nuestro caso, la edad --- # Regresión RDD - La mortalidad cambia claramente con la edad por razones distintas de la MLDA + Por ejemplo, la tasa de mortalidad de una persona de 20 años frente a una de 99 años - Por lo tanto, tendremos que controlar la variación de la variable dependiente (mortalidad) impulsada por la variable de ejecución: - Una simple regresión RDD podría ser como: `$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\varepsilon$$` - ¿Y si la edad no está relacionada linealmente con la mortalidad? + Surgen los problemas conocidos de sesgo de variable omitida - Nos ocuparemos de controlar más a fondo nuestra variable corriente con dos métodos clave: + 1) RDD no lineal + 2) RDD paramétrico --- # RDD no lineal - Recordemos que nuestra simple regresión RDD tenía el siguiente aspecto: `$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\varepsilon$$` - Si tenemos una relación no lineal con la edad, podemos introducir una función cuadrática `$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\beta_{3} a^{2}+\varepsilon$$` - Alternativamente, podríamos permitir diferentes coeficientes en la relación con la edad antes y después del corte - Esto se hace tomando la diferencia de la variable en funcionamiento con el corte, y añadiendo un término de interacción + En nuestro ejemplo, `\(a_0 = 21\)` - Esto da lugar a un modelo RD de `$$\text{ Mortalidad }=\boldsymbol{\beta}_{0}+\boldsymbol{\beta}_{1} \boldsymbol{D}_{a}+\boldsymbol{\beta}_{2}\left(\boldsymbol{a}-\boldsymbol{a}_{0}\right)+\boldsymbol{\beta}_{3} \boldsymbol{D}_{a}\left(\boldsymbol{a}-\boldsymbol{a}_{0}\right)+\varepsilon$$` --- # RDD paramétrico - Recordemos que el tratamiento (por ejemplo, el acceso al alcohol) es una función determinista de una variable (por ejemplo, la edad). - Una forma de evitar el impacto del sesgo de la variable omitida por la edad es centrarse en una banda estrecha de observaciones en torno al límite + Por ejemplo, restringir la regresión a las observaciones en las que los individuos tienen 19, 20, 21 y 22 años. - Si una banda es demasiado estrecha, esto puede reducir la potencia estadística si hay muy pocas observaciones - Si la banda es demasiado amplia, esto introduce el riesgo de que el sesgo de la variable omitida afecte a los resultados - Una regresión RDD no paramétrica podría tener el siguiente aspecto: `$$\text{ Mortalidad }=\beta_{0}+\beta_{1} D_{a}+\beta_{2} a+\varepsilon \ \ \text{donde:} \ \ a_{0}-b \leq a \leq a_{0}+b$$` - Esto requiere que el investigador o la investigadora seleccione el ancho de banda --- # Fuzzy RDD - En nuestro último ejemplo, cuando la variable en funcionamiento (edad) cruzó el umbral (21) se produjo el tratamiento + Esto se denomina sharp RDD - Sin embargo, a veces es más probable que el tratamiento se produzca cuando una variable cruza un umbral. - Una forma conceptual de pensar en esto es que el RDD difuso es un enfoque de variable instrumental: + ¡una running variable que cruza un umbral es un instrumento para el tratamiento! --- # Reflexiones finales - El RDD no es una nueva metodología de estimación, sino un escenario que ayuda a la identificación - Los resultados de políticas o reglas rígidas son escenarios fantásticos para la RDD - .hi-pink[Otras cuestiones] + Aplicar variables de control según convenga a su entorno - Tiene que seleccionar el orden polinómico correcto para controlar su running variable, y el ancho de banda correcto si utiliza una regresión no paramétrica + Mejor enfoque: ¡muestre que su resultado es robusto a múltiples especificaciones! - ¿Se puede manipular el umbral? + No se puede forzar que la edad sea mayor o menor, pero otras running variables podrían verse influenciadas. ¡Esto crea problemas con el RDD! - Si no se puede manipular perfectamente la running variable, puede seguir habiendo aleatoriedad, pero esto puede significar que se necesita un ancho de banda menor para eliminar el sesgo + Buena idea para comprobar la agrupación a ambos lados del umbral