斷點回歸設計與新增虛擬變數有什麼區別

1樓：護膚達人it宅族

還是用錄取學校這個例子來說。

假設要研究錄取到一本學校對學生未來工資的影響。

首先，沒法做隨機試驗是肯定的。

現在如果我們用ols的方法，為了排除「錄取到一本學校」這個treatment的內生性。

我們就要往加入足夠多的解釋變數，比如說家庭教育，個人能力，經濟能力等等等，變數越多估計結果越準確。以及和這個treatment的虛擬變數。

但如果我們只加入乙個虛擬變數，說明我們預設了是否被錄取一本學校對不用能力、不同家庭背景的學生的影響都是一樣的，這顯然讓人難以信服。

為了更好地識別錄取到一本學校的影響，我們再往方程裡加入它與各個變數的互動項，這個回歸跑出來，理論上我們就可以得出，對於任意一類學生，是否錄取到一本學校對他的影響有多大。

想想都知道一旦變數多起來這個回歸有多不靠譜。

但是如果用斷點回歸的方法，我們起碼可以在有限的資料集中估計出乙個相對準確的結果。

在「連續性」的假設下，我們並不需要控制住那麼多變數，因為我們認為以running variable為參考的某個點附近，比如高考分500分附近的人，他們的學習成績，乃至智商、情商、abcdq等其他因素都是差不多的（這個說法可能要斟酌一下），而在這個499分和500分這群人差不多的人以後工資的差異，就可以被看做是錄取到一本學校的純的影響。但顯然，這個影響顯然是針對那群差不多的人而言的，對另一群學生來說，這個影響就毫無說服力了，因為你認為錄取到一本學校的影響對於不同群體而言是不一樣的。這句話是不是和上面下劃線那句話很像（其實就是乙個意思嘛）。

所以我認為兩者的關係是，rd（上面其實是個sharp rd的例子）估計出來的影響，相當於在回歸方程中加入足夠多的虛擬變數互動項，再估計出treatment在某個點的偏效應。多元回歸做不好這件事，而rd能做好。

斷點回歸設計與新增虛擬變數有什麼區別

其他用戶還看了：