斷點回歸設計與新增虛擬變數有什麼區別

時間 2023-05-11 04:10:11

1樓:護膚達人it宅族

還是用錄取學校這個例子來說。

假設要研究錄取到一本學校對學生未來工資的影響。

首先,沒法做隨機試驗是肯定的。

現在如果我們用ols的方法,為了排除「錄取到一本學校」這個treatment的內生性。

我們就要往加入足夠多的解釋變數,比如說家庭教育,個人能力,經濟能力等等等,變數越多估計結果越準確。以及和這個treatment的虛擬變數。

但如果我們只加入乙個虛擬變數,說明我們預設了是否被錄取一本學校對不用能力、不同家庭背景的學生的影響都是一樣的,這顯然讓人難以信服。

為了更好地識別錄取到一本學校的影響,我們再往方程裡加入它與各個變數的互動項,這個回歸跑出來,理論上我們就可以得出,對於任意一類學生,是否錄取到一本學校對他的影響有多大。

想想都知道一旦變數多起來這個回歸有多不靠譜。

但是如果用斷點回歸的方法,我們起碼可以在有限的資料集中估計出乙個相對準確的結果。

在「連續性」的假設下,我們並不需要控制住那麼多變數,因為我們認為以running variable為參考的某個點附近,比如高考分500分附近的人,他們的學習成績,乃至智商、情商、abcdq等其他因素都是差不多的(這個說法可能要斟酌一下),而在這個499分和500分這群人差不多的人以後工資的差異,就可以被看做是錄取到一本學校的純的影響。但顯然,這個影響顯然是針對那群差不多的人而言的,對另一群學生來說,這個影響就毫無說服力了,因為你認為錄取到一本學校的影響對於不同群體而言是不一樣的。這句話是不是和上面下劃線那句話很像(其實就是乙個意思嘛)。

所以我認為兩者的關係是,rd(上面其實是個sharp rd的例子)估計出來的影響,相當於在回歸方程中加入足夠多的虛擬變數互動項,再估計出treatment在某個點的偏效應。多元回歸做不好這件事,而rd能做好。