分析美国第一代大学生的大学数据

Introduction

我决定看看大学记分卡的数据, 但是要关注那些太阳城娱乐第一代大学生的信息. 作为第一代有色人种学生, 我注意到很多其他的第一代学生会休假,有时甚至不再回到太阳城娱乐. 这一观察启发我去观察不同类型院校的第一代学生的完成率. 我选择了只颁发学士学位的学院和大学. 我看四年制的院校来缩小数据范围,剔除职业院校和颁发副学士学位的院校. 考虑到很多学生在四年内都无法毕业, 我观察第一代学生在六年内毕业的可能性.

主题相关信息

第一代学生在过渡到大学时必须克服许多障碍. 因为许多第一代学生往往来自不利的背景, 在四年内完成大学学业通常是困难的. 对于低收入家庭的第一代学生来说,进入大学可能是一种相当大的文化冲击. 在大学里,家庭的需求和经济上的限制往往很难平衡. 这些额外的压力会让第一代学生感到苦恼, 感觉自己不属于这里, 并鼓励他们一起放弃学业. 大多数学生的压力来自经济拮据,因此一些研究预测,让大学变得更容易负担,有助于提高第一代学生的留校率和毕业率. 尽管有这样的建议, 第一代大学生继续面临阻碍他们完成大学学业的不利因素.

Research Question

哪些州的第一代学生在六年内获得学士学位的比例最低?

Hypothesis

我认为,假设德克萨斯州和加利福尼亚州等较大的州将有更多的第一代学生是合乎逻辑的,因为它们有更多的大学适龄学生可供参考. 与其他州相比,拥有更大的学生群体意味着更难达到更高的完成率. 我的预测是像德克萨斯这样的大州, California, 以及新墨西哥州和亚利桑那州的边境州, 第一代学生在六年内获得学士学位的比例会更高吗. On a similar note, 我觉得像北达科他州这样的小州, 哥伦比亚特区, Vermont, 康涅狄格州的完成率较低,因为他们的人口较少.

第一部分:代码和数据子集

\1. 下面的代码正在加载我将在笔记本中使用的不同包. 这对于我的视觉效果和合并College Scorecard数据与States数据尤其重要.

In [1]:
library(ggplot2)
library(maps)
library(RColorBrewer)
library(ggplot2)
library(rgdal)
library(sp)
library(rgeos)
library(maptools)
Warning message:
'maps'包是在R版本3下构建的.3.3"Warning message:
包'rgdal'是在R版本3下构建的.3.3 .装载所需包装:sp
Warning message:
"软件包'sp'是在R版本3下构建的.3.3"rgdal: version: 1.2-6, (SVN版本651)
 地理空间数据抽象库扩展到R成功加载
 加载的GDAL运行时:GDAL 2.0.1、2015年9月15日发布
 GDAL共享文件路径:C:/Users/Karla/Documents/R/win-library/.3/rgdal/gdal
 Loaded PROJ.4 runtime: Rel. 4.9.2、2015年9月8日,[PJ_VERSION: 492]
 Path to PROJ.4个共享文件:C:/Users/Karla/Documents/R/win-library/.3/rgdal/proj
 链接到sp版本.2-4 
Warning message:
包'rgeos'是在R版本3下构建的.3.3"rgeos version: 0.3-23, (SVN修订版546)
 GEOS运行版本:3.5.0-CAPI-1.9.0 r4084 
 链接到sp版本.2-4 
 Polygon checking: TRUE 

Warning message:
" maptools包是在R版本3下构建的.3.检查操作系统可用性:TRUE

\2. 下面的代码创建了一个名为states的向量,它使用地图数据,然后向我们显示了一个包含地图数据中前六行的表.

In [2]:
states <- map_data("state")
head(states)
longlatgrouporderregionsubregion
-87.4620130.38968 1 1 alabama NA
-87.4849330.37249 1 2 alabama NA
-87.5250330.37249 1 3 alabama NA
-87.5307630.33239 1 4 alabama NA
-87.5708730.32665 1 5 alabama NA
-87.5880630.32665 1 6 alabama NA

\3. 我创建了一个名为csc的逻辑向量,它正在加载我创建的包含以下列变量的新excel电子表格:


INSTNM = Institution Name


Region =州名缩写


CONTROL =公立学校1分,私立非营利学校2分,私立营利性学校3分


LATITUDE


LONGITUDE


UGDS_HISP =西班牙裔本科学位在读学生的总比例


FIRSTGEN_COMP_ORIG_YR6_RT =第一代学生在原院校6年内完成学业的百分比


FIRST_GEN =第一代学生的份额/百分比


HIGHDEG 证书学位= 1, 副学士2分, 3 for Bachelors Degree, 研究生学位4分


REGION2 = 1 新英格兰(CT, ME, MA, NH, RI, VT), 2 中东(DE, DC, MD, NJ, NY, PA), 3 五大湖(IL, IN, MI, OH, WI), 4 平原(IA, KS, MN, MO, NE, ND, SD), 5 东南(AL, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, WV), 6 西南(AZ, NM, OK, TX), 7 落基山脉(CO, ID, MT, UT, WY), 8 远西部(AK, CA, HI, NV, OR, WA), 9 外围地区(AS、FM、GU、MH、MP、PR、PW、VI)

In [3]:
csc <- read.csv("College_Data_FirstGen.csv", header = TRUE, stringsAsFactors = FALSE)

\4. 下面的代码将“region”列中的缩写州名转换为小写的州名,以便与地图数据中的“region”列匹配.

In [4]:
#'x'是数据的列.保存2位状态码的帧
stateFromLower <-function(x) {
   读取52个州的代码到本地变量[包括DC(华盛顿特区)].C. and PR (Puerto Rico)]
  st.codes<-data.frame(
                      state=as.factor(c("AK", "AL", "AR", "AZ", "CA", "CO", "CT", "DC", "DE", "FL", "GA",
                                         "HI", "IA", "ID", "IL", "IN", "KS", "KY", "LA", "MA", "MD", "ME",
                                         "MI", "MN", "MO", "MS",  "MT", "NC", "ND", "NE", "NH", "NJ", "NM",
                                         "NV", "NY", "OH", "OK", "OR", "PA", "PR", "RI", "SC", "SD", "TN",
                                         "TX", "UT", "VA", "VT", "WA", "WI", "WV", "WY")),
                      full=as.factor(c("alaska","alabama","arkansas","arizona","california","colorado",
                                       "connecticut","district of columbia","delaware","florida","georgia",
                                       "hawaii","iowa","idaho","illinois","indiana","kansas","kentucky",
                                       "louisiana","massachusetts","maryland","maine","michigan","minnesota",
                                       "missouri","mississippi","montana","north carolina","north dakota",
                                       "nebraska","new hampshire","new jersey","new mexico","nevada",
                                       "new york","ohio","oklahoma","oregon","pennsylvania","puerto rico",
                                       "rhode island","south carolina","south dakota","tennessee","texas",
                                       "utah","virginia","vermont","washington","wisconsin",
                                       "west virginia","wyoming"))
                       )
     #create an nx1 data.来自源列的状态代码框架
  st.x<-data.frame(state=x)
     #匹配源代码与代码从'st.代码的局部变量和用于返回完整的状态名称
  refac.x<-st.codes$full[match(st.x$state,st.codes$state)]
     返回完整的州名,其顺序与在原始源中出现的顺序相同
  return(refac.x)
 
}

\5. 我在csc数据中创建了一个名为“region”的新列,它使用各州的小写名称. 然后打印出csc数据中区域列的前十个州名.

In [5]:
csc$region <- stateFromLower(csc$STABBR)
csc$region[1:10]
  1. alabama
  2. alabama
  3. alabama
  4. alabama
  5. alabama
  6. alabama
  7. alabama
  8. alabama
  9. alabama
  10. alabama

\6. 我在下面创建了一个名为csc_df的新向量,它合并了csc和states数据,以便它们的区域列是 same. 然后打印出新的csc_df向量表中的前六行.

In [6]:
csc_df <- merge(csc, states, by = "region")
head(csc_df)
regionUNITIDOPEIDOPEID6INSTNMCITYSTABBRZIPCONTROLLATITUDE...UGDS_HISPFIRSTGEN_COMP_ORIG_YR6_RTFIRST_GENHIGHDEGREGION2longlatgroupordersubregion
alabama 102076 103800 1038 斯尼德州立社区学院Boaz AL 35957-0734 1 34.201247 ... 0.0825 0.070063694 0.545154911 2 5 -87.46201 30.38968 1 1 NA
alabama 102076 103800 1038 斯尼德州立社区学院Boaz AL 35957-0734 1 34.201247 ... 0.0825 0.070063694 0.545154911 2 5 -87.48493 30.37249 1 2 NA
alabama 102076 103800 1038 斯尼德州立社区学院Boaz AL 35957-0734 1 34.201247 ... 0.0825 0.070063694 0.545154911 2 5 -87.52503 30.37249 1 3 NA
alabama 102076 103800 1038 斯尼德州立社区学院Boaz AL 35957-0734 1 34.201247 ... 0.0825 0.070063694 0.545154911 2 5 -87.53076 30.33239 1 4 NA
alabama 102076 103800 1038 斯尼德州立社区学院Boaz AL 35957-0734 1 34.201247 ... 0.0825 0.070063694 0.545154911 2 5 -87.57087 30.32665 1 5 NA
alabama 102076 103800 1038 斯尼德州立社区学院Boaz AL 35957-0734 1 34.201247 ... 0.0825 0.070063694 0.545154911 2 5 -87.58806 30.32665 1 6 NA

\7. 下面的代码创建了一个名为csc2的新向量,它通过只包括只颁发学士学位的大学来子集csc数据. head函数打印出csc子集的前六行.

In [7]:
csc2 <- csc[csc$HIGHDEG == 3,]
head(csc2)
UNITIDOPEIDOPEID6INSTNMCITYSTABBRZIPCONTROLLATITUDELONGITUDEADM_RATE_ALLUGDS_HISPFIRSTGEN_COMP_ORIG_YR6_RTFIRST_GENHIGHDEGREGION2region
8100812 100800 1008 雅典州立大学 Athens AL 35611 1 34.805625 -86.96514 NULL 0.0191 0.579741379 0.471594798 3 5 alabama
11100937 101200 1012 伯明翰南方学院Birmingham AL 35254 2 33.515453 -86.853636 0.533935018 0.0195 0.238095238 0.2 3 5 alabama
13101073 1055400 10554 阿拉巴马州康考迪亚学院 Selma AL 36701 2 32.42443 -87.023531 0.532846715 0.0373 PrivacySuppressed 0.533477322 3 5 alabama
24101435 101900 1019 Huntingdon College Montgomery AL 36106-2148 2 32.350939 -86.285313 0.583855254 0.0252 0.524137931 0.327559055 3 5 alabama
31101541 102300 1023 Judson College Marion AL 36756 2 32.630526 -87.316127 0.652542373 0.016 0.314285714 0.460580913 3 5 alabama
36101675 102800 1028 Miles College Fairfield AL 35064-2621 2 33.481306 -86.908605 NULL 0.0028 0.193211488 0.42406015 3 5 alabama

\8. 在这里,我创建了一个tx向量,它只查看csc2中位于德克萨斯州的大学. s向量仅通过查看下面列出的列来子集tx数据. 前六行显示在下表中.

In [8]:
tx <- csc2$region == "texas"
tx2 <- csc2[csc2$CONTROL == 2,]
s <- csc2[tx,c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]

head(s)
UGDS_HISPFIRST_GENFIRSTGEN_COMP_ORIG_YR6_RTINSTNMCONTROL
36480.3275 0.402479339 0.382417582 休斯顿艺术学院 3
36590.4805 0.573844316 0.630573248 雷明顿学院达拉斯校区 2
36610.3714 0.502638522 PrivacySuppressed Brazosport College 1
36750.1845 0.415 0.302325581 达拉斯基督教学院 2
36800.3629 0.557563242 0.431472081 Career Point College 3
37110.2269 0.497285751 0.353021354 ITT技术学院-阿灵顿3

\9. 我创建了一个名为complete的矢量,它去掉了UGDS_HISP中的na和非数值, FIRST_GEN, 和FIRSTGEN_COMP_IRIG_YR6_RT列. 我使用名为complete的向量编辑s向量,然后打印前六列,以检查是否去掉了数据中的非数字值.

In [9]:
complete <- complete.cases(cbind(as.numeric(s[,1]),as.numeric(s[,2]), as.numeric(s[,3], as.numeric(s[,4]))))
complete[1:5]

s <- s[complete, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(s)
中文警告信息(如.numeric(s[, 1]), as.numeric(s[, 2]), as.numeric(s[, :
“强制引入的NAs”中文警告信息(as.numeric(s[, 1]), as.numeric(s[, 2]), as.numeric(s[, :
“强制引入的NAs”
  1. TRUE
  2. TRUE
  3. FALSE
  4. TRUE
  5. TRUE
UGDS_HISPFIRST_GENFIRSTGEN_COMP_ORIG_YR6_RTINSTNMCONTROL
36480.3275 0.402479339 0.382417582 休斯顿艺术学院 3
36590.4805 0.573844316 0.630573248 雷明顿学院达拉斯校区 2
36750.1845 0.415 0.302325581 达拉斯基督教学院 2
36800.3629 0.557563242 0.431472081 Career Point College 3
37110.2269 0.497285751 0.353021354 ITT技术学院-阿灵顿 3
37120.322 0.497285751 0.353021354 ITT技术学院-休斯顿西部3

\10. 在这里,我创建了一个名为cexvals的向量,它重复csc2数据和I子集中每行绘制值的大小,以查看德克萨斯州的学校. pchVals向量创建了德克萨斯州学校标绘值的加号形状. colVals向量为csc2数据中的所有行创建了德克萨斯州学校的浅灰色图.

In [10]:
cexVals <- rep(0.5, nrow(csc2))
cexVals[csc2$region == "texas"] = 1
pchVals <- rep(3, nrow(csc2))
pchVals[csc2$region == "texas"] = 19
colVals <- rep(grey(0.5), nrow(csc2))
colVals[csc2$region == "texas"] <- grey(0.1)

\11. 下面我创建了两个向量来创建s向量的子集,其中包含德克萨斯大学的数据. Sub代表德州公立大学,sub2代表德州私立营利性大学.

In [11]:
sub <- s[s$CONTROL == 1, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(sub)

sub2 <- s[s$CONTROL == 3, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(sub2)
UGDS_HISPFIRST_GENFIRSTGEN_COMP_ORIG_YR6_RTINSTNMCONTROL
37340.5169 0.532457496 0.141333333 Midland College 1
48550.9401 0.633025431 0.110193974 South Texas College1
UGDS_HISPFIRST_GENFIRSTGEN_COMP_ORIG_YR6_RTINSTNMCONTROL
36480.3275 0.402479339 0.382417582 休斯顿艺术学院 3
36800.3629 0.557563242 0.431472081 Career Point College 3
37110.2269 0.497285751 0.353021354 ITT技术学院-阿灵顿 3
37120.322 0.497285751 0.353021354 ITT技术学院-休斯顿西部3
37370.1546 0.347560976 0.581395349 Wade College 3
44710.2785 0.497285751 0.353021354 ITT技术学院-奥斯汀 3

\12. 使用plot函数, 我制作了一个散点图,对比德州一所私立非营利性大学的第一代学生和第一代学生在六年内完成学士学位的比例. I use the size, shape, 和颜色建立在上面的代码, 我相应地标记了x轴和y轴, 根据德州学校的名字来标记, 然后画出斜率为1的直线. 积分功能为德克萨斯州的公共机构创造了红点,为私营营利性机构创造了蓝点.

In [17]:
plot(tx2$FIRST_GEN, tx2$FIRSTGEN_COMP_ORIG_YR6_RT, col=colVals, pch=pchVals, xlab="PercFirstGen", ylab="FirstGenComp6yr", main=“德克萨斯州私立非营利性大学的第一代学生”)
text(as.numeric(s[,1]), as.numeric(s[,2]), as.numeric(s[,3])+0.001, labels = s$INSTNM, pos = 1, cex = 0.5)
abline(0,1)

points(sub$FIRST_GEN, sub$FIRSTGEN_COMP_ORIG_YR6_RT, col="red")
points(sub2$FIRST_GEN, sub2$FIRSTGEN_COMP_ORIG_YR6_RT, col="blue")
Warning message in xy.坐标(x, y, xlabel, ylabel, log):
“强制引入的NAs”xy中的警告消息.坐标(x, y, xlabel, ylabel, log):
“强制引入的NAs”

Scatterplot Argument

上面的散点图显示,德州公立大学的第一代学生比例最高,分别为55%和63%, 但完成率低于20%. 私立营利性德州大学的第一代学生比例也很高, 但对于第一代学生来说,它们的完成率相对较高,在20%-70%之间.

\13. 下面的代码创建了一个名为logic的向量,它为非数字的值创建NA. 百分比向量使用不包含NAs的tapply函数.

In [18]:
#pg46
logic <- is.na(csc2$FIRSTGEN_COMP_ORIG_YR6_RT)
perc <- tapply(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT[!logic]), INDEX=csc2$region, FUN=mean, na.rm=TRUE)
perc
应用程序中的警告消息.数字(csc2 FIRSTGEN_COMP_ORIG_YR6_RT(美元!$ $ $ $,:
“强制引入的NAs”
alabama
0.328441442333333
alaska
0.514705882
arizona
0.411028257789474
arkansas
0.337667442333333
california
0.421706313458333
colorado
0.290303224066667
connecticut
0.427514162
delaware
NA
district of columbia
0.243660381
florida
0.379257108578125
georgia
0.320167089214286
hawaii
0.43164708625
idaho
0.371392428333333
illinois
0.39901491676
indiana
0.4464657747
iowa
0.493563651363636
kansas
0.309323142916667
kentucky
0.396936149875
louisiana
0.369227350666667
maine
0.331471098166667
maryland
0.353021354
massachusetts
0.389826531133333
michigan
0.393532005117647
minnesota
0.409438251233333
mississippi
0.2181226265
missouri
0.413737188961538
montana
0.312135579
nebraska
0.364716189
nevada
0.287939139857143
new hampshire
0.48343016425
new jersey
0.270175344
new mexico
0.303975701571429
new york
0.3443760653125
north carolina
0.37912340975
north dakota
0.3344215155
ohio
0.414234273634146
oklahoma
0.329145369833333
oregon
0.518339954
pennsylvania
0.528095511485714
puerto rico
0.14506740575
rhode island
0.474604966
south carolina
0.331111150916667
south dakota
0.2543162576
tennessee
0.340833050764706
texas
0.341924800833333
utah
0.3476715014375
vermont
0.504045520333333
virginia
0.390121723413793
washington
0.243661417461538
west virginia
0.335320375166667
wisconsin
0.407847932210526
wyoming
0.340229885

\14. 我在上面的代码中使用perc向量创建了一个名为df_perc的新数据帧. 然后,我在新的数据框架中创建了一个名为region的列,其中包含df_perc的行名,然后我创建了一个df_perc的表,以查看数据框架的外观.

In [19]:
df_perc <- as.data.frame(perc)
df_perc$region <- rownames(df_perc)
df_perc
percregion
alabama0.3284414 alabama
alaska0.5147059 alaska
arizona0.4110283 arizona
arkansas0.3376674 arkansas
california0.4217063 california
colorado0.2903032 colorado
connecticut0.4275142 connecticut
delaware NA delaware
district of columbia0.2436604 district of columbia
florida0.3792571 florida
georgia0.3201671 georgia
hawaii0.4316471 hawaii
idaho0.3713924 idaho
illinois0.3990149 illinois
indiana0.4464658 indiana
iowa0.4935637 iowa
kansas0.3093231 kansas
kentucky0.3969361 kentucky
louisiana0.3692274 louisiana
maine0.3314711 maine
maryland0.3530214 maryland
massachusetts0.3898265 massachusetts
michigan0.3935320 michigan
minnesota0.4094383 minnesota
mississippi0.2181226 mississippi
missouri0.4137372 missouri
montana0.3121356 montana
nebraska0.3647162 nebraska
nevada0.2879391 nevada
new hampshire0.4834302 new hampshire
new jersey0.2701753 new jersey
new mexico0.3039757 new mexico
new york0.3443761 new york
north carolina0.3791234 north carolina
north dakota0.3344215 north dakota
ohio0.4142343 ohio
oklahoma0.3291454 oklahoma
oregon0.5183400 oregon
pennsylvania0.5280955 pennsylvania
puerto rico0.1450674 puerto rico
rhode island0.4746050 rhode island
south carolina0.3311112 south carolina
south dakota0.2543163 south dakota
tennessee0.3408331 tennessee
texas0.3419248 texas
utah0.3476715 utah
vermont0.5040455 vermont
virginia0.3901217 virginia
washington0.2436614 washington
west virginia0.3353204 west virginia
wisconsin0.4078479 wisconsin
wyoming0.3402299 wyoming

\15. 下面的logic2向量去掉了df_perc中perc列中的NAs. 设置logic2向量的百分比列子将NA值更改为0.

In [20]:
logic2 <- is.na(df_perc$perc)
df_perc$perc[logic2] <- 0
df_perc
percregion
alabama0.3284414 alabama
alaska0.5147059 alaska
arizona0.4110283 arizona
arkansas0.3376674 arkansas
california0.4217063 california
colorado0.2903032 colorado
connecticut0.4275142 connecticut
delaware0.0000000 delaware
district of columbia0.2436604 district of columbia
florida0.3792571 florida
georgia0.3201671 georgia
hawaii0.4316471 hawaii
idaho0.3713924 idaho
illinois0.3990149 illinois
indiana0.4464658 indiana
iowa0.4935637 iowa
kansas0.3093231 kansas
kentucky0.3969361 kentucky
louisiana0.3692274 louisiana
maine0.3314711 maine
maryland0.3530214 maryland
massachusetts0.3898265 massachusetts
michigan0.3935320 michigan
minnesota0.4094383 minnesota
mississippi0.2181226 mississippi
missouri0.4137372 missouri
montana0.3121356 montana
nebraska0.3647162 nebraska
nevada0.2879391 nevada
new hampshire0.4834302 new hampshire
new jersey0.2701753 new jersey
new mexico0.3039757 new mexico
new york0.3443761 new york
north carolina0.3791234 north carolina
north dakota0.3344215 north dakota
ohio0.4142343 ohio
oklahoma0.3291454 oklahoma
oregon0.5183400 oregon
pennsylvania0.5280955 pennsylvania
puerto rico0.1450674 puerto rico
rhode island0.4746050 rhode island
south carolina0.3311112 south carolina
south dakota0.2543163 south dakota
tennessee0.3408331 tennessee
texas0.3419248 texas
utah0.3476715 utah
vermont0.5040455 vermont
virginia0.3901217 virginia
washington0.2436614 washington
west virginia0.3353204 west virginia
wisconsin0.4078479 wisconsin
wyoming0.3402299 wyoming

\16. 我查看了6年内完成大学学业的第一代学生的百分比. hist函数创建一个直方图,其中包含20个断点,x轴标记并创建标题.

In [22]:
summary(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT))
hist(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT), breaks=20, xlab= “第一代学生的百分比”, main=“六年内第一代毕业率”)
警告信息摘要(如.数字(csc2 FIRSTGEN_COMP_ORIG_YR6_RT美元)):
“强制引入的NAs”
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
0.02766 0.27360 0.35300 0.38000 0.47460 0.85420     195 
历史中的警告信息(如.数值(csc2$FIRSTGEN_COMP_ORIG_YR6_RT), break = 20,:
“强制引入的NAs”

\17. 上面的直方图显示了第一代大学生在6年内获得学士学位的百分比分布. 扩散看起来相对正常. 以下是对每个地区的州的描述

1 新英格兰(CT, ME, MA, NH, RI, VT)


2 中东(DE, DC, MD, NJ, NY, PA)


3 五大湖(IL, IN, MI, OH, WI)


4 平原(IA, KS, MN, MO, NE, ND, SD)


5 东南(AL, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, WV)


6 西南(AZ, NM, OK, TX)


7 落基山脉(CO, ID, MT, UT, WY)


8 远西部(AK, CA, HI, NV, OR, WA)


9 外围地区(AS、FM、GU、MH、MP、PR、PW、VI)

In [32]:
ggplot(csc2, aes(x=factor(REGION2), y=as.numeric(FIRSTGEN_COMP_ORIG_YR6_RT), fill = factor(REGION2))) + geom_bar(stat='identity') +
    labs(x="Region") +
    labs(y="Count") +
    labs(title=“在美国完成大学学业的第一代学生总数.S.")
eval(expr, envir, enclosures)中的警告消息:
"被强制引入的NAs " eval(expr, envir, enclos)中的警告消息:
“强制引入NAs”警告信息:
"删除了包含缺失值的195行(position_stack)."

/18. 上面的直方图显示,5区在6年内完成大学学业的第一代学生最多, 而第九区6年内完成大学学业的第一代学生数量最少. 考虑到区域5包含AL,这是一个有趣的观察结果, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, and WV.

\19. 下面的代码试图通过设置小于0的百分比等于0来消除任何负值. 间隔向量的创建将百分比列切割成四个间隔,并在下面打印它们.

In [33]:
df_perc$perc[df_perc$perc<0] = 0
interval <- unique(cut(df_perc$perc, 4))
interval
  1. (0.264,0.396]
  2. (0.396,0.529]
  3. (-0.000528,0.132]
  4. (0.132,0.264]

\20. 下一组代码根据上面创建的间隔使用以下标签从df_perc$perc创建断点.

In [90]:
df_perc$breaks = cut(df_perc$perc, 4, labels = c("0-.132", ".132-.264", ".264-.396", ".396-.529"))
head(df_perc)
percregionbreaks
alabama0.3284414 alabama .264-.396
alaska0.5147059 alaska .396-.529
arizona0.4110283 arizona .396-.529
arkansas0.3376674 arkansas .264-.396
california0.4217063 california.396-.529
colorado0.2903032 colorado .264-.396

\21. 创建Chor_df是为了根据地区合并状态数据和df_perc数据,然后打印数据的前六行.

In [86]:
choro_df <- merge(states, df_perc, by = "region")
head(choro_df)
regionlonglatgroupordersubregionpercbreaks
alabama -87.4620130.38968 1 1 NA 0.3284414.264-.396
alabama -87.4849330.37249 1 2 NA 0.3284414.264-.396
alabama -87.5250330.37249 1 3 NA 0.3284414.264-.396
alabama -87.5307630.33239 1 4 NA 0.3284414.264-.396
alabama -87.5708730.32665 1 5 NA 0.3284414.264-.396
alabama -87.5880630.32665 1 6 NA 0.3284414.264-.396

\22. 接下来,对choro进行排序,并打印前六行.

In [87]:
choro <- choro_df[order(choro_df$order), ]
head(choro)
regionlonglatgroupordersubregionpercbreaks
alabama -87.4620130.38968 1 1 NA 0.3284414.264-.396
alabama -87.4849330.37249 1 2 NA 0.3284414.264-.396
alabama -87.5250330.37249 1 3 NA 0.3284414.264-.396
alabama -87.5307630.33239 1 4 NA 0.3284414.264-.396
alabama -87.5708730.32665 1 5 NA 0.3284414.264-.396
alabama -87.5880630.32665 1 6 NA 0.3284414.264-.396

\23. 清理完数据后,我们就可以在地图上绘制数据了. 我使用了一个qplot,它使用坐标数据的经度和纬度,并根据前面创建的断点填充状态. 我使用main创建了一个标题, 我把每个州都围起来,这样更容易找到州, 我用光谱调色板给不同颜色的状态上色.

In [111]:
qplot(long, lat, data = choro, group = group, fill = breaks, geom = "polygon", 
      main = “第一代学生的大学毕业率”) +  borders("state", size = 0.5) +
    scale_fill_brewer(name = "College Completion", palette = "Spectral")

Map Analysis

Red = Delaware


Orange =华盛顿、南达科他州和密西西比州


Green = Montana, Idaho, Wyoming, North Dakota, Nevada, Utah, Colorado, New Mexico, Texas, Oklahoma, Kansas, Nebraska, Michigan, Maine, New York, Massachusetts, New Jersey, Maryland, Virgina, West Virginia, North Carolina, Tennessee, South Carolina, Georgia, Alabama, and Florida


Blue = Oregon, California, Arizona, Minnesota, Iowa, Missouri, Wisconsin, Illinois, Indiana, Kentucky, Ohio, Pennsylvania, Connecticut, Rhode Island, Vermont, and New Hampshire

我决定把我的时间集中在分析红色和橙色州,并研究为什么这些州的税率在0到26%之间. 第一代学生往往是少数族裔, 和/或来自低收入家庭, 而且通常是单亲家庭. 这些特点使得第一代学生更难完成大学学业. 由于家庭经济问题,许多第一代学生感到辍学的压力, stress and anxiety, 没有归属感, 以及校外就业. 第一代学生毕业率如此之高的根本原因就更容易理解了, 但是很难理解为什么低利率在某些州特别低.

Conclusion

仔细看了我的数据后,特拉华州没有一所大学颁发学士学位. 这可能是该州第一代大学生毕业率最低的主要原因. 至于橘子州,完成率在13%到26%之间, 四年制院校的大学记分卡数据中有足够的数据. 华盛顿的罗伯特米勒学院(Robert B Miller College)的平均毕业率达到了53%,而西雅图中央学院(Seattle Central College)的毕业率不到1%, 但第一代学生占学生总数的43%. In South Dakota, Presentation学院有30%的第一代大学生从大学毕业. In Mississippi, 三分之一的大学没有公布第一代学生完成大学学业的比例, 拉斯特学院的第一代学生完成大学学业的比例最低,只有15%. 我的数据只局限于四年制大学, 但我认为每个州的平均百分比准确地表达了每个州.

Bibliography

Boyd, Vivian S. Linda, K. Gast, Patricia F. 亨特,爱丽丝·米切尔和温迪·威尔逊. “为什么有些学生在最后一年就离开了大学." 大学生发展杂志 53.5 (2012): 737-42. Web.


Riggs, Liz. 《第一代大学生:毫无准备和落后." The Atlantic, 31 Dec. 2014, http://www.theatlantic.com/education/archive/2014/12/the-added-pressure-faced-by-first-generation-students/384139/. Accessed 7 May 2017.


Wilbur, T. G., and V. J. Roscigno. “第一代劣势与大学入学/毕业”." 社会学:动态世界的社会学研究.0 (2016): 1-11. Web.


Wolfman-Arent, Avi. “第一年,第一代:被要求淹没,被鼓励鼓舞." newsworks, 28 Jun. 2016, http://www.newsworks.org/index.php/local/education/94947-first-year-first-generation-seans-spot. Accessed 7 May 2017.


Zinshteyn, Mikhail. 《如何帮助第一代学生成功." The Atlantic, 13 Mar. 2016, http://www.theatlantic.com/education/archive/2016/03/how-to-help-first-generation-students-succeed/473502/. Accessed on 7 May 2017.

In [ ]: