分析美国第一代大学生的大学数据¶

Introduction¶

我决定看看大学记分卡的数据, 但是要关注那些太阳城娱乐第一代大学生的信息. 作为第一代有色人种学生, 我注意到很多其他的第一代学生会休假，有时甚至不再回到太阳城娱乐. 这一观察启发我去观察不同类型院校的第一代学生的完成率. 我选择了只颁发学士学位的学院和大学. 我看四年制的院校来缩小数据范围，剔除职业院校和颁发副学士学位的院校. 考虑到很多学生在四年内都无法毕业, 我观察第一代学生在六年内毕业的可能性.

主题相关信息¶

第一代学生在过渡到大学时必须克服许多障碍. 因为许多第一代学生往往来自不利的背景, 在四年内完成大学学业通常是困难的. 对于低收入家庭的第一代学生来说，进入大学可能是一种相当大的文化冲击. 在大学里，家庭的需求和经济上的限制往往很难平衡. 这些额外的压力会让第一代学生感到苦恼, 感觉自己不属于这里, 并鼓励他们一起放弃学业. 大多数学生的压力来自经济拮据，因此一些研究预测，让大学变得更容易负担，有助于提高第一代学生的留校率和毕业率. 尽管有这样的建议, 第一代大学生继续面临阻碍他们完成大学学业的不利因素.

Research Question¶

哪些州的第一代学生在六年内获得学士学位的比例最低?

Hypothesis¶

我认为，假设德克萨斯州和加利福尼亚州等较大的州将有更多的第一代学生是合乎逻辑的，因为它们有更多的大学适龄学生可供参考. 与其他州相比，拥有更大的学生群体意味着更难达到更高的完成率. 我的预测是像德克萨斯这样的大州, California, 以及新墨西哥州和亚利桑那州的边境州, 第一代学生在六年内获得学士学位的比例会更高吗. On a similar note, 我觉得像北达科他州这样的小州, 哥伦比亚特区, Vermont, 康涅狄格州的完成率较低，因为他们的人口较少.

第一部分:代码和数据子集¶

\1. 下面的代码正在加载我将在笔记本中使用的不同包. 这对于我的视觉效果和合并College Scorecard数据与States数据尤其重要.

library(ggplot2)
library(maps)
library(RColorBrewer)
library(ggplot2)
library(rgdal)
library(sp)
library(rgeos)
library(maptools)

Warning message:
'maps'包是在R版本3下构建的.3.3"Warning message:
包'rgdal'是在R版本3下构建的.3.3 .装载所需包装:sp
Warning message:
"软件包'sp'是在R版本3下构建的.3.3"rgdal: version: 1.2-6， (SVN版本651)
 地理空间数据抽象库扩展到R成功加载
 加载的GDAL运行时:GDAL 2.0.1、2015年9月15日发布
 GDAL共享文件路径:C:/Users/Karla/Documents/R/win-library/.3/rgdal/gdal
 Loaded PROJ.4 runtime: Rel. 4.9.2、2015年9月8日，[PJ_VERSION: 492]
 Path to PROJ.4个共享文件:C:/Users/Karla/Documents/R/win-library/.3/rgdal/proj
 链接到sp版本.2-4 
Warning message:
包'rgeos'是在R版本3下构建的.3.3"rgeos version: 0.3-23， (SVN修订版546)
 GEOS运行版本:3.5.0-CAPI-1.9.0 r4084 
 链接到sp版本.2-4 
 Polygon checking: TRUE 

Warning message:
" maptools包是在R版本3下构建的.3.检查操作系统可用性:TRUE

\2. 下面的代码创建了一个名为states的向量，它使用地图数据，然后向我们显示了一个包含地图数据中前六行的表.

states <- map_data("state")
head(states)

\3. 我创建了一个名为csc的逻辑向量，它正在加载我创建的包含以下列变量的新excel电子表格:

INSTNM = Institution Name

Region =州名缩写

CONTROL =公立学校1分，私立非营利学校2分，私立营利性学校3分

LATITUDE

LONGITUDE

UGDS_HISP =西班牙裔本科学位在读学生的总比例

FIRSTGEN_COMP_ORIG_YR6_RT =第一代学生在原院校6年内完成学业的百分比

FIRST_GEN =第一代学生的份额/百分比

HIGHDEG 证书学位= 1, 副学士2分, 3 for Bachelors Degree, 研究生学位4分

REGION2 = 1 新英格兰(CT, ME, MA, NH, RI, VT), 2 中东(DE, DC, MD, NJ, NY, PA), 3 五大湖(IL, IN, MI, OH, WI), 4 平原(IA, KS, MN, MO, NE, ND, SD), 5 东南(AL, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, WV), 6 西南(AZ, NM, OK, TX), 7 落基山脉(CO, ID, MT, UT, WY), 8 远西部(AK, CA, HI, NV, OR, WA), 9 外围地区(AS、FM、GU、MH、MP、PR、PW、VI)

csc <- read.csv("College_Data_FirstGen.csv", header = TRUE, stringsAsFactors = FALSE)

\4. 下面的代码将“region”列中的缩写州名转换为小写的州名，以便与地图数据中的“region”列匹配.

#'x'是数据的列.保存2位状态码的帧
stateFromLower <-function(x) {
   读取52个州的代码到本地变量[包括DC(华盛顿特区)].C. and PR (Puerto Rico)]
  st.codes<-data.frame(
                      state=as.factor(c("AK", "AL", "AR", "AZ", "CA", "CO", "CT", "DC", "DE", "FL", "GA",
                                         "HI", "IA", "ID", "IL", "IN", "KS", "KY", "LA", "MA", "MD", "ME",
                                         "MI", "MN", "MO", "MS",  "MT", "NC", "ND", "NE", "NH", "NJ", "NM",
                                         "NV", "NY", "OH", "OK", "OR", "PA", "PR", "RI", "SC", "SD", "TN",
                                         "TX", "UT", "VA", "VT", "WA", "WI", "WV", "WY")),
                      full=as.factor(c("alaska","alabama","arkansas","arizona","california","colorado",
                                       "connecticut","district of columbia","delaware","florida","georgia",
                                       "hawaii","iowa","idaho","illinois","indiana","kansas","kentucky",
                                       "louisiana","massachusetts","maryland","maine","michigan","minnesota",
                                       "missouri","mississippi","montana","north carolina","north dakota",
                                       "nebraska","new hampshire","new jersey","new mexico","nevada",
                                       "new york","ohio","oklahoma","oregon","pennsylvania","puerto rico",
                                       "rhode island","south carolina","south dakota","tennessee","texas",
                                       "utah","virginia","vermont","washington","wisconsin",
                                       "west virginia","wyoming"))
                       )
     #create an nx1 data.来自源列的状态代码框架
  st.x<-data.frame(state=x)
     #匹配源代码与代码从'st.代码的局部变量和用于返回完整的状态名称
  refac.x<-st.codes$full[match(st.x$state,st.codes$state)]
     返回完整的州名，其顺序与在原始源中出现的顺序相同
  return(refac.x)
 
}

\5. 我在csc数据中创建了一个名为“region”的新列，它使用各州的小写名称. 然后打印出csc数据中区域列的前十个州名.

csc$region <- stateFromLower(csc$STABBR)
csc$region[1:10]

\6. 我在下面创建了一个名为csc_df的新向量，它合并了csc和states数据，以便它们的区域列是 same. 然后打印出新的csc_df向量表中的前六行.

csc_df <- merge(csc, states, by = "region")
head(csc_df)

\7. 下面的代码创建了一个名为csc2的新向量，它通过只包括只颁发学士学位的大学来子集csc数据. head函数打印出csc子集的前六行.

csc2 <- csc[csc$HIGHDEG == 3,]
head(csc2)

\8. 在这里，我创建了一个tx向量，它只查看csc2中位于德克萨斯州的大学. s向量仅通过查看下面列出的列来子集tx数据. 前六行显示在下表中.

tx <- csc2$region == "texas"
tx2 <- csc2[csc2$CONTROL == 2,]
s <- csc2[tx,c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]

head(s)

\9. 我创建了一个名为complete的矢量，它去掉了UGDS_HISP中的na和非数值, FIRST_GEN, 和FIRSTGEN_COMP_IRIG_YR6_RT列. 我使用名为complete的向量编辑s向量，然后打印前六列，以检查是否去掉了数据中的非数字值.

complete <- complete.cases(cbind(as.numeric(s[,1]),as.numeric(s[,2]), as.numeric(s[,3], as.numeric(s[,4]))))
complete[1:5]

s <- s[complete, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(s)

中文警告信息(如.numeric(s[, 1]), as.numeric(s[, 2]), as.numeric(s[, :
“强制引入的NAs”中文警告信息(as.numeric(s[, 1]), as.numeric(s[, 2]), as.numeric(s[, :
“强制引入的NAs”

\10. 在这里，我创建了一个名为cexvals的向量，它重复csc2数据和I子集中每行绘制值的大小，以查看德克萨斯州的学校. pchVals向量创建了德克萨斯州学校标绘值的加号形状. colVals向量为csc2数据中的所有行创建了德克萨斯州学校的浅灰色图.

cexVals <- rep(0.5, nrow(csc2))
cexVals[csc2$region == "texas"] = 1
pchVals <- rep(3, nrow(csc2))
pchVals[csc2$region == "texas"] = 19
colVals <- rep(grey(0.5), nrow(csc2))
colVals[csc2$region == "texas"] <- grey(0.1)

\11. 下面我创建了两个向量来创建s向量的子集，其中包含德克萨斯大学的数据. Sub代表德州公立大学，sub2代表德州私立营利性大学.

sub <- s[s$CONTROL == 1, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(sub)

sub2 <- s[s$CONTROL == 3, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(sub2)

\12. 使用plot函数, 我制作了一个散点图，对比德州一所私立非营利性大学的第一代学生和第一代学生在六年内完成学士学位的比例. I use the size, shape, 和颜色建立在上面的代码, 我相应地标记了x轴和y轴, 根据德州学校的名字来标记, 然后画出斜率为1的直线. 积分功能为德克萨斯州的公共机构创造了红点，为私营营利性机构创造了蓝点.

plot(tx2$FIRST_GEN, tx2$FIRSTGEN_COMP_ORIG_YR6_RT, col=colVals, pch=pchVals, xlab="PercFirstGen", ylab="FirstGenComp6yr", main=“德克萨斯州私立非营利性大学的第一代学生”)
text(as.numeric(s[,1]), as.numeric(s[,2]), as.numeric(s[,3])+0.001, labels = s$INSTNM, pos = 1, cex = 0.5)
abline(0,1)

points(sub$FIRST_GEN, sub$FIRSTGEN_COMP_ORIG_YR6_RT, col="red")
points(sub2$FIRST_GEN, sub2$FIRSTGEN_COMP_ORIG_YR6_RT, col="blue")

Warning message in xy.坐标(x, y, xlabel, ylabel, log):
“强制引入的NAs”xy中的警告消息.坐标(x, y, xlabel, ylabel, log):
“强制引入的NAs”

Scatterplot Argument¶

上面的散点图显示，德州公立大学的第一代学生比例最高，分别为55%和63%, 但完成率低于20%. 私立营利性德州大学的第一代学生比例也很高, 但对于第一代学生来说，它们的完成率相对较高，在20%-70%之间.

\13. 下面的代码创建了一个名为logic的向量，它为非数字的值创建NA. 百分比向量使用不包含NAs的tapply函数.

#pg46
logic <- is.na(csc2$FIRSTGEN_COMP_ORIG_YR6_RT)
perc <- tapply(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT[!logic]), INDEX=csc2$region, FUN=mean, na.rm=TRUE)
perc

应用程序中的警告消息.数字(csc2 FIRSTGEN_COMP_ORIG_YR6_RT(美元!$ $ $ $，:
“强制引入的NAs”

\14. 我在上面的代码中使用perc向量创建了一个名为df_perc的新数据帧. 然后，我在新的数据框架中创建了一个名为region的列，其中包含df_perc的行名，然后我创建了一个df_perc的表，以查看数据框架的外观.

df_perc <- as.data.frame(perc)
df_perc$region <- rownames(df_perc)
df_perc

\15. 下面的logic2向量去掉了df_perc中perc列中的NAs. 设置logic2向量的百分比列子将NA值更改为0.

logic2 <- is.na(df_perc$perc)
df_perc$perc[logic2] <- 0
df_perc

\16. 我查看了6年内完成大学学业的第一代学生的百分比. hist函数创建一个直方图，其中包含20个断点，x轴标记并创建标题.

summary(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT))
hist(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT), breaks=20, xlab= “第一代学生的百分比”, main=“六年内第一代毕业率”)

警告信息摘要(如.数字(csc2 FIRSTGEN_COMP_ORIG_YR6_RT美元)):
“强制引入的NAs”

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
0.02766 0.27360 0.35300 0.38000 0.47460 0.85420     195

历史中的警告信息(如.数值(csc2$FIRSTGEN_COMP_ORIG_YR6_RT)， break = 20，:
“强制引入的NAs”

\17. 上面的直方图显示了第一代大学生在6年内获得学士学位的百分比分布. 扩散看起来相对正常. 以下是对每个地区的州的描述

1 新英格兰(CT, ME, MA, NH, RI, VT)

2 中东(DE, DC, MD, NJ, NY, PA)

3 五大湖(IL, IN, MI, OH, WI)

4 平原(IA, KS, MN, MO, NE, ND, SD)

5 东南(AL, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, WV)

6 西南(AZ, NM, OK, TX)

7 落基山脉(CO, ID, MT, UT, WY)

8 远西部(AK, CA, HI, NV, OR, WA)

9 外围地区(AS、FM、GU、MH、MP、PR、PW、VI)

ggplot(csc2, aes(x=factor(REGION2), y=as.numeric(FIRSTGEN_COMP_ORIG_YR6_RT), fill = factor(REGION2))) + geom_bar(stat='identity') +
    labs(x="Region") +
    labs(y="Count") +
    labs(title=“在美国完成大学学业的第一代学生总数.S.")

eval(expr, envir, enclosures)中的警告消息:
"被强制引入的NAs " eval(expr, envir, enclos)中的警告消息:
“强制引入NAs”警告信息:
"删除了包含缺失值的195行(position_stack)."

/18. 上面的直方图显示，5区在6年内完成大学学业的第一代学生最多, 而第九区6年内完成大学学业的第一代学生数量最少. 考虑到区域5包含AL，这是一个有趣的观察结果, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, and WV.

\19. 下面的代码试图通过设置小于0的百分比等于0来消除任何负值. 间隔向量的创建将百分比列切割成四个间隔，并在下面打印它们.

df_perc$perc[df_perc$perc<0] = 0
interval <- unique(cut(df_perc$perc, 4))
interval

\20. 下一组代码根据上面创建的间隔使用以下标签从df_perc$perc创建断点.

df_perc$breaks = cut(df_perc$perc, 4, labels = c("0-.132", ".132-.264", ".264-.396", ".396-.529"))
head(df_perc)

\21. 创建Chor_df是为了根据地区合并状态数据和df_perc数据，然后打印数据的前六行.

choro_df <- merge(states, df_perc, by = "region")
head(choro_df)

\22. 接下来，对choro进行排序，并打印前六行.

choro <- choro_df[order(choro_df$order), ]
head(choro)

\23. 清理完数据后，我们就可以在地图上绘制数据了. 我使用了一个qplot，它使用坐标数据的经度和纬度，并根据前面创建的断点填充状态. 我使用main创建了一个标题, 我把每个州都围起来，这样更容易找到州, 我用光谱调色板给不同颜色的状态上色.

qplot(long, lat, data = choro, group = group, fill = breaks, geom = "polygon", 
      main = “第一代学生的大学毕业率”) +  borders("state", size = 0.5) +
    scale_fill_brewer(name = "College Completion", palette = "Spectral")

Map Analysis¶

Red = Delaware

Orange =华盛顿、南达科他州和密西西比州

Green = Montana, Idaho, Wyoming, North Dakota, Nevada, Utah, Colorado, New Mexico, Texas, Oklahoma, Kansas, Nebraska, Michigan, Maine, New York, Massachusetts, New Jersey, Maryland, Virgina, West Virginia, North Carolina, Tennessee, South Carolina, Georgia, Alabama, and Florida

Blue = Oregon, California, Arizona, Minnesota, Iowa, Missouri, Wisconsin, Illinois, Indiana, Kentucky, Ohio, Pennsylvania, Connecticut, Rhode Island, Vermont, and New Hampshire

我决定把我的时间集中在分析红色和橙色州，并研究为什么这些州的税率在0到26%之间. 第一代学生往往是少数族裔, 和/或来自低收入家庭, 而且通常是单亲家庭. 这些特点使得第一代学生更难完成大学学业. 由于家庭经济问题，许多第一代学生感到辍学的压力, stress and anxiety, 没有归属感, 以及校外就业. 第一代学生毕业率如此之高的根本原因就更容易理解了, 但是很难理解为什么低利率在某些州特别低.

Conclusion¶

仔细看了我的数据后，特拉华州没有一所大学颁发学士学位. 这可能是该州第一代大学生毕业率最低的主要原因. 至于橘子州，完成率在13%到26%之间, 四年制院校的大学记分卡数据中有足够的数据. 华盛顿的罗伯特米勒学院(Robert B Miller College)的平均毕业率达到了53%，而西雅图中央学院(Seattle Central College)的毕业率不到1%, 但第一代学生占学生总数的43%. In South Dakota, Presentation学院有30%的第一代大学生从大学毕业. In Mississippi, 三分之一的大学没有公布第一代学生完成大学学业的比例, 拉斯特学院的第一代学生完成大学学业的比例最低，只有15%. 我的数据只局限于四年制大学, 但我认为每个州的平均百分比准确地表达了每个州.

Bibliography¶

Boyd, Vivian S. Linda, K. Gast, Patricia F. 亨特，爱丽丝·米切尔和温迪·威尔逊. “为什么有些学生在最后一年就离开了大学." 大学生发展杂志 53.5 (2012): 737-42. Web.

Riggs, Liz. 《第一代大学生:毫无准备和落后." The Atlantic, 31 Dec. 2014, http://www.theatlantic.com/education/archive/2014/12/the-added-pressure-faced-by-first-generation-students/384139/. Accessed 7 May 2017.

Wilbur, T. G., and V. J. Roscigno. “第一代劣势与大学入学/毕业”." 社会学:动态世界的社会学研究.0 (2016): 1-11. Web.

Wolfman-Arent, Avi. “第一年，第一代:被要求淹没，被鼓励鼓舞." newsworks, 28 Jun. 2016, http://www.newsworks.org/index.php/local/education/94947-first-year-first-generation-seans-spot. Accessed 7 May 2017.

Zinshteyn, Mikhail. 《如何帮助第一代学生成功." The Atlantic, 13 Mar. 2016, http://www.theatlantic.com/education/archive/2016/03/how-to-help-first-generation-students-succeed/473502/. Accessed on 7 May 2017.

region	UNITID	OPEID	OPEID6	INSTNM	CITY	STABBR	ZIP	CONTROL	LATITUDE	...	UGDS_HISP	FIRSTGEN_COMP_ORIG_YR6_RT	FIRST_GEN	HIGHDEG	REGION2	long	lat	group	order	subregion
alabama	102076	103800	1038	斯尼德州立社区学院	Boaz	AL	35957-0734	1	34.201247	...	0.0825	0.070063694	0.545154911	2	5	-87.46201	30.38968	1	1	NA
alabama	102076	103800	1038	斯尼德州立社区学院	Boaz	AL	35957-0734	1	34.201247	...	0.0825	0.070063694	0.545154911	2	5	-87.48493	30.37249	1	2	NA
alabama	102076	103800	1038	斯尼德州立社区学院	Boaz	AL	35957-0734	1	34.201247	...	0.0825	0.070063694	0.545154911	2	5	-87.52503	30.37249	1	3	NA
alabama	102076	103800	1038	斯尼德州立社区学院	Boaz	AL	35957-0734	1	34.201247	...	0.0825	0.070063694	0.545154911	2	5	-87.53076	30.33239	1	4	NA
alabama	102076	103800	1038	斯尼德州立社区学院	Boaz	AL	35957-0734	1	34.201247	...	0.0825	0.070063694	0.545154911	2	5	-87.57087	30.32665	1	5	NA
alabama	102076	103800	1038	斯尼德州立社区学院	Boaz	AL	35957-0734	1	34.201247	...	0.0825	0.070063694	0.545154911	2	5	-87.58806	30.32665	1	6	NA

	UNITID	OPEID	OPEID6	INSTNM	CITY	STABBR	ZIP	CONTROL	LATITUDE	LONGITUDE	ADM_RATE_ALL	UGDS_HISP	FIRSTGEN_COMP_ORIG_YR6_RT	FIRST_GEN	HIGHDEG	REGION2	region
8	100812	100800	1008	雅典州立大学	Athens	AL	35611	1	34.805625	-86.96514	NULL	0.0191	0.579741379	0.471594798	3	5	alabama
11	100937	101200	1012	伯明翰南方学院	Birmingham	AL	35254	2	33.515453	-86.853636	0.533935018	0.0195	0.238095238	0.2	3	5	alabama
13	101073	1055400	10554	阿拉巴马州康考迪亚学院	Selma	AL	36701	2	32.42443	-87.023531	0.532846715	0.0373	PrivacySuppressed	0.533477322	3	5	alabama
24	101435	101900	1019	Huntingdon College	Montgomery	AL	36106-2148	2	32.350939	-86.285313	0.583855254	0.0252	0.524137931	0.327559055	3	5	alabama
31	101541	102300	1023	Judson College	Marion	AL	36756	2	32.630526	-87.316127	0.652542373	0.016	0.314285714	0.460580913	3	5	alabama
36	101675	102800	1028	Miles College	Fairfield	AL	35064-2621	2	33.481306	-86.908605	NULL	0.0028	0.193211488	0.42406015	3	5	alabama

	UGDS_HISP	FIRST_GEN	FIRSTGEN_COMP_ORIG_YR6_RT	INSTNM	CONTROL
3648	0.3275	0.402479339	0.382417582	休斯顿艺术学院	3
3659	0.4805	0.573844316	0.630573248	雷明顿学院达拉斯校区	2
3661	0.3714	0.502638522	PrivacySuppressed	Brazosport College	1
3675	0.1845	0.415	0.302325581	达拉斯基督教学院	2
3680	0.3629	0.557563242	0.431472081	Career Point College	3
3711	0.2269	0.497285751	0.353021354	ITT技术学院-阿灵顿	3

	UGDS_HISP	FIRST_GEN	FIRSTGEN_COMP_ORIG_YR6_RT	INSTNM	CONTROL
3648	0.3275	0.402479339	0.382417582	休斯顿艺术学院	3
3659	0.4805	0.573844316	0.630573248	雷明顿学院达拉斯校区	2
3675	0.1845	0.415	0.302325581	达拉斯基督教学院	2
3680	0.3629	0.557563242	0.431472081	Career Point College	3
3711	0.2269	0.497285751	0.353021354	ITT技术学院-阿灵顿	3
3712	0.322	0.497285751	0.353021354	ITT技术学院-休斯顿西部	3

	UGDS_HISP	FIRST_GEN	FIRSTGEN_COMP_ORIG_YR6_RT	INSTNM	CONTROL
3734	0.5169	0.532457496	0.141333333	Midland College	1
4855	0.9401	0.633025431	0.110193974	South Texas College	1

	perc	region
alabama	0.3284414	alabama
alaska	0.5147059	alaska
arizona	0.4110283	arizona
arkansas	0.3376674	arkansas
california	0.4217063	california
colorado	0.2903032	colorado
connecticut	0.4275142	connecticut
delaware	NA	delaware
district of columbia	0.2436604	district of columbia
florida	0.3792571	florida
georgia	0.3201671	georgia
hawaii	0.4316471	hawaii
idaho	0.3713924	idaho
illinois	0.3990149	illinois
indiana	0.4464658	indiana
iowa	0.4935637	iowa
kansas	0.3093231	kansas
kentucky	0.3969361	kentucky
louisiana	0.3692274	louisiana
maine	0.3314711	maine
maryland	0.3530214	maryland
massachusetts	0.3898265	massachusetts
michigan	0.3935320	michigan
minnesota	0.4094383	minnesota
mississippi	0.2181226	mississippi
missouri	0.4137372	missouri
montana	0.3121356	montana
nebraska	0.3647162	nebraska
nevada	0.2879391	nevada
new hampshire	0.4834302	new hampshire
new jersey	0.2701753	new jersey
new mexico	0.3039757	new mexico
new york	0.3443761	new york
north carolina	0.3791234	north carolina
north dakota	0.3344215	north dakota
ohio	0.4142343	ohio
oklahoma	0.3291454	oklahoma
oregon	0.5183400	oregon
pennsylvania	0.5280955	pennsylvania
puerto rico	0.1450674	puerto rico
rhode island	0.4746050	rhode island
south carolina	0.3311112	south carolina
south dakota	0.2543163	south dakota
tennessee	0.3408331	tennessee
texas	0.3419248	texas
utah	0.3476715	utah
vermont	0.5040455	vermont
virginia	0.3901217	virginia
washington	0.2436614	washington
west virginia	0.3353204	west virginia
wisconsin	0.4078479	wisconsin
wyoming	0.3402299	wyoming