C52815翻译文档和题目.docx
《C52815翻译文档和题目.docx》由会员分享,可在线阅读,更多相关《C52815翻译文档和题目.docx(23页珍藏版)》请在冰点文库上搜索。
C52815翻译文档和题目
Goodgrant基金会是一个慈善组织,希望帮助提高在美国大学就读的本科生的教育表现。
为此,该基金会计划从2016年7月开始,每年向适当的学校集团捐赠总额为100,000,000美元(1亿美元),为期五年。
这样做,他们不想复制投资和其他大额补助金的重点盖茨基金会和卢森堡基金会等组织。
你们的团队受GF的委托,去建立-一个模型来确定最优的投资策略包括确定学校、每个学校的投入、投资的回报以及该机构所提供的钱对学生学业起到-一个强大的正效用所需要的时间跨度。
你的策略要包括-一个--对多的最优及你推荐学校的优先次序的投资,该投资需基于每个备选学校有效率的使用自有资金所表现得潜力,以及以一种适合诸如GF一类的慈善机构所定义的关于投资的预期回报。
为了协助您的努力,所附数据文件(ProblemCDATA.zip)包含从美国国家教育统计中心(www.nces.ed.gov/ipeds)提取的信息,该中心维护着几乎所有大专院校的广泛调查信息数据库。
美国大学和大学记分卡数据集(https:
//schoolscorecar包含各种机构绩效数据。
您的模型和后续策略必须基于这两个数据集的一些有意义且可防御的子集。
除了您的MCM提交所需的一页摘要外,您的报告还必须写一封给GoodgrantFoundation首席财务官(CFO)的信,AlphaChiang先生,其中描述了最佳投资策略,您的建模方法和主要结果,以及简要讨论您提出的GoodgrantFoundation投资回报率(ROI)的概念
应采用评估2016年美国境内的捐赠和未来的慈善教育投资。
这封信的长度不应超过两页。
注意:
提交最终电子解决方案时,请勿包含任何数据库文件。
唯一应该提交的是您的电子(Word或PDF)解决方案。
问题CDATA.zip数据文件包含:
问题C-IPEDSUIDforPotentialCandidateSchools.xlsx
问题C-最新的群组数据(记分卡元素).xIsxProblemC-大学记分卡数据字典-09-08-2015.xlsxIPEDS数据选择变量.pdf
我们写信给你是关于古德格兰特基金会的投资策略。
我们已经创建了一个足够的模型,可以将捐赠分散到大学,从而提高Goodgrant的投资回报(RoI),从而为受影响的学生带来好处。
这个模型的建立很大程度上得益于美国国家教育统计中心提供的数据分析。
考虑到缺乏关于学校资助的官方RoI度量,我们选择在创建模型之前创建自己的模型。
这种测量是我们所说的一个函数,由一个给定的学校所获得的和可用的资源。
优等品被评估为学校对美国国内生产总值(GDP)的贡献。
资源被定义为学校每年从学费和外部资金中获得的收入。
通过模型仿真,对该RoI进行了优化。
某所学校增加的工作岗位是根据每个专业的失业率和学校授予的本科学位数量来计算的。
这是与全美各个专业的学士学位持有者的失业率相比较的结果。
结果发现,新增就业数量与GDP变化之间存在正相关关系。
因此,如果学校在美国经济不饱和的领域授予大量学位,就会被认为是优秀的。
Goodgrant计划捐赠的5亿美元在分析中是按年支付的。
模拟决定了在哪些学校投资,以及在每个学校投资多少。
投资的时间也包括在内。
这些持续时间是对未来五年GDP和人口数据预测的结果。
我们首先计算了一个整体模型,通过观察所有我们有数据的学校的资源和质量之间的关系。
然后,以第一个模型为出发点,我们为每个学校开发了单独的模型。
也就是说,我们有一个独立的关系在每个学校得到多少资金和它能对经济做出多少贡献之间建立在收入的基础上,以及对每个学校边际收益递减速率的自定义估计。
基于这些数据,我们通过比较每个投资在资源上的变化和在质量上的变化来估计RoI。
然后,我们运行了一些模拟来分配最大化RoI的个人投资。
这些投资将一直分配到全部的捐赠金额用完为止,这样我们就有了一个每年最佳分配赠款的计划。
在优化投资回报率之后,73所学校得到了至少某种形式的投资。
大多数是小型的、可能不发达的学校,它们将从私人捐助中大大受益。
也有一些高度发达的学校被推荐投资,比如普林斯顿大学。
这些学校每年的投资都是由模型提供的。
模型推荐的投资产出优化了一个可接受的衡量被投资学校附加值的指标。
将多个模型进行比较,得出推荐投资的结论模型。
我们相信,这一模式将充分发挥其潜力。
1介绍
2数据清洗与归算模式
32.1数据采集、清洗与过滤……
32.2归责模式。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
3模型组件
3.1模型概述。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
3.2对GDP的贡献。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
5
3.3最终的横截面模型规范…………8
3.4融资。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
8
3.5分析的线性模型假设。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
8
4、求解优化问题10
4.1最小等价实例……10
4.2优化方案。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
10
4.3算法。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
11
5问题陈述及特别注意事项
6.1为什么是Bayes?
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
12
6.2模型局限性。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
12
6.3模型假设。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
12
6.4模型优点。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
13
6.5潜在的改进。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
13
7模型13的结果
8158.1无约束模型结论。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
15
8.2约束模型。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
16
8.3评估假设。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
。
从2016年7月开始,Goodgrant基金会将在5年内向各学校提供5亿美元(每年1亿美元)的捐款。
这笔捐款将根据学校的投资回报(RoI)分配给某些学校。
学校的预期投资回报率将决定学校是否会收到任何投资,学校将收到多少钱,以及学校收到这些钱的时间期限。
坚实的投资将对学生的整体表现产生积极的影响。
虽然普遍认为,投资于高等教育的投资回报率低于投资于初级教育,但扩大高等教育仍然有重要的回报,特别是在美国[24]等发达国家。
特别是,我们将展示大学投资对GDP的影响。
投资于技术工人的发展不仅有利于美国经济,而且美国有必要在全球展开竞争。
我们希望,这份文件将有助于表明如何最好地实现这一点。
投资回报是学校的“善”和学校资源的函数。
使用所提供的数据集和外部数据集来确定质量和资源。
在评审之前,数据需要各种准备技术。
2数据清理与归算模式
任何认真的统计分析都是从大量的数据工作开始的。
所提供的数据有一系列的问题,包括非自然变量、结构性和看似随机的遗漏,以及不可能的观察。
修正是模型拟合和分析的前提。
1
数据采集、清理、过滤
对于我们评估RoI的方法,需要收集给定数据集中引用的每个专业的失业度量。
在收集这些测量数据时参考了多个来源[6,12,19,25,26]。
还需要获得每个专业的平均起薪[8,9,13,14,15,16,17,20]。
初始数据清理是在Python中执行的,我们将变量重新组织成更自然的结构(例如,有两个学费变量,一个用于公立学校,一个用于私立学校,而不是一个学费变量和一个private/public标志)。
一些学校的平均学费为负。
我们认为这是测量误差,并从考虑资助任何学校报告负平均学费。
接下来,我们分析了r中的缺失结构。
MI包(multiImputation的缩写)[23]有很多有用的工具来处理缺失数据的问题。
其中是由缺失结构聚集的病例和观测的热点图。
图1显示了初始的遗漏结构。
在图1中,x轴表示用例,y变量(其名称不便于阅读)。
有一些学校缺少大部分的变量,在缺失图像的顶部显示。
由于缺乏信息,这些学校没有被考虑资助,并从分析中删除。
左边有一个大的方块,代表了大多数学校的SAT或ACT分数的缺失。
由于缺乏大多数学校的数据,这些变量没有包括在我们的分析中。
在右边,可以观察到一种奇怪的遗漏模式,但这是由于公立或私立学校的一些因素造成的,并在python脚本中得到了纠正。
任何进一步的遗漏都由我们的归责模式处理。
2.2归责模式
我们在数据中识别了两种不同类型的缺失,并使用两种不同的机制对其建模。
首先,假设模型中简单缺失的数据是完全随机缺失的。
BUGS将缺失的值视为参数,并自动对其进行推理。
因为我们是贝叶斯主义者,我们必须为它们指定先验,并选择一个以0为中心的非常分散的正态分布。
对于“隐私被压制”的数据,我们不愿意做出同样的假设。
如聚合商认为有可能就任何个人的个人资料作出合理推断,便须在报告有关资料时,审查有关资料。
通常情况下,如果数据代表的是来自极少数人的聚合,就会出现这种情况。
我们认为人数较少的学校可能与一般学校有不同的特征,所以我们不假设这些特征是MCAR,而是随机缺失(MAR),即它们是否缺失取决于我们模型中的其他变量。
这些数据是根据完整的数据[21]使用多元回归模型估计的。
3模型组件
有两种方法来评估对一所学校的贡献将如何增加它的好处。
首先是衡量该校在满足国家对毕业生技能的需求方面做得如何。
第二项只是该学校工资中值的函数。
一个学校的资源是通过估算每年的学费收入和每年向学校外部增加的资金来计算的。
3.1模型概述
这些数据并没有带来任何回应;一所学校有多少钱是值得的,这是无法衡量的。
因此,我们必须创造我们自己的,我们称之为善。
投资回报被定义为善的改变。
我们假设,在一所学校可获得的资源数量和它的价值之间,存在着一种积极的、向下凹的关系。
这种关系被认为是积极的,因为一般来说,一所能够获得更多资金的学校被认为能够产生更好的结果,并且由于边际收益递减法则而向下凹。
具体来说,资源被定义为每个学生的学费,以及学校的总招生人数,而好是学校对GDP的贡献(定义如下)和校友的工资中值的线性组合。
我们首先计算了一个整体模型:
接下来,我们为每个学校计算了一个单独的模型。
上述模型的后验给出了额外的不确定性(方差),并作为每个学校[1]的先验。
给了我们估计有善或RoI曲线为每个学校。
考虑到这些曲线,我们的想法是通过人均美元数量的变化来最大化投资回报率,理论上是增加每个学校的资源来改变其有效学费。
关于如何基于这个模型选择学校的更精确的概述可以在优化部分找到。
3.2对GDP的贡献
该模型将每门课程的学生人数占GDP的比例通过几个步骤联系起来。
第一步是确定每所学校将为经济增加多少就业岗位。
这是根据一所大学为学生准备工作的领域的失业情况计算出来的。
例如,如果心理学的失业率高于正常水平,我们就会把培养很多心理学专业学生的大学评为产生负面工作的大学(这会导致失业率上升)。
另一方面,如果计算机科学的失业率低于平均水平,那么拥有许多计算机科学家的学校将被评为提供了许多工作岗位。
计算进行了如下DegreesAwardedπ学位授予的比例,失业是所有专业的平均失业率,失业是就业的标准偏差为所有专业):
如果发现一所学校的就业岗位出现净减少,它就会被排除在资金考虑范围之外
荷兰国际集团(ing)。
接下来,我们将把增加到经济中的工作与每个主要城市失业率的变化联系起来。
它的简单定义如下:
众所周知,实际国内生产总值(GDP)与失业[4]之间存在一定的关系,两者之间存在着复杂的经济模型。
但是,我们选择将我们自己的简单模型分别与经济分析局[11]和劳动统计局[2]提供的1948年至2015年的失业和GDP数据进行拟合,用于我们的更大模型。
我们不直接考虑GDP和失业之间的关系,而是考虑GDP变化和失业变化之间的关系。
我们的模型是这样的:
我们使用GDP变化的自然对数,因为自1948年以来,GDP的合理值大幅增长,而失业的合理值却保持不变。
因此,我们的模型预测的不是GDP的绝对变化,而是GDP的百分比变化(从日志空间反向转换时)。
但在我们的模型中,我们想要GDP的绝对变化。
我们用以下公式得到:
模型的拟合看起来出奇的好。
如图2所示,为回归曲线散点图。
这种负相关关系被用来评估可能的善款捐赠所增加的善。
增加到特定领域的工作减少了总体失业率,从而增加了GDP。
在保持资源不变的情况下,GDP的增长会带来积极的ROI
3.3最终的横截面模型规范
在Python和R中,一旦按照需要对数据进行操作,就会从R内部调用bug来对后验分布进行抽样。
为BUGS指定的模型如下:
其中X是一个矩阵的其他协变量和相关系数γ是一个矢量。
3.4长期拨款
为了回答何时应该分散这些资金的问题,我们简单地根据不同的经济数据值重新计算我们的模型后验。
我们在计算中使用了预测计量[10]和人口数据[7]。
我们假设美国人口占劳动力的百分比在未来5年内保持不变。
在计算不同时间的系数时,我们没有向模型中注入任何不同的信息。
3.5线性模型假设分析
在这一节中,我们将对回归模型的残差进行分析,以确定线性模型的假设是否得到了验证。
我们首先考虑一个正常的分位数图(图3),它看起来并不完全正常,这与导致我们的后验估计的假设相反,但它已经足够接近了。
这个预测相对于残差图更令人担忧(图4)。
随着预测值的增加,我们实际上看到了方差的减少。
这幅图表明我们的模型并不完美。
随着预测值的增加,预测的误差似乎也在增加(图5)。
这个图再次证明了这个模型是最正确的。
4解决优化问题
上面描述的模型只是解决方案的一部分。
有了它,我们就能计算出可用资金的最有利分配。
这里将描述如何实现这一点。
4.1最小等价例子
考虑一个例子(参见图6),其中只有两所学校在争夺Goodgrant的资金。
学校A的logoffunding与good的关系系数为1,学校B的系数为0.2。
上面的两幅图都显示了每个学校支付1.3万美元的善行变化量。
显然,支出对左边的学校(学校a)影响更大,所以我们会选择资助右边的学校(学校B),这就是优化问题的本质;我们反复检查哪所学校从小额支出中受益最大,直到我们的资金耗尽。
上面的例子只是我们投资的一个简单例子。
当考虑我们的真实模型时,问题就变成了每个学校应该从古德格兰特基金会拨出多少资金来最大化投资回报率。
4.2完全优化方案
我们对完全优化问题的方法只是迭代计算ttoodness/Resource
每所学校的坡度,并选择资助学校,导致良好的最大增加
图6:
每次迭代优化资金分配的2D示例,直到我们所有资金都耗尽为止。
4.3算法
以下是我们为优化过程创建的算法。
我们将r表示为资源,将s表示为在学校注册的学生数量,将β表示为参数矩阵(回想一下,这是矩阵而不是向量,因为每个学校都有自己的模型)。
感兴趣的变量Goodness用g表示,而分配的恒定货币表示为m
算法1启动r,s和m0
计算ginit=β*r
而m0>0
--Computegnext=β*(r+1)
-计算Δ=gnext-ginit
-找到where.max(δ)=i
-更新mk=m0-si
-更新ginit=gnext
结束
5问题陈述和特殊考虑
本文的关注点是资源分配问题。
目标是在未来五年内最大限度地增加每年注入美国高等教育系统的1亿美元的影响。
我们将向Goodgrant基金会提出如何评估已支付资金对学校的影响,向学校提供资金,向每所学校提供多少资金以及每所学校的预期回报的建议。
在分析之外,在评估学校的投资价值时考虑了各种特征。
这些特征影响了我们的分析方法。
这些特征包括外部资金。
一般而言,公立学校的外部资金比私立学校多。
一个
在计算公立学校的资源时,使用的估计数量是私立学校的两倍[5]。
此外,社区学院的资金增加了五倍。
对此的理由基于此类模型的结果。
6模型分析
6.1为什么选择贝叶斯?
很多时候,贝叶斯方法在计算上比在频率方法上更难。
此外,频率论方法是统计学中的标准方法。
因此,我们认为有必要捍卫我们对完整贝叶斯方法的使用。
我们选择实施贝叶斯模型有两个主要原因。
首先,在理论和实现中,贝叶斯模型中缺失数据的插补是自然的。
灰。
其次,在我们应用职能时保持对不确定性的完全问责非常重要
我们并不完全确定数据的非零凹度[27]。
例如,考虑与就业增加GDP相关的指数函数。
由于指数函数是凹陷的,如果我们没有考虑到我们的不确定性,我们会低估GDP的变化。
6.2模型限制
由于我们收集的失业数据仅与本科学位有关,我们只考虑了主要授予本科学位的大学。
该模型最严重的缺点之一是缺少关于模型大部分输入的任何时间序列数据。
如第3.3节所述,所有与学校直接相关的数据以及特定领域的失业都是完全横断面的,时间序列估计是仅改变国家经济数据的结果。
关于学校资金的大量数据经常以临时方式估算。
如果现实与我们的估计显着不同,那么该模型将是错误的。
6.3模型假设
由于这是一个线性模型,它假设模型方程描述的关系是准确的。
也就是说,这种善意大致是其学费和入学记录的线性组合。
第3.5节表明这个假设存在一些问题。
正如模型限制中所讨论的,该模型假设其大部分输入在未来五年内保持不变。
同年不发现不同专业的失业数据;因此,我们假设在过去几年中,失业率在各个领域之间和之内相当稳定,并且在未来五年内将保持不变。
因为有很多缺失变量,模型的正确性很大程度上取决于缺失数据中没有重要结构的假设,这些结构在其他已知变量中无法解释,也就是说,我们必须假设数据不是基于未观察到的预测因子缺失[3]。
6.4模型优势
虽然从输入到输出有很多步骤,但每个步骤都很容易理解,这意味着每个阶段以及整个模型都可以轻松解释。
同样,从一部分变量到GDP的变化的映射很容易被解释为投资回报的一种形式。
因为我们采用贝叶斯方法,所以我们对不确定性负有全面责任,如第6.1节所述。
6.5潜在的改进
我们相信在不同的时间限制下可以对该模型进行许多改进。
第一个是从基本上是线性回归模型到动态线性模型的变化。
可以下载与问题一致的历史数据,这样可以使这种模型适合。
但是,需要进行重要的数据处理工作。
随着更多的资源因素充当“控制”,模型的准确性可能会增加,例如教师:
学生比率或更精确的州和校友资金估算。
该模型还将受益于Goodness中包含的其他因素。
特别是,我们假设包含一些大学研究产生的量度将是非常有益的。
7个模型的结果
表1显示了贝叶斯时间序列模型的结果,该模型限制了对特定学校的最大支出。
另一个表2是从贝叶斯模型生成的,不受学校应该接收多少的限制。
8结论
8.1无约束模型
通过不受限制的数据,我们很高兴看到着名的,受人尊敬的学校,如普林斯顿大学,哈佛大学和麻省理工学院。
我们相信这为其模型提供了合法性。
我们也很高兴一些鲜为人知的大学,甚至包括波多黎各的大学,目前正在经历一场经济危机[18]。
但是,我们将近一半的资金投入到佐治亚州周边学院。
为了纠正这个问题,我们引入了约束模型。
8.2
在这里,我们将任何一所学校的总投资限制在5000万美元。
这有效地增加了我们支付任何资金的学校数量,显然减少了平均投资学校。
我们相信这种模式会更好,因为它可以更好地保护潜在的RoI免受任何一所学校的不可预见性因素的影响。
这种约束模型作为我们向慈善机构提供资金支付的最终建议。
8.3
约束模型
在这里,我们将任何一所学校的总投资限制在5000万美元。
这有效地增加了我们支付任何资金的学校数量,显然减少了平均投资学校。
我们相信这种模式会更好,因为它可以更好地保护潜在的RoI。
任何一所学校的意外事故。
这种约束模型作为我们向慈善机构提供资金支付的最终建议。
评估一个假设
总的来说,我们对该模型与其假设的一致性感到满意。
据我们所知,缺失数据不会造成问题。
线性模型假设可能存在一些问题,但我们认为它们不会严重威胁模型的功能。
鉴于此,我们对我们模型的结论充满信心。
参考
[1]贝叶斯线性模型:
血腥细节。
[2]经济一目了然。
[3]缺少数据插补。
[4]奥肯定律。
[5]国家资助趋势和可负担性政策。
[6]主要的失业-某些学位支付,而其他人则让你支付。
2011.[7]2014年全国人口预测,2014年。
[8]2015年,2014年起薪最高的大学学位。
[9]大学毕业生的工资,2014年。
[10]Eiu经济和商品预测,2015年12月,2015年。
[11]国民经济账户,2015年。
[12]住宿和食品服务:
Naics72,2016。
[13]建筑师1薪水,生物学家1薪水,设备工程师1薪水,信息安全分析师
1薪水,机械技师1薪水,精密装配工1工资,公关专家1工资,生产助理工资,2016年。
[14]平均家庭消费者科学工资,平均入门级个人助理工资,2016年。
[15]入门级环境顾问工资,入门级运输工资,2016年。
[16]入门级翻译工资,2016年。
[17]入门级译员工资,入门级图书管理员工资,入门级海军建筑师工资,宗教信仰
教育主任工资,入门级牧师工资,2016年。
[18]对于更富裕,更贫穷,2016年。
[19]2016年专业失业率。
[20]干部毕业生预计会上课。
2016年最高平均起薪,2016年。
[21]查尔斯迪马吉奥。
流行病学家的贝叶斯分析第五部分:
专题。
[22]JonathanEaton,SamuelKortum和BrentNeiman。
关于赤字和失业。
歌剧团
économique,64(3):
405-420,2013。
[23]AndrewGelman和JenniferHill。
打开黑匣子的窗户。
统计软件杂志,
40,2011。
[24]ClaudioEMontenegro和HarryAnthonyPatrinos。
回到世界各地的学校。
背景
“世界发展报告”,第8258024-132095074719号,2013年。
[25]LynnO'Shaughnessy。
25个失业率最高的大学专业。
[26]安娜斯文森。
2015年失业率最高的大学专业。
[27]NassimNicholasTaleb。
Antifragile:
从紊乱中获得的东西。
兰登书屋,2012。