脆弱家庭的相关研究
普林斯顿大学牵头的这个项目旨在研究人生轨迹的可预测性。研究人员将其命名为“脆弱家庭和儿童福利研究”(the Fragile Families and Child Wellbeing Study),简称为脆弱家庭研究。研究对象是1998到2000年间美国大城市的未婚生子家庭及非婚生子女。
1、数据来源
为了进行社会学研究,脆弱家庭研究进行了长期而密集的数据收集活动。
在锁定要研究的非婚生子女家庭后,研究人员分6次收集数据,分别是在儿童出生、1岁、3岁、5岁、9岁和15岁时。每次的数据收集包含不同方面的信息。
随着时间推移,数据收集涵盖的方面不断增多。例如,在儿童1岁时,数据仅包括对母亲或父亲的访谈;等到孩子9岁时,就要增加对孩子的老师及孩子本人的访谈。
收集的数据最多由10个部分组成,每个部分有一个特定的主题。
例如,第一次收集数据时(孩子出生时),对孩子母亲的访谈包括以下主题:儿童健康与发展、父母之间的关系、父亲的情况、婚姻态度、与远亲的关系、环境因素与政府项目、健康与健康行为、人口特征、教育与就业、收入水平。
在第五次收集数据时(孩子9岁时),访谈则涉及以下主题:父母监督与关系、父母管教、兄弟姐妹关系、日常生活、学校、早期犯罪、任务完成与行为、健康与安全。
除了上述调查,研究人员还在孩子3岁、5岁、9岁时到孩子家里进行了实地评估,评估内容包括心理测试、生物测量(身高、体重等)及对邻居和家庭的观察等。
通过手段,研究团队掌握了翔实的数据。
2、人员招募
要满足共同任务方法的要求,除了积累数据外,还要有大量研究者参与。
组织者采用了联系同事、与希望学生参与的教师合作、访问大学和课程等方式招募参与者。
最终,457位来自不同领域、不同职业阶段的研究人员投递了申请,并在之后组成团队参与研究。由于来自不同领域,许多团队使用的机器学习方法并不局限于社会学领域。
研究结束后,组织者收到了160个有效结果。
3、预测过程
在项目进行过程中,组织者将收集的前5次数据制作成一个背景数据集提供给研究人员。根据论文,背景数据集涵盖了4242个家庭、每个家庭有12942个变量。为了保护隐私,组织者排除了遗传和地理信息。
第六次收集的数据中,6项作为培训数据被提供,剩余的则用作预测的主题。
研究开始后,各组研究人员采用不同方法,基于背景数据和培训数据建立模型,对孩子的人生轨迹进行预测。
组织者对比了研究对象的实际情况与各界研究人员提供的预测结果。出人意料的是,在160份报告中,与现实最接近的预测结果也并不准确。
论文中写道:“脆弱家庭包含了数以千计的变量,收集这些数据是为了帮助科学家了解这些家庭的生活,研究人员无法对他们未知的数据做出准确的预测。”
组织者还注意到尽管研究团队采用了不同的方法来搭建预测模型,但最后的预测结果是十分相似的。即便是差异最大的预测结果之间,不同之处也少于最接近现实的预测与实际情况之间的。换句话说,不同研究团队之间相互预测的准确率会更高。
另外,有一些项目(比如某个孩子的GPA分数)被所有团队准确预测了,但也有一些项目的预测结果普遍不准确。这说明误差与被预测家庭的相关性更高,而与采用的预测技术关系甚微。
对于研究的结果,脆弱家庭研究的组织者之一马特·萨尔加尼科说:“这些结果向我们表明,机器学习并不神奇,在生命进程方面,显然还有其他因素在起作用。”