电脑与生活:数据解读术/成 凡

2013-01-08 04:25  来源:大公报

    电脑数据由二进制数字○和一组成。就像阴阳两造相辅相成衍生出大千世界,这○和一的无穷组合,构成了千变万化的数据形态。一般人不需要读懂那些枯燥乏味的○/一字符串,因为电脑已经把它们变成人类可以看懂的文字与形象。但是要从繁纷复杂的数据中发现更有价值的信息,就需要有专家的功力。其实数据本是人类智力活动的产物,只是现今我们面对太多的数据,怎麽读懂它使用它就不简单了。不久前在美国连续发生的两件事刺激了人们对数据的热情。一个是超大飓风桑迪(Sandy),它提供了一个难得的机会来验证各种不同的大型预测理论和模型,是人类大数据处理能力的一次大考验。结果这些预测理论和模型对政府和民间防灾救灾发挥了巨大作用。第二件是美国大选,经验丰富的商人挑战精明时尚的政客,结果从投票前的浑沌演变到奥巴马大胜,其中奥巴马团队的精准数据预测能力居功甚大。据说连竞选捐款的数量都与预测相差无几。时尚总统把握数据的能力成为一时城中热谈。

    芝加哥大学的经济学怪才教授列维特(Steven D. Levitt)也是一个解读数据的高手,他以其独特的眼光可以看出数据中的数据。他的一个杰作就是揭发芝加哥学校统考作弊案。话说当年克林顿主政阿肯色州时,才女希拉里以州第一夫人的身份成功领导了阿肯色州的教育系统改革。其後克林顿在竞选时打出「买一送一」夫妻档招牌。入主白宫後,拯救日渐滑落的美国中小学教育成为克林顿持续关注的议题。克林顿的政策要点是免除学生进入不合格学校,保证学生达到更高的标准。政府因此启动了一系列的考试作为评测标准。小布什总统其後也签署了不让孩子落後法(No Child Left Behind Law)。芝加哥公立学校系统从一九九六年实行高阶考试。新政策规定低阅读分数的学校将被置於观察期,面临关校。其教师可能被解雇或转校。当然优秀教师可能会获得升级或奖金。以往学生作弊时有发生,属预料之中。现在事关教师的切身利益,教师便有了作弊的动机。教师可以使用不同的作弊方法,例如擅自延长考试时间等,美国各地有一些零星的报告和传言。但是如何指认和证实呢?芝加哥学校系统为列维特教授的研究提供了五至七年级一九九三至二○○○年的考试数据。教授针对这批数据设计了专门的识别算法,电脑分析不但发现了作弊者,还发现了作弊方法。有些教师在考试结束後,成批地有策略地篡改学生的答卷。结果揭示每年至少有二○○个班的教师作弊,约占总班数的百分之五,这还只是保守的百分比。列维特不无讽刺地写道∶这样真的「不让孩子落後」。通常这一类学术研究都会被束之高阁。二○○二年,芝加哥学校系统的新任CEO邓肯决心调查此事。三十出头的邓肯从小帮助母亲照顾众多贫穷儿童,他对学童和家长的关心超过对教师与工会,遂决定对有问题的班实行重考。他所筹措到的资源只够重考一百二十个班。其中还需要安排一些未发现问题的班作为对照组,最好是好教师的班。数据分析再次发挥作用,因为分析结果还可辨认优秀教师。重考的过程得到严格管理,结果令人信服。优秀教师的班级保持水平,有的还有提高;反过来,作弊教师的班级成绩大幅下跌。後来一些作弊者被开除了,另外一些接到警告。下一年,教师作弊下降了百分之三十多。由荷里活著名女星Cameron Diaz二○一一年主演的电影《坏教师》(Bad Teacher)以一所芝加哥学校为背景,便有影射这件事。

    这个故事告诉我们持续地采集与保存数据以及正确的分析及运用数据对於社会的正常运作之重要。由於人类现在已经染上产生数据与收集数据的嗜好,目前可以使用或等待处理的数据量也是非常之大,所以现在大数据已经是一个技术热词。同时兴起了一门新兴学科──数据科学。数据科学家中应该有电脑专家、统计学家、社会学家、心理学家等等。正确解读数据常常远非易事,需要多方面的专门知识。所以数据解读是这些新型科学家的任务。

关键字:
责任编辑: 大公网
大公资讯 中国 军事 言论 图片 财经 产经 金融 汽车 娱乐 明星 生活 科技 书画 报纸 香港在线 国际 社会 教育 副刊 食品 会展 宏观 体育 健康 女人 人物 历史 专题