2016年3月16日上午,美国耶鲁大学生物公共卫生系Heping Zhang教授在理化楼401报告厅做了一场关于计算生物和生物信息学的报告,题为“High Dimensional Inference and Prior LASSO”👩💻。
随着精准医疗计划的开展👩🏽🚀,如何对全基因组测序产生的海量数据进行科学处理成为当务之急。癌症患者的全基因组序列数据通常呈现出复杂高维的特性👨🏽🌾,而分析处理多维数据的复杂度和成本极高✒️,维数膨胀为科学研究带来了重大挑战。 报告中,张教授从全基因组关联分析入手💏,结合具体实例讲述了利用变量选择进行降维的必要性,并系统阐述了用于变量选择的LASSO算法的基本思想、模型框架👩👩👧、及实现过程。他指出,LASSO算法是一个可以同时进行变量选择和参数估计的统计工具,但是在目前的生物医学研究领域中,当变量很多时🫱🏽,LASSO的使用将受到限制。为进一步减小模型偏差,张教授提出了pLASSO方法➔,即在LASSO算法的基础上,运用统计检验模型,根据生物先验信息进行变量分类🥰,加入了表示先验信息与模型之间误差的测量值🧁,将先验信息纳入处罚广义线性模型👦,构建对参数进行有效估计的扰动惩罚回归框架📈,使得提取的特征集合更合理。
本次报告生动详实🙊,张教授的讲解深入浅出🥝,环环相扣,为各位同学和老师在海量高维数据处理等研究领域提供了新思路✍🏽。广大师生踊跃发言🤚🏻、积极讨论♔,深刻感受到了科研规范精神与学术研讨的乐趣。