当今世界,大数据犹如洪水般袭来,对各个行业产生一系列席卷效应。而随着大数据进入经济领域,经济数据也开始呈现海量性、高速性、多样性和真实性等特征。在这一过程中,如何从大数据中提取有效信息,对具有时变结构的经济金融系统进行理论建模,并将其应用到宏观经济监测与预测、经济金融风险管理等具体问题中,对于我国经济金融政策的制定与实施具有重要意义,是值得研究的重要课题。
高照省
在金融界,曾流行着这样一句话:“拥有对数据驾轻就熟的能力就像拥有了超能力。”而浙江大学数据科学研究中心研究员高照省的研究领域就和这项“超能力”息息相关。多年来,他前往国内外多所高校进行科研探索,在金融计量经济学、大数据统计学及机器学习等交叉学科中,积累了丰富的经验,并将其应用在经济金融预测、风险管理和商务管理数据的统计分析等,以更好地服务于国家的经济建设,探寻金融市场的规律,促进经济的健康发展。
以数学为马
著名的数学家、物理学家赫尔曼·外尔曾说过:“数学是无穷的科学。”从小,数学领域的知识就对高照省有着巨大的吸引力。凭借优异的数学成绩,高考时高照省顺利被四川大学数学基地班录取。
四川大学数学基地班是国家理科基础科学研究和教学人才培养基地,旨在为国家培养德智体全面发展的、优秀的基础科学研究和教学人才。本科4年间,随着对数学专业领域日渐深入的学习,高照省打下了十分扎实的数学基础;与此同时,他的心中也萌生出一个巨大的疑问,数学领域的知识,到底能应用到社会的哪些方面?直到大学毕业,高照省仍旧没有找到内心的答案。为了能够接触到更多领域的相关知识,本科毕业后,高照省选择前往香港科技大学数学系进行深造,以探寻心中的未解之谜。
21世纪以来,随着科技的进步,统计学、大数据科学在社会经济发展中所占的比重越来越大,人工智能的春风也逐渐吹到了世界各地。而数学作为基础学科之一,正是相关领域研究的“奠基人”与“领航员”。这让高照省感受到了相关领域研究的极大应用潜能。
高照省的导师凌仕卿教授是著名的统计学与计量经济学教授,主要从事计量经济学模型的渐近理论和统计推断的研究,而这些问题均需要良好的数学背景。博士期间,高照省在导师的指导下,顺利完成了数篇高质量统计学论文,其成果在实证研究中,分析了Wolf太阳黑子数及美国的失业率数据,发现非连续门槛模型更适合描述这两类周期变化的数据。相关工作解决了如何从统计意义上区分连续和非连续门槛模型,对经济学家在机制转换模型选择中具有统计指导意义。相关工作得到了世界知名统计学家、英国皇家学会院士戴维·考克斯(David Cox)的赞许与高度评价。凭借出色的专业能力,高照省用不到3年的时间就拿下了数学博士学位,这当时在整个香港科技大学都是极为罕见的。而这些经历,也更加奠定了他扎根相关领域进行科研创新的决心。
做紧跟世界脚步的科研人
行万里路,方知天地之广阔。在高照省看来,科学研究是没有界限的,在多年的科研之路上,他一直在积极地向领域的前沿靠近,去汲取更加先进的知识,以服务于社会所需。
“人工智能时代,对知识更新的要求越来越高,然而数学学科中很多基础的内容都是上百年没有改变的。”高照省说。为了适应时代的发展与需要,博士毕业后,他选择前往海外进行科研学习,“我想去领略不同地方做科研的方式、做研究的内容。”高照省说。就这样,他在理想的驱使下,离开了自己的祖国,这一去就是5年。
在这5年的时间里,高照省先后在英国伦敦政治经济学院和美国芝加哥大学的布斯商学院进行博士后研究。英国是统计学等自然科学学科的发源地,在英国伦敦政治经济学院求学期间,高照省在姚琦伟教授的引领下接触到了高维时间序列数据的计量建模和预测研究。
在信息时代,高维大尺度经济时间序列的广泛存在给计量经济学家和统计学家带来了前所未有的机遇和挑战,对于高维经济时间序列的建模和预测的需求则来源于各种实际问题,因此,高维时间序列的建模给计量经济学提出了独特的挑战。在相关研究经验的基础上,高照省与导师姚琦伟教授、北京航空航天大学马莹莹博士、北大光华管理学院王汉生教授合作,将相关研究成功应用在北京市PM2.5数值观测上。在这一研究中,他们在北京市设立了36个PM2.5观测点。通常来讲,每一个观测点会每小时记录周围的PM2.5数值,因此在同一个时间点上,他们可以同时获取36个观测值,形成空间观测量,然后将这些空间观测数值按照时间采集,以形成时空数据。在这一过程中,他们通过研究PM2.5数据并准确预测未来的趋势,为政府部门制定政策来减少空气污染并保护人类身体的健康作出了良好的科技支撑。相关工作发表于经济学期刊《计量经济学杂志》上。
在英国结束博士后研究工作后,高照省本来有可能留在本校继续参加科研工作。但就在此时,他收到了美国芝加哥大学布斯商学院抛来的橄榄枝。就这样他于2017年来到了美国继续他的科研之旅。
美国芝加哥大学商学院是全世界最好的商学院之一,那里汇集了全世界优秀的学者,有着更加多样的研究方向,并且十分注重科学研究的应用。在芝加哥大学布斯商学院从事科研工作期间,高照省师承蔡瑞胸院士,在之前他所从事的大数据统计学和计量经济的理论建模基础上,增加了更多应用研究,在这一过程中高照省领略到了“学以致用,是一个相互交织的过程”。
在这一期间,高照省在蔡瑞胸院士的指导下,对经济和金融大数据进行了深入的理论和实证研究,开发了一系列大数据降维和降噪的新方法香港科技大学数学系,提出了一系列高维因子建模方法和预测模型。他与蔡瑞胸院士合作,在权威的统计学和经济学期刊《美国统计学会会刊》和《国际预测学杂志》等著名杂志上发表了多篇有关大数据统计建模和预测的创新性工作。在出色的科研成果下,高照省被美国宾夕法尼亚州理海大学数学系引进,担任统计学助理教授,在这里度过了两年的科研时光。
回国继续研究之旅
游子思归,科研报国。“实际上在美国的时间久了,我也十分想念在国内的家人。”高照省说。在他的心中,始终认为:虽然科学无国界,但是科学家有自己的祖国。因此,阔别祖国5年后,高照省选择了回国,并于2021年7月来到了浙江大学数据科学研究中心担任研究员。“浙江大学是国内的顶尖高校,地理位置优越、人才聚集,来到这一平台之后香港科技大学数学系,高照省 | 深度解析时空数据 推动科学管理决策,我希望能够为祖国的经济大数据建设贡献自己的一份力量。”他说。
经济的发展瞬息万变,在高照省看来,现如今小体量及低维数据已经无法满足时代的发展需求。在中国当前国家经济和社会发展的重大需求下,发展大数据计量经济学的前沿理论和方法,提倡以科学方法对经济管理和公共政策评估开展量化研究,对于推动国家治理体系和治理能力现代化,分析和预判我国经济发展和经济金融风险具有重要意义。
那么,对于高维和大尺度时间序列数据,如何针对此类数据特征修正已有的方法或发展新的计量建模方法?已有的统计理论和计算方法是否依然适用于大尺度时间序列计量经济学建模?面向这些问题展开研究,回国后高照省得到了国家自然科学基金青年项目和重点项目等的资助。在研究项目的支撑下,他和科研团队将在深入分析我国大数据资源多样性和复杂性等基础上,系统提出基于高维时间序列大数据的降维技术、变量选择、空间计量和因子学习等计量经济学建模的原创性理论和智能化分析方法QS100名校留学,通过理论和实际的结合,开发新的模型、计量理论和计算方法,实现从数据中学习。
行程万里,初心不变。身肩科学家创新之使命,长期以来,高照省最大的理想就是通过自己的创新研究更好地推动科学前沿的发展,为我国的经济、金融系统保驾护航。与此同时,他也希望能通过自己的力量,为相关领域培育出更多的青年人才,以应对未来国家经济领域的重重挑战。“目前,我的团队中有数学、经济学、管理学等领域出身的学生,未来我希望有不同背景的学生加入我的研究团队,共同研究大数据的奥秘,促进祖国经济数字化进程的发展。”高照省说。
余维川香港科技大学,港科大校长史维:两校学科互不重叠、互补发展,学生共享课程
8月15日上午,香港科技大学(广州)专题新闻发布会在广州举行。发布会上宣布,港科大(广州)将于今年9月1日开学。今年美国藤校留学,该校开设15个硕博士专业。2023年,该校开始招收本科专业,2024年,本科招生范围将扩大到全国。香港科技大学校长史维也通过视频连线的方式,出席了本次发布会。
当被问及香港科技大学与香港科技大学(广州)之间,将如何开展协同与合作时,史维表示,港科大和港科大(广州)之间,是双校互补的关系,这是一个定位在港科大2.0的框架,它的意思是错位发展、共同合作。
史维表示,从2018年开始,真正全力开始发展和提倡香港科技大学(广州)的学位框架时,有一个很基础性的决定,就是在香港科技大学已经有学位的,在广州不再重复。在广州以全校发展跨学科的方向,和香港科技大学在清水湾过去三十年来已有成效的专业教育互相配合余维川香港科技大学,港科大校长史维:两校学科互不重叠、互补发展,学生共享课程,所以变成整个香港科技大学可以有更多的机会发展专业,也可以发展跨学科。互相支持之下,才能够两全其美,而不是只偏一方,这是一个很重要的理念。
“跨学位的发展必须要有专业的支持,而专业的发展当然希望有跨学科的发展,所以这是一体的两面,有不同需求。”史维说到。
史维介绍,香港科技大学(广州)和香港科技大学有法人独立、财务独立的前提,这是互相合作的关系。但是在学术相关的范畴内,包括教授延聘、考核、研究、学科设置、课程规范选取、实验设备的使用,都希望两校能够全面一体,这是港科大一体、双校互补的最基本内涵。
史维还提到,因为香港科技大学(广州)这两三年来发展了一些中央研究设施余维川香港科技大学,与香港科技大学在香港的中央设施互相匹配,希望务必达到两校的教授、研究人员和学生都可以同时享受到、利用到两个校园的中央研究设施的目的。
“关于课程学位。我们希望在香港科技大学(广州)成立之后,两所学校的学生、教授同仁能够有全方面互相学习、互相观察、了解、互动的环境,这是一个非常重要的设置。所以希望我们的课程能够在尽可能的情况下双向开放,也能够让两校学生同时有机会考虑修习在另外一个校园里的学位,这都是我们能够做得到,也希望能够鼓励和提倡的。”史维表示。
(光明日报全媒体记者 吴春燕 王忠耀)
杨海香港科技大学,交通大数据干货总结(1)
交通大数据干货总结(1)
本文列举了交通领域的相关学者、会议、论文、数据集、书籍以及代码
以上资料均提供了超链接和简要说明
前言
当前,城市交通正面临着安全、堵塞、环境污染三大难题。随着云计算、物联网、移动互联网、大数据等新兴技术的发展,城市交通进入智能化阶段。而智能化实现需要利用各种技术获取有价值的数据资源,提供决策依据。交通大数据为交通决策与服务带来了新的解决思路和方法【1】。
相关学者(待完善)
(注:排名不分先后…)
一、北京交通大学的万怀宇教授
主页:
学者简介:北京交通大学,计算机与信息技术学院,副教授、博士生导师,现任计算机科学系副主任。主要研究方向为数据挖掘与信息抽取,具体研究兴趣包括时空数据挖掘、社交网络挖掘、文本信息抽取、知识图谱应用等。已在AAAI、ICDE、ECML PKDD、等学术会议和TKDE、TITS、KBS、JCST等学术期刊上发表学术论文40余篇。
代表文献:
【1】 Guo, Lin, Ning Feng, Chao Song, Wan*. Based – Graph for Flow .The 33rd AAAI on (AAAI), 2019.
【2】Chao Song, Lin, Guo, Wan*.- Graph : A New for – Data .The 34th AAAI on (AAAI), 2020.
二、香港科技大学的Hai Yang教授
主页:~/
学者简介:杨海教授本科毕业于武汉大学,日本京都大学的博士。主要研究领域为交通网络建模、交通系统分析和交通经济学等。
代表文献:
【1】Ke, J., Qin, X.,Yang,H., Zheng, Z., Zhu, Z., Ye, J., 2020. – ride- with – – multi-graph . Part C: (under ).
三、香港科技大学的Dr. Hong K. LO教授
主页:~/
学者简介:罗教授的主要研究领域为交通系统管理、ITS、DTA和动态交通控制等,为 of ITS的管理编辑、的副主编。
代表文献:
【1】Li, L.,Lo, H.K., Huang, W., Xiao, F. 2021. Mixed bus fleet — under range . Part B, .
【2】Zhang, SY,Lo, H.K.2020. Metro : Bus under Time. Part C, 110, 98-122
原始数据总结
一、,北京出租车数据集,郑宇,”t.h5″,原始数据shape=(5596,2,32,32),”2″代表出In/Out两种流量。
备注:数据应用在ST-(,郑宇的经典,该领域的里程碑)中。(数据地址:链接: 提取码:g1n2)
二、METR-LA,洛杉矶高速路数据集,”metr-la.h5″,原始数据shape=(12,6850,207)——间隔5分钟,预测未来1小时(12,207,2)->(12,207,1)
备注:数据应用在DCRNN文章中。(数据地址:链接: 提取码:43sd)
三、NYC-Taxi,纽约出租车数据集,”.train.npz”,原始数据shape=(1920,10,20,2),”10,20″代表网格化地图形状,同郑宇的”32,32″
备注:数据应用在STDN文章中。(数据地址:链接: 提取码:u2yc)
四、PeMS系列数据集:/04/07/08/PeMS-bay/PeMS-M,加利福尼亚高速数据,”data.npz”,原始数据shape=(10195,307,3)——间隔5分钟预测1小时(307,3,36)->(307,3,12)
备注:数据分别应用在/Graph /ST-GCN/SLCNN等文章中QS100名校留学,”3″代表交通流量3种特征(flow,speed,)。(数据地址:链接:
提取码:2fih)
五、北京地铁数据集:2016年北京地铁进进出站客流量数据集,共276个站点,25天工作日,三种时间粒度划分(10min、15min和30min。附北京同时间天气条件与空气质量数据集,
天气条件数据每半小时记录一次,空气质量数据每一小时记录一次。(数据地址:链接:提取码:d399)
备注:数据分别应用在/Conv-GCN等论文中。
六、,杭州地铁数据集,”.npy”,原始数据shape=(2448,81,2)——间隔10分钟预测下一个时间片
备注:数据应用在ADST文章(T-ITS)中
七、BusJN,济南公交数据集,原始数据shape=(26496,11,81)
备注:数据应用在文章XXX(->T-ITS)中
八、其他数据集
1)2009.5月——北京出租车数据集(一个月);
2)2014.8月——成都出租车数据集(一个月);
备注:数据应用在牛老师的L-CNN文章(TVT 2018)中。
3)比赛纽约数据集(预测行程时间);
学术论文梳理
NIPS会议
2017,清华,利用自定义的 “时空LSTM” 单元杨海香港科技大学,基于历史数据帧预测未来图片,数据集采用 Mnist(Mnist视频流也是高端…),也找到了作者Yunbo Wang的git分享。
CVPR会议
2017,-RNN杨海香港科技大学,交通大数据干货总结(1),Jain,将时空图转换成RNN混合体的一种通用的可扩展的方法。作者是用来做行为识别的。感觉是非常视觉的paper,膜拜一下就好…
AAAI会议
2017,ST-Net郑宇;目前已经基本复现了微软亚研院郑宇在人群流量预测工作中使用的ST-残差网络。
2018,DMVST宾夕法尼亚(姚骅修,滴滴实习生等);综合考虑时间、空间、语义三方面信息,预测出租车需求(笔记),其中数据来自2017年滴滴出行在广州的近两个月数据。作者提供了开源代码,这个团队后续在又发表了一篇” – “,提出STDN网络(姚骅修,数据来自NYC纽约),工作也是相当多的。
2019,北交(郭晟楠,林友芳,宋超等):学习PPT(已经联系作者找到原文),采用加利福尼亚的两段高速数据,目前为预测1小时后的交通流量,使用mxnet搭建神经网络(添加了注意力机制的STGCN,源码)。使用三个组件对时间序列上三个不同长短的周期模式进行建模。2019.2.15在北交网站发表了动态。
2019,(李亚光,滴滴):空间上引入Multi-Graph多图,针对地图区域间非欧关系,本文提出更加详细的三种关系图(距离临近、功能相似、道路相通),对多图进行图卷积并聚合。时间上 Gated RNN,实际为SENet思想。针对训练样本序列,利用SENet的和操作,对每个时刻图进行全局池化,和图自身卷积池化的结果相加,再利用达到不同通道权重化的效果。
ICLR会议
2018,DCRNN南加大(李亚光,虞琦等人):作者提供了链接,本文借鉴的一篇文章(RNN对图结构数据的推广)的思想,将该模型用于交通预测。本文在会议官网上收到了很好的评价。首先构建图,这个图可以加权也可以不加权,可以有向也可以无向,本文使用的是加权双向有向图。交通预测挑战在于:空间路网复杂,时间依赖非线性。本文干的事概括来讲是:给定历史车速与路网数据,预测未来的车速。使用基于图 walks捕获空间依赖,使用基于序列的带预定采样的编解码机制捕获时间依赖。上来创新点扣了个大帽子:“交通空间结构非欧,有向”。本文在洛杉矶构建了带权有向图,图的顶点是(207个),边是权重,通过路网上 之间的距离得到。时间间隔5分钟,预测未来1小时的速度,所以输入数据中一个样本是(12,207,2),输出为(12,207,1)。
2018,GAT剑桥大学(还有大神),图注意力,徐博在计算所提到过。
IJCAI会议
,提出了时空图卷积的网络架构,有一个中文博客辅助说明,作者通过构建时空卷积块预测交通图中不同路网节点的速度v,且利用的是加州和北京两个数据集进行验证。使用局部图卷积(基于拉普拉斯图的一阶近似),无向图。
,还是郑宇,张均波那些人的,预测传感器值的回归问题,同样有中文博客的说明。使用水质数据和空气质量两个数据集进行验证。
CNN北航+北交,用CNN模拟空间相关性,但空间结构在欧式空间 (例如:2D图像),理解为普通网格地图策略。
IJCNN会议
百度,通过明确收集各道路上下游的邻域道路, 并分别对这些邻域进行传统卷积, 对空间依赖关系进行建模。
交通领域期刊
相关公众号及优质博主
【1】中科院计算所徐冰冰