我的位置: 上观号 > 上海统计 > 文章详情

理论应用 | 铜价预测:基于机器学习的比较研究

转自:上海统计 2024-12-26 18:52:03

我局官微“上海统计”已开设专栏“理论应用”,内容聚焦前沿理论、立足全球视野,以传播现代统计方法、实践和成功案例为主,助推统计人科研水平提高和统计事业的改革发展,欢迎大家及时关注分享。

本期推送“铜价预测:基于机器学习的比较研究”,原文是Zhang,Nguyen,Vu等学者在Resources Policy发表的“Forecasting monthly copper price: A comparative study of various machine learning-based methods”。铜是广泛用于工业、电子等领域的重要自然资源,因需求增长(预计2050年增长2-3.5倍)、供应稀缺和价格波动而对全球经济产生重大影响。已有研究忽略全球主要生产国货币汇率影响,同时传统模型对处理复杂时间序列存在局限,多层感知神经网络等深度学习技术未广泛用于该领域,非线性特征和高维数据挑战难以应对。本研究结合深度学习技术,开发高效铜价预测模型,提供决策支持工具。

PART.1

研究方法

构建铜价、其他金属、天然气价格数据集,引入智利、中国、秘鲁和澳大利亚等主要铜产国货币汇率。比较不同机器学习预测结果,MLP对处理复杂时间序列问题优势明显,预测精度和模型稳定性表现优异。

01

多层感知器神经网络(Multilayer Perceptron,MLP)

适用于分类、回归等复杂问题。MLP包含多个全连接层,由输入层、隐藏层与输出层构成。使用非线性激活函数使模型学习非线性映射关系。

02

支持向量机(Support Vector Machine,SVM)

适用于分类和回归问题,在高维空间中表现出色。通过找到最优超平面,将不同类别数据点尽可能分开,同时最大化两类间间隔(Margin)。

03

随机森林(Random Forest,RF)

适用分类和回归任务的集成学习方法,融合多棵决策树预测结果,提高模型准确性和稳定性,使用随机采样和特征选择机制提升泛化能力。

训练阶段

一是数据采样,在训练集使用有放回抽样生成多个子样本(Bagging),二是特征选择,每棵树划分节点时随机选取特征进行分裂。

预测阶段

一是分类,投票选出各树预测最多类别作为最终结果,二是回归任务,取所有树预测值平均值。

构建100棵决策树,以MSE作为分割标准,尽管表现略逊于MLP,但高维数据处理优势显著。

04

K近邻(K-Nearest Neighbors,KNN)

适用分类和回归问题的简单直观有监督学习算法,通过计算其与训练集样本距离,找到最接近个邻居,根据邻居标签(分类任务)或数值(回归任务)决定预测结果。

KNN原理简单且局部预测效果优异,尽管性能在研究中未领先,但分类潜力不容忽视。

05

梯度提升树(Gradient Boosting Trees,GBT)

隶属提升(Boosting)集成学习算法,适用于回归和分类任务,通过逐步训练决策树等弱学习器,每一步试图纠正前一步错误而提高性能。

GBT通过RMSE最小和学习率可设定,展现性能提升能力。尽管预测效果未领先,但其大规模数据集处理优势值得关注。

PART.2

研究贡献

01

货币汇率对铜价影响

首次将主要铜生产国货币汇率(USD/CLP、USD/CNY、USD/PEN和USD/AUD)纳入模型,提升准确性,不仅为理解铜价波动提供新视角,也为金融投资和政策制定形成启示。考虑到全球大宗商品市场复杂性和相互关联性,研究汇率与其他大宗商品间互动意义重大。

02

多种机器学习算法全面评估

对多种机器学习技术全面评估,发现MLP预测表现最优,具有最小预测误差和最高稳定性,展示深度学习技术在时间序研究,特别是处理复杂经济变量方面的能力。

03

高精度月度铜价预测

构建包含多种预测因子的模型,实现对月度铜价的高精度预测,特别是结合石油、黄金、白银、铁矿石等其他金属价格,提升准确性。以MLP预测铜价时,预测结果与实际铜价高度吻合。

作者:上海对外经贸大学 柯蓉、宋永霖、张悦、赵倩
供稿:市统计学会

责编:薛依宜

审核:杨荣