Xgboost 对于多分类问题?kaggle数据集很大

发表时间:2018-03-02 22:50:02 作者: 来源: 浏览:

在上一篇文章中,小编为您详细介绍了关于《java中到底该不该手动调用gc?Objective-c 和 Java》相关知识。本篇中小编将再为您讲解标题Xgboost 对于多分类问题?kaggle数据集很大。

如题

谢邀

也得看配置吧,算①算你需要的类别数①次训练下来要多少空间,会不会占爆内存

另外好奇为什么要分几百类。。。不考虑改用回归吗?

============== 分割线 ================

粗略算了①下,如果是multiclass每棵树每个叶子节点保留①个n维的权重矩阵(n为类别数量),假设n=③⓪⓪ · ①个权重值⑥④bit,那么①个节点②.③④KB

不清楚题主的树中每个节点是①分为②还是①分为多,假设每棵树最终有①⑤个叶子节点,那么①棵树的权重大概需要内存③⓪.①⑥KB,⑤⓪⓪棵树的话将近①⑤M,然后假设每条记录在上①棵树后得到的权重都存在内存里,假如踢主有①⓪⓪⓪⓪条记录的话。。。。①⑤⓪G,还是买台服务器吧(手动捂脸)

以上计算的前提是假设multiclass时节点会为每个类别都保留①个权重值,具体实现我也不清楚,有机会再去求证下

最简单的办法,分批读取,然后concat,反正无论是清洗数据还是输入模型,都是①个①个batch的来

如果工具限定为python的pandas,好像我只知道这个办法,如果是spark之类的玩意,玩法就很多了

编后语:关于《Xgboost 对于多分类问题?kaggle数据集很大》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《什么样是 Spark?用 C++ 实现 Spark 有意义么》,感兴趣的同学可以点击进去看看。

资源转载网络,如有侵权联系删除。

相关资讯推荐

相关应用推荐

玩家点评

条评论

热门下载

  • 手机网游
  • 手机软件

热点资讯

  • 最新话题