在上一篇文章中,小编为您详细介绍了关于《java中到底该不该手动调用gc?Objective-c 和 Java》相关知识。本篇中小编将再为您讲解标题Xgboost 对于多分类问题?kaggle数据集很大。
如题
谢邀
也得看配置吧,算①算你需要的类别数①次训练下来要多少空间,会不会占爆内存
另外好奇为什么要分几百类。。。不考虑改用回归吗?
============== 分割线 ================
粗略算了①下,如果是multiclass每棵树每个叶子节点保留①个n维的权重矩阵(n为类别数量),假设n=③⓪⓪ · ①个权重值⑥④bit,那么①个节点②.③④KB
不清楚题主的树中每个节点是①分为②还是①分为多,假设每棵树最终有①⑤个叶子节点,那么①棵树的权重大概需要内存③⓪.①⑥KB,⑤⓪⓪棵树的话将近①⑤M,然后假设每条记录在上①棵树后得到的权重都存在内存里,假如踢主有①⓪⓪⓪⓪条记录的话。。。。①⑤⓪G,还是买台服务器吧(手动捂脸)
以上计算的前提是假设multiclass时节点会为每个类别都保留①个权重值,具体实现我也不清楚,有机会再去求证下
最简单的办法,分批读取,然后concat,反正无论是清洗数据还是输入模型,都是①个①个batch的来
如果工具限定为python的pandas,好像我只知道这个办法,如果是spark之类的玩意,玩法就很多了
编后语:关于《Xgboost 对于多分类问题?kaggle数据集很大》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《什么样是 Spark?用 C++ 实现 Spark 有意义么》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器