按照Elder博士的总结,这几大易犯错误包括:
缺乏数据(Lack Data)
太关注训练(Focus on Training)
只依赖一项技术(Rely on One Technique)
提错了问题(Ask the Wrong Question)
只靠数据来说话(Listen (only) to the Data)
使用了未来的信息(Accept Leaks from the Future)
抛弃了不该忽略的案例(Discount Pesky Cases)
轻信预测(Extrapolate)
试图回答所有问题(Answer Every Inquiry)
随便地进行抽样(Sample Casually)
太相信最佳模型(Believe the Best Model)
0. 缺乏数据(Lack Data)
对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
-欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
-信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。
1. 太关注训练(Focus on Training)
IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
例如:
-癌症检测(Cancer detection):MD Anderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
-机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
解决方法:
解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。
2. 只依赖一项技术(Rely on One Technique)
IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。
研究结果:按照《神经网络》期刊的统计,在过去3年来,只有1/6的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。
解决方法:
使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。
3. 提错了问题(Ask the Wrong Question)
IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
a)项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。
b)模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。
4. 只靠数据来说话(Listen (only) to the Data)
IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢?
4a.投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。
4b.经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。
浅析数据挖掘中常见的错误
来源:互联网 发布日期:2011-10-16 00:37:08 浏览:12052次
导读:按照Elder博士的总结,这几大易犯错误包括: 缺乏数据(Lack Data) 太关注训练(Focus on Training) 只依赖一项技术(Rely on One Technique) 提错了问题(Ask the Wrong Question) 只靠数据来说话(Listen (only) to the Data) 使用了未来的信息(Ac...
下一篇:企业数据挖掘能力BI的价值
相关内容
AiLab云推荐

最新资讯
- 【财眼观两会】何小鹏代表:L3人形机器人将适度规模商业化量产
- 不少政府资金涌入,这些地方政府产业基金瞄准人形机器人
- 教育部部长谈DeepSeek和机器人“出圈”:展现了中国科技创新和人才培养的效果
- 聊天的艺术:如何打造高情商的AI机器人?
- NBA篮球巨星投了家机器人公司,用AI按摩不到半年挣数亿
- 国产机器人,收割欧美草坪/达利欧谈AI竞赛:美国的制造能力上赶不上中国,有生之年不会改变
- 亚马逊:公司几乎没有业务部门不受AI影响,我们有约75万台机器人
- 人形机器人爆火,中国能复制无人机领先优势吗?|财经峰评
- 开源浪潮推动人形机器人成本骤降,未来两三年或降至5万元
- 日入过万,第一批买到宇树机器人的赚麻了
本月热点
热门排行
-
借势智元机器人,富临精工跨界入局人形机器人,准备好了吗?
阅读量:44336
-
实探全球首个核电灯塔工厂,这里有各式各样的机器人 | 碳访
阅读量:42110
-
李飞飞「数字表兄弟」破解机器人训练难题 零样本sim2real成功率达90%
阅读量:4376
-
自己制造自己!全球首家人形机器人超级工厂投产,年产1万台
阅读量:4329
-
美国工厂里的机器人开始“丢饭碗”了
阅读量:4240
-
人形机器人产业发展方兴未艾,留意硬件降本逻辑下零部件国产化机会
阅读量:4070
推荐内容
- 2025CME第10届上海国际机床展(华机展)
- 2025第三十届届华南国际口腔展览会
- 2025第三十一届中国国际包装工业展览会(中国国际包装工业展 Sino-Pack 2025)
- 2025第三十一届华南国际印刷工业展览会(printing south china)
- 第九届广州国际氢科技产业博览会
- 2025第三十二届上海国际广告技术设备展览会(上海国际广印展 APPP EXPO)
- 2025 年日本国际照明LED 展览会
- 2025广州国际护肤用品展览会(迎河个护展 PCE)
- 2025日本大阪国际医疗博览会
- 2025第九届广州国际氢科技术产业博览会(HST)
- 2025镇杰第26届河北医疗器械博览会
- 亚洲(泰国)酒店用品及设施展
- 2025苏州国际机械通用零部件产业博览会暨苏州国际紧固件及加工设备展览会
- 2025第九届广东国际泵管阀展览会(广东泵阀展)
- 2025中国(上海)国际健身、康体休闲展览会(IWF)暨2025中国(上海)国际泳池设施,泳池装备及温泉SPA展览会(CSE)
- 2025第九届广东国际水处理技术与设备展览会(广东水展 WATERTECH CHINA)
- 2025跨境电商增长新趋势大会(春季 CCBEC)中国(深圳)跨境电商展
- 2025第44届西部国际医疗器械展览会
- 2025第二十一届天津国际机械工业装备博览会(天津工博会 CIEX)
- 2025第21届天津工博会(机床展,机器人展,自动化展,电子制造展,汽车装备展)
- 2025第37届中国(北京)国际墙纸墙布窗帘暨家居软装饰展览会
- 2025第二十二届中国青岛国际金属加工技术设备展览会(JM2025)暨2025中国国际铝工业展览会
- 2025天津国际智慧港口及起重机械展览会(TISE EXPO)