按照Elder博士的总结,这几大易犯错误包括:
缺乏数据(Lack Data)
太关注训练(Focus on Training)
只依赖一项技术(Rely on One Technique)
提错了问题(Ask the Wrong Question)
只靠数据来说话(Listen (only) to the Data)
使用了未来的信息(Accept Leaks from the Future)
抛弃了不该忽略的案例(Discount Pesky Cases)
轻信预测(Extrapolate)
试图回答所有问题(Answer Every Inquiry)
随便地进行抽样(Sample Casually)
太相信最佳模型(Believe the Best Model)
0. 缺乏数据(Lack Data)
对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
-欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
-信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。
1. 太关注训练(Focus on Training)
IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
例如:
-癌症检测(Cancer detection):MD Anderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
-机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
解决方法:
解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。
2. 只依赖一项技术(Rely on One Technique)
IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。
研究结果:按照《神经网络》期刊的统计,在过去3年来,只有1/6的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。
解决方法:
使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。
3. 提错了问题(Ask the Wrong Question)
IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
a)项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。
b)模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。
4. 只靠数据来说话(Listen (only) to the Data)
IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢?
4a.投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。
4b.经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。
浅析数据挖掘中常见的错误
来源:互联网 发布日期:2011-10-16 00:37:08 浏览:12052次
导读:按照Elder博士的总结,这几大易犯错误包括: 缺乏数据(Lack Data) 太关注训练(Focus on Training) 只依赖一项技术(Rely on One Technique) 提错了问题(Ask the Wrong Question) 只靠数据来说话(Listen (only) to the Data) 使用了未来的信息(Ac...
下一篇:企业数据挖掘能力BI的价值
相关内容
- GitHub超火开发者路线图库有AI学习路线了!star数近30万
- 清华刘嘉教授:大模型是一个生命新物种|AI&Society百人百问
- 谷歌员工曝AI改进速度放缓,Gemini已成立新团队解决问题
- 腾讯混元开源两大新模型:3890 亿参数最大 MoE,3D 大模型生成资产仅需 10 秒
- AI浪潮下美国科技巨头急需能源,地热能炙手可热
- 从Eliza到AI Agent,人工智能经历了多少“练习时长”?
- 理邦仪器:获盖茨基金会265万美元支持人工智能超声项目
- AI大模型升级放缓、马斯克“鲶鱼效应”,数据中心狂潮会继续吗?
- 美国科技巨头的AI资本开支,是否正在接近“危险界限”?
- “AI创业项目仍在寻找市场的认可度”
- 研究揭示 AI 对话方面的缺陷:不知道何时该插话
- 不止OpenAI“猎户座”!谷歌和Anthropic AI模型开发也被爆遇瓶颈
- 北航团队提出全新偏好数据构建框架,助力大模型实现更全面的对齐效果
- 风口上的新职业:AI训练师的崛起与未来
- 人工智能能否像人类一样具有创造力?
- 万卡算力和万亿参数大模型时代,AI存储何时爆发?| ToB产业观察
- 影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
- 中国追赶OpenAI这波新浪潮还有多远?
- AI进化撞上“数据墙”?三大模型研发遇阻,巨头纷纷转向新赛道
- 英伟达秀 Blackwell GPU 肌肉:训练 AI 模型速度比Hopper快2.2倍
AiLab云推荐
最新资讯
- AI与半导体行业互为推动,多突破口已显现
- 北航团队提出全新偏好数据构建框架,助力大模型实现更全面的对齐效果
- 专访格创东智何军:国内工业大模型应用有机会走在世界前列
- AI驱动创新,2025年半导体市场或将突破8500亿美元大关!
- 理邦仪器:获盖茨基金会265万美元支持人工智能超声项目
- 面对AI浪潮:电信运营商应该All in 还是谨慎为妙?
- 谷歌 Gemini 引入“记忆”功能:AI 记住用户偏好、习惯
- 欧洲科学院郭嵩谈“千模大战”:每个行业会有垂类大模型,AI PC是“杀手级应用”
- 万卡算力和万亿参数大模型时代,AI存储何时爆发?| ToB产业观察
- 人工智能大模型怎样投喂数据?人工智能头部企业为何纷纷选择落户四川自贡?
本月热点
热门排行
-
马斯克的xAI连发两款新模型,有进步但还谈不上领先
阅读量:90783
-
Meta Llama 3.1-405B AI模型多项跑分超越 OpenAI GPT-4o
阅读量:27078
-
从现在起,GitHub上超1亿开发者可直接访问全球顶级大模型,构建AI应用
阅读量:18311
-
AI创投的那些荒诞故事
阅读量:15996
-
AI时代,超级个体正在崛起
阅读量:14129
-
阿里团队推出 Tora 视频 AI 生成框架:画圈操控物体运行轨迹
阅读量:13574
推荐内容
- 2024山东国际玻璃工业技术展览会
- 2024第二十二届中国广州国际汽车展览会
- 2024年阿尔及利亚国际暖通空调制冷展览会ALGERIA
- 2024第12届中国(青岛)国际茶产业博览会(华巨臣茶博会)
- 2024阿尔及利亚国际建材展
- 2024 第二十三届新加坡国际石油及天然气展览会暨研讨会
- 2024年荷兰阿姆斯特丹船舶游艇设备展览会METS TRADE
- 2024第12届巴基斯坦(卡拉奇)国际防务与军警展
- 2024年俄罗斯莫斯科电力、电网技术展览会
- 2024(京津冀)水果产销对接会
- 2024第二十一届北方(烟台)国际果业博览会(北方果博会 NIFIE)
- 2024第十六届中国(上海)振威国际化工装备博览会(CTEF)
- 2024第七届欧洲(德国不来梅)国际空间技术展
- 2024第十七届上海国际电池工业展览会(振威电池展 CNIBF)
- 2024第二十届上海国际充电设施产业展览会(振威充电设施展 evse)
- 2024第十一届浙江义乌国际智能装备博览会
- 2024第89届全国药品交易会(药交会 PHARMCHINA)
- 2024年中国北京国际高端食品饮料博览会
- 2024年中国(北京)国际有机绿色食品展览会
- IADE2024第三届突尼斯(杰尔巴)国际航空航天与防务展
- 2024年土耳其温室农业展土耳其畜牧机械展GrowTech Eurasia
- 2024中国北京名酒节暨世界葡萄酒博览会
- 2024第十三届杭州国际跨境电商交易博览会(跨交会 ICBE)
- 2024中国健康营养博览会(秋季)(NHNE)
- 2024乌兹别克斯坦食品及包装展 UZ PROD &INTER PACK
- 日本第45届国际建筑建材与家居材料展
- 2024中国国际制造业数智化博览会
- 2024第29届深圳国际服装供应链博览会(秋季)(FS展 Fashion Source)暨AW深圳原创设计时装周
- 2024越南(胡志明)轴承展览会
- 2024越南(胡志明)橡胶机械及塑料展览会
- 2024越南(胡志明)五金机械展览会
- 2024秋季中国(广州)国际茶业博览会
- 2024越南(胡志明)电机及线圈展览会
- 2024越南(胡志明)电线电缆展览会
- 2024越南(胡志明)润滑油及应用技术展览会
- 2024越南(胡志明)焊接与切割展览会
- 2024越南(胡志明)电池产品展览会
- 2024中国国际天然提取物和健康食品配料展览会(FIC-健康展2024)暨第23届全国秋季食品添加剂和配料展览会
- 2024厦门国际眼镜业展览会(厦门眼镜展)
- 2024第十八届中国宁波中小工厂展览会
- 2024越南(胡志明市)国际工业技术装备及产品展览会
- 2024深圳国际照明展览会
- 2024越南(胡志明)煤矿技术设备展览会
- 2024第20届越南胡志明国际工业展览会
- 2024第二十二届中国(北京)国际医疗旅游展览会(正和医疗旅游展 CMTF)
- 2024越南(胡志明)金属及冶金展览会
- 2024年越南国际制药装备及医疗器械展览会
- 2024越南国际表面处理及涂料涂装展览会
- 2024越南(胡志明)国际复合材料展览会
- 2024越南(胡志明)工程机械设备展览会
- 2024越南(胡志明)锅炉及压力容器展览会
- 2024越南(胡志明)化工展览会
- 2024越南(胡志明)工业自动化及仪器仪表展览会
- 2024越南(胡志明)机床工具展览会
- 2024越南(胡志明)金属加工及焊接技术展览会
- 2024越南(胡志明)铝工业展览会