数据库知识发现 (KDD) 是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它由九个步骤组成,从开发与理解应用领域开始到知识发现的行动。数据挖掘是其中的一个步骤 (第七步),而数据库知识发现 (KDD) 过程主要是在一种特定的表现形式或一套这种表征中寻找有趣的模式。
数据库知识发现(KDD)应用的领域:
天文学: SKICAT,一种被天文学家用来分析图像,对所研究的天空中的对象的图像进行分类和编目的一种系统。
市场:分析客户的数据库来识别不同类别的客户和预测其行为。
投资:使用专家系统、神经网络和遗传算法来管理文件夹、欺诈检测。HNC和Nestor Falcon PRISMA监控信用卡欺诈和CASSIOPEE的应用,在三大欧洲航空公司利用聚类推导出失败的种类,以诊断和预测波音737的问题。
金融业:FAIS被用来识别金融交易中可能出现的洗钱活动。
电信业:评估用以从警报流中定位频繁发生警报的事件,并作为一种规则显现它们,提供一种工具,进行分组和整理。
数据清洗:合并-清除被用来识别社交帮助的请求;而高级人才选拔是一种专门进行数据挖掘帮助NBA教练整理和解释来自NBA比赛的数据。
互联网上FIREFLY帮助个人音乐推荐,CRAYON允许用户创造他们自己的免费报纸,而Farcast从各种各样的来源中自动寻找用户信息,等等。
什么是数据仓库以及它有哪些阶段?
数据的收集和清洗的流行趋势是为了将数据转换成可用于在线分析和对决策制定的支持。数据仓库在两个重要的方面帮助数据库知识发现 (KDD):
数据清洗:在某种程度上,企业认知到企业内各种书据统一的数据逻辑视图的重要性,开始在把各类数据反射到唯一呈现时要作的数据清洗。
数据访问:你必须创造统一的、明确定义的方法去访问数据并提供过去是很难获得的数据路径 (如,数据离线存储)。
定义联机分析处理(OLAP)
它是一种用于商业智能(BI)的解决方案,包括对来自大型数据库或交易系统的汇总数据的多维结构的咨询。联机分析处理(OLAP)工具专注于提供多维的数据分析,优于SQL的计算总计和径直穿过多维度的控制。联机分析处理(OLAP)工具是趋向于简化,并支持交互式数据分析,但数据库知识发现 (KDD) 工具的目标是尽可能的过程自动化。
数据库知识发现(KDD)过程的阶段
对应用领域的开发和认识,并有相关的经验知识和从客户的角度识别数据库知识发现 (KDD) 过程的目标。
创设一个数据集的目标:选择数据集,或者聚焦于一组用于发现的变量或数据样本。
数据清洗和预处理。基本操作包括去除错误数据(如果有的话),收集必要的信息建模或负责错误数据,决定处理缺失数据的策略以及负责信息的时间顺序和已知的变化。
数据压缩和投影:根据任务的目的寻找有用的特征呈现数据。通过降维的方法或转换,考虑到的有效的变量数目可能减少或可以找到不变量数据的表示。
匹配过程目标:特别数据挖掘方法 (步骤1)的数据库知识发现 (KDD)。例如,总计、分类、回归、聚类和其它。
建模和探索性分析与假设的选择:选择算法和数据挖掘,并选择用于寻找数据模式的方式方法。这个过程包括决定哪一种模型和参数可能是适当的(如,分类数据模型不同于在真实矢量模型)并与数据挖掘方法相匹配,尤其与数据库知识发现(KDD)过程的一般方法相匹配 (例如,最终用户也许会更有兴趣了解模型的预测能力)。
数据挖掘:寻找一种特定的表现形式或一组这些表征的兴趣模式,包括分类规则或树型、回归与聚类。用户可以大大帮助数据挖掘方法以正确执行前面的步骤。
解释挖掘模式,可能为另外的迭代再回到步骤1至7之间的有些步骤。这一步可能也包含了提取模式的可视化和模型或给予绘制模型的可视化数据。
知识发现的行动:直接利用知识,结合另一个系统的知识更进一步地行动,或简单地记录并向利益相关者报告。这个过程还包括检查和分辨出与先前所相信的知识之间潜在的冲突。
浅析“数据挖掘”与“知识发现”的区别
来源:互联网 发布日期:2011-10-16 00:35:07 浏览:16473次
导读:数据库知识发现 (KDD) 是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它由九个步骤组成,从开发与理解应用领域开始到知识发现的行动。数据挖掘是其中的一个步骤 (第七步),而数据库知识发现 (KDD) 过程主要是在一...
上一篇:纽约警局通过数据挖掘追踪犯罪信息
相关内容
AiLab云推荐

最新资讯
- AI时代的“天选”计算架构?RISC-V迎重大发展机遇
- 两会申聚焦|AI热潮之下,“魔都”之所以为“模都”
- AI.com域名要价1亿美元,目前仍指向DeepSeek
- 马斯克:AI毁灭人类的风险为20%,未来结果更可能“超级棒”
- 大模型“注意力简史”:与两位AI研究者从DeepSeek、Kimi最新改进聊起
- 范先群:在人工智能时代培养更多医工交叉领军人才
- OpenAI推出下一代通用大型语言模型GPT-4.5
- GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手
- OpenAI发布最具“情商”的GPT-4.5,奥特曼:已耗尽GPU资源,将在下周增加数万块
- OpenAI推出新模型GPT-4.5,仍面临成本挑战
本月热点
- DeepSeek风暴席卷AI产业链
- 刷屏的DeepSeek-V3能力到底如何?自称ChatGPT 真相或指向“AI污染”
- 中国大模型“搅动”硅谷,巨头恐慌,大佬发声:中国AI已追上美国
- 北京智源发布2025年AI十大趋势:世界模型有望成多模态大模型下一步
- DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30
- 人工智能热度再起,AI技术全面渗透是大势所趋
- Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重
- 每年 CES 都在产生共识,今年的共识是「端侧 AI」
- 2024硅谷AI年度总结:从英伟达到OpenAI,这一年都发生了什么?
- 为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3
热门排行
-
机构看衰、专家批评项目艰难,大语言模型会不会成为即将破碎的AI泡沫?
阅读量:7349
-
人工智能对材料科学研究有哪些深远影响?谢建新院士分享
阅读量:6499
-
这个会议一天提及AI 500次,最后的结论是什么?
阅读量:6287
-
OpenAI 罕见开源!低调发布的新研究,一出来就被碰瓷
阅读量:6081
-
AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎
阅读量:5426
-
机构看衰、专家批评项目艰难,大语言模型会不会成为即将破碎的AI泡沫?
阅读量:5314
推荐内容
- 2025年加拿大多伦多矿业展PDAC
- 2025第十五届杭州网红直播电商及私域团购选品博览会
- 2025北方国际膜工业大会暨膜工业技术产品展览会
- 2025中国(山东)国际工业节能技术与装备博览会
- 2025第14届国际生物发酵展(济南展)(BIO)
- 2025北方国际电机技术与节能科技展览会
- 2025CME第10届上海国际机床展(华机展)
- 2025第三十届届华南国际口腔展览会
- 2025第十五届杭州全球新电商博览会
- 2025第三十一届华南国际印刷工业展览会(printing south china)
- 2025 年日本国际照明LED 展览会
- 2025第三十二届上海国际广告技术设备展览会(上海国际广印展 APPP EXPO)
- 第九届广州国际氢科技产业博览会
- 2025第三十一届中国国际包装工业展览会(中国国际包装工业展 Sino-Pack 2025)
- 2025广州国际护肤用品展览会(迎河个护展 PCE)
- 2025济南药交会
- 2025第九届广东国际水处理技术与设备展览会(广东水展 WATERTECH CHINA)
- 2025中国(上海)国际健身、康体休闲展览会(IWF)暨2025中国(上海)国际泳池设施,泳池装备及温泉SPA展览会(CSE)
- 2025第九届广东国际泵管阀展览会(广东泵阀展)
- 2025苏州国际机械通用零部件产业博览会暨苏州国际紧固件及加工设备展览会
- 2025日本大阪国际医疗博览会
- 亚洲(泰国)酒店用品及设施展
- 2025镇杰第26届河北医疗器械博览会
- 2025第九届广州国际氢科技术产业博览会(HST)