数据库知识发现 (KDD) 是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它由九个步骤组成,从开发与理解应用领域开始到知识发现的行动。数据挖掘是其中的一个步骤 (第七步),而数据库知识发现 (KDD) 过程主要是在一种特定的表现形式或一套这种表征中寻找有趣的模式。
数据库知识发现(KDD)应用的领域:
天文学: SKICAT,一种被天文学家用来分析图像,对所研究的天空中的对象的图像进行分类和编目的一种系统。
市场:分析客户的数据库来识别不同类别的客户和预测其行为。
投资:使用专家系统、神经网络和遗传算法来管理文件夹、欺诈检测。HNC和Nestor Falcon PRISMA监控信用卡欺诈和CASSIOPEE的应用,在三大欧洲航空公司利用聚类推导出失败的种类,以诊断和预测波音737的问题。
金融业:FAIS被用来识别金融交易中可能出现的洗钱活动。
电信业:评估用以从警报流中定位频繁发生警报的事件,并作为一种规则显现它们,提供一种工具,进行分组和整理。
数据清洗:合并-清除被用来识别社交帮助的请求;而高级人才选拔是一种专门进行数据挖掘帮助NBA教练整理和解释来自NBA比赛的数据。
互联网上FIREFLY帮助个人音乐推荐,CRAYON允许用户创造他们自己的免费报纸,而Farcast从各种各样的来源中自动寻找用户信息,等等。
什么是数据仓库以及它有哪些阶段?
数据的收集和清洗的流行趋势是为了将数据转换成可用于在线分析和对决策制定的支持。数据仓库在两个重要的方面帮助数据库知识发现 (KDD):
数据清洗:在某种程度上,企业认知到企业内各种书据统一的数据逻辑视图的重要性,开始在把各类数据反射到唯一呈现时要作的数据清洗。
数据访问:你必须创造统一的、明确定义的方法去访问数据并提供过去是很难获得的数据路径 (如,数据离线存储)。
定义联机分析处理(OLAP)
它是一种用于商业智能(BI)的解决方案,包括对来自大型数据库或交易系统的汇总数据的多维结构的咨询。联机分析处理(OLAP)工具专注于提供多维的数据分析,优于SQL的计算总计和径直穿过多维度的控制。联机分析处理(OLAP)工具是趋向于简化,并支持交互式数据分析,但数据库知识发现 (KDD) 工具的目标是尽可能的过程自动化。
数据库知识发现(KDD)过程的阶段
对应用领域的开发和认识,并有相关的经验知识和从客户的角度识别数据库知识发现 (KDD) 过程的目标。
创设一个数据集的目标:选择数据集,或者聚焦于一组用于发现的变量或数据样本。
数据清洗和预处理。基本操作包括去除错误数据(如果有的话),收集必要的信息建模或负责错误数据,决定处理缺失数据的策略以及负责信息的时间顺序和已知的变化。
数据压缩和投影:根据任务的目的寻找有用的特征呈现数据。通过降维的方法或转换,考虑到的有效的变量数目可能减少或可以找到不变量数据的表示。
匹配过程目标:特别数据挖掘方法 (步骤1)的数据库知识发现 (KDD)。例如,总计、分类、回归、聚类和其它。
建模和探索性分析与假设的选择:选择算法和数据挖掘,并选择用于寻找数据模式的方式方法。这个过程包括决定哪一种模型和参数可能是适当的(如,分类数据模型不同于在真实矢量模型)并与数据挖掘方法相匹配,尤其与数据库知识发现(KDD)过程的一般方法相匹配 (例如,最终用户也许会更有兴趣了解模型的预测能力)。
数据挖掘:寻找一种特定的表现形式或一组这些表征的兴趣模式,包括分类规则或树型、回归与聚类。用户可以大大帮助数据挖掘方法以正确执行前面的步骤。
解释挖掘模式,可能为另外的迭代再回到步骤1至7之间的有些步骤。这一步可能也包含了提取模式的可视化和模型或给予绘制模型的可视化数据。
知识发现的行动:直接利用知识,结合另一个系统的知识更进一步地行动,或简单地记录并向利益相关者报告。这个过程还包括检查和分辨出与先前所相信的知识之间潜在的冲突。
浅析“数据挖掘”与“知识发现”的区别
来源:互联网 发布日期:2011-10-16 00:35:07 浏览:16451次
导读:数据库知识发现 (KDD) 是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它由九个步骤组成,从开发与理解应用领域开始到知识发现的行动。数据挖掘是其中的一个步骤 (第七步),而数据库知识发现 (KDD) 过程主要是在一...
上一篇:纽约警局通过数据挖掘追踪犯罪信息
相关内容
- 脑机接口取得又一突破性进展:实时汉语解码实现”意念对话“
- Neuralink已为第三位脑机接口被试植入设备,患者状态良好
- 成功进入国际三大品牌之后,炬芯科技发力存内计算AI芯片!
- 韩国研究团队开发出类脑芯片,能够自主学习并纠正错误
- 脑机接口临床案例获“出乎意料”成果:瘫痪患者训练2个月,不需脑机接口也可拿起木球
- 一切皆为虚假,一切都有可能 | 2024人工智能盘点
- 全球首次语言运动“双解码”脑机接口临床试验在上海完成
- 回顾2024:AI和新硬件,开始改变我们的生活方式
- 美科技巨头未来“完全收购”AI开发者?拜登警告:警惕科技工业综合体
- Gartner揭晓2025年十大战略技术趋势
- 普华永道发布2025年AI预测:AI Agents将劳动力提升1倍
- 拜登卸任前最后一搏:拟进一步收紧AI芯片对华出口!
- 中国互联网协会发布 “2024年影响中国互联网行业发展的十件大事”
- 高盛展望2025:AI仍是科技行业主旋律,软件和支付行业值得关注
- 2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻|钛媒体AGI
- 《麻省理工科技评论》预测2025年AI五大趋势
- 全球计算联盟(GCC)与OEHI开启战略合作,推动计算技术发展
- 2025年你将看到什么?微软罗列出六大AI趋势!
- 上海团队实现脑机接口临床试验重大突破,用汉语“意念对话”走进现实
- 脑机接口和 AI,一个硬币的两面
AiLab云推荐
最新资讯
本月热点
热门排行
-
科学家成功研发可弯曲的非硅柔性芯片,成本不到 1 美元
阅读量:5959
-
马斯克的新愿景对准盲人,Neuralink下一代脑机接口已获批
阅读量:4552
-
为了获诺奖,AI不仅要懂物理学,还要懂哲学?
阅读量:3749
-
中国厂商与苹果竞速,AI手机进入“自动驾驶”时代
阅读量:3628
-
我国研究人员设计出高效神经调控芯片,推动脑机接口研发进程
阅读量:3549
-
马斯克盯上了盲人,Neuralink下一代脑机接口产品获批
阅读量:3523