在数据科学领域工作.掌握核心数据挖掘概念、技术和实践技能。
通过本课程您将学到的内容有:
数据挖掘管道:数据理解、预处理、仓储
数据挖掘方法:频繁模式、分类、聚类、异常值
数据挖掘项目:项目制定、设计、实施、报告
在本课程结束时,您将能够确定数据挖掘管道的关键组件,并描述它们之间的关系。
通过本课程您将获得的技能
完成数据挖掘管道
数据挖掘项目设计和实现
应用和评估数据挖掘方法
数据预处理
数据仓库
数据理解
数据挖掘管道
异常值分析
聚类
分类
模型评估
频繁的模式分析
关于本专业的课程
数据挖掘专业化面向希望学习在大规模数据集中发现模式的基本概念和核心技术的数据科学专业人员和领域专家。该专业包括三门课程:(1)数据挖掘管道,介绍数据理解,数据预处理,数据仓库,数据建模和解释/评估的关键步骤;(2)数据挖掘方法,涵盖了频繁模式分析、分类、聚类和异常值检测的核心技术;(3)数据挖掘项目,提供设计和实现实际数据挖掘项目的指导和实践经验。
关于本课程的学习项目
有一些编程任务涵盖了数据挖掘管道和方法的特定方面。此外,数据挖掘项目课程还提供了制定、设计、实现和报告实际数据挖掘项目的分步指导和实践经验。
关于本专业的参考学习书籍:
《共置模式的数据挖掘:原理与应用(DataMiningforCo-locationPatterns
rinciplesandApplications)》
《共置模式的数据挖掘:原理与应用》
共置模式数据挖掘可检测经常彼此靠近的要素集。本书重点介绍共置模式的数据挖掘,这是一种从所有类型的数据中识别模式并将其应用于商业智能和分析的有效方法。它解释了共置模式挖掘、共置决策树和最大实例共置模式挖掘的基础知识,并深入概述了数据挖掘、机器学习和统计。这种章节的安排有助于读者逐步了解共置模式挖掘的方法及其在路面管理、图像分类、地理空间缓冲区分析等方面的应用。
《用于社会计算的高级数据挖掘工具和方法(AdvancedDataMiningToolsandMethodsforSocialComputing)》
《用于社会计算的高级数据挖掘工具和方法(》
《社会计算的高级数据挖掘工具和方法》探讨了最新的数据挖掘工具,方法,算法和专门为社会计算和社交网络分析开发的架构的进展。这本书回顾了支持社交网络当前进步的主要新兴技术趋势,包括数据挖掘技术和工具。它还旨在强调社交网络领域传统方法的进步。本章内容包括对数据挖掘、机器学习、软计算技术及其在社交网络分析领域的应用的新技术和最新进展的回顾。
《生命科学中的数据挖掘技术(DataMiningTechniquesfortheLifeSciences)》
《生命科学中的数据挖掘技术》
第三版详细介绍了有关重要数据库和数据挖掘工具的新方法和更新方法和协议。章节引导读者了解大分子序列和三维结构的档案、蛋白质-蛋白质相互作用的数据库、预测构象障碍的方法、突变体热力学稳定性、聚集和药物反应。结构数据的质量及其发布、软力学在生物学中的应用和蛋白质的灵活性也被考虑在内,以及泛基因组分析、合理药物组合筛选和组学深度挖掘。以非常成功的分子生物学方法系列的形式编写,每章都包括对该主题的介绍,列出必要的材料,包括逐步的,易于重现的方案。权威和前沿的生命科学数据挖掘技术,第三版旨在成为研究的实用指南,以帮助他们在该领域进一步研究。
《商业分析中的数据挖掘:Python中的概念、技术和应用(DataMiningforBusinessAnalytics:Concepts,TechniquesandApplicationsinPython)》
《商业分析中的数据挖掘:Python中的概念、技术和应用》
《用于业务分析的数据挖掘:Python中的概念、技术和应用》介绍了一种数据挖掘概念和方法的应用方法,使用Python软件进行说明
读者将学习如何在Python(免费和开源软件)中实现各种流行的数据挖掘算法,以解决业务问题和机会。
这是这个成功文本的第六个版本,也是第一个使用Python的版本。它涵盖了用于预测、分类、可视化、降维、推荐系统、聚类、文本挖掘和网络分析的统计和机器学习算法。它还包括:
新的合著者PeterGedeck带来了使用Python教授商业分析课程的经验,以及将机器学习方法应用于药物发现过程的专业知识。
关于数据挖掘中的道德问题的新章节
根据教授MBA,本科,文凭和高管课程的教师以及学生的反馈进行更新和新材料
十几个案例研究演示了所描述的数据挖掘技术的应用
章末练习,帮助读者衡量和扩展他们对所呈现材料的理解和能力
一个配套网站,包含二十多个数据集和教练材料,包括锻炼解决方案、PowerPoint幻灯片和案例解决方案
《商业分析数据挖掘:Python中的概念、技术和应用》是数据挖掘、预测分析和业务分析研究生和高年级课程的理想教科书。这个新版本也是在商业、金融、营销、计算机科学和信息技术领域使用定量方法的分析师、研究人员和从业者的绝佳参考书籍。
“这本书是迄今为止我所见过的最全面的商业分析方法综述,涵盖了从线性和逻辑回归等经典方法到神经网络、装袋和提升等现代方法,甚至更多业务特定的过程,如社交网络分析和文本挖掘。如果不是圣经,它至少是关于这个主题的权威手册。
——GarethM.James,南加州大学,与Witten、Hastie和Tibshirani合著了畅销书《统计学习导论,在R中的应用》
《数据挖掘与探索:从传统统计学到现代数据科学(DataMiningandExploration:FromTraditionalStatisticstoModernDataScience)》
《数据挖掘与探索:从传统统计学到现代数据科学》
本书介绍了前沿数据科学方法的概念和程序方面,如动态数据可视化、人工神经网络、集成方法和文本挖掘。至少有两个独特的元素可以使这本书从竞争对手中脱颖而出。
首先,大多数社会科学、工程和商业专业的学生在学习数据科学之前至少上过一门统计学入门课。然而,这些课程通常不讨论传统统计学和现代数据科学之间的异同;结果,学习者被这种看似剧烈的范式转变弄得迷失方向。作为回应,一些传统主义者完全拒绝数据科学,而一些初级数据分析师将数据挖掘工具用作“黑匣子”,没有全面了解传统和现代方法之间的基本差异(例如,二分思维与模式识别,确认与探索,单一方法与三角测量,单一样本与交叉验证等)。
本书描述了经典方法和数据科学之间的过渡(例如,从p值到LogWorth,从重采样到集成方法,从内容分析到文本挖掘等)。其次,本书旨在通过涵盖大量的软件工具来拓宽学习者的视野。当技术人员有锤子时,每个问题似乎都是钉子。出于同样的原因,许多教科书只