完整的数据挖掘项目
简述一种数据挖掘方法并说明它的应用?
简述一种数据挖掘方法并说明它的应用?
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以更好地利用这些数据,正是在这样的条件下,数据挖掘技术应运而生。
数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命。
扩展资料
目前数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及internet等。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。不是每件数据挖掘的工作都需要这里列出的每一步。
不会写代码,怎么做数据挖掘?
如果熟悉编程,小批量数据可以使用R,Python等,大批量数据可以使用Spark,Flink等.
Python 有一些库如下:
如果不会写代码,也有很多工具可以选择.
收费的:
SAS
SPSS
JMP
Knime
rapidminer
免费的
WEKA
Orange
当然 Excel也可以
不会写代码,怎么做数据挖掘?
如果实在不会写代码,也不想写代码,但是想做数据挖掘。那至少要学两个东西:
1.对常规的算法还是要有了解:线性回归、logistic回归、cart、chaid、k-means
adboosting等等
2.最好学一个比较简单的数据挖掘软件,比如SPSS Clementine,这个是之前业界比较流行的比较简单的数据挖掘软件,只需要动手点点,配置一些简单的参数就能实现数据挖掘的过程的数据清洗、变量转化、算法执行、模型评估,预测等等。
当然用比较简单的数据挖掘软件对自己在数据挖掘这个职位上的发展限制也是很明显的:多半只能做离线的模型,不能做连续在线的预测。只能做相对比较简单死板的模型算法,无法根据自身数据的特征和需要做各种算法和模型的组合。