大数据预处理的流程
    1、数据收集:
    收集离线数据:数据可以来自各种源,包括,主题站点,公开数据库,专业服务公司和社交媒体等,这些离线数据在经过搜集后会存储在本地数据中。
    收集实时数据:实时数据一般可以从实时传感器,工业生产数据,数据库日志,设备或服务器监控日志,传感器和RFID等源收集。
    2、数据清洗:
    标准化:标准化的数据可以使数据更容易理解,并具有更好的可靠性。在标准化过程中,会分析在此数据集中出现的记录,去除重复的和过时的数据,以及排除噪声和异常值。
    转换:不同的数据源可能使用不同的格式,在数据清洗过程中,将多种格式的数据转换为统一的格式,以便之后的处理。
    过滤:在数据清洗过程中,一些与目标无关的类型和数据将被过滤掉,以保证结果的高效性正则化标准化
和可靠性。
    整合:数据清洗过程中还可以整合一些来自不同源的数据,以准确体现业务需求,并形成有意义的结果。
    3、数据变换:
    标准化:在处理具有属性极差的数据时,标准化是非常重要的。标准化的过程能够让数据的属性变得更加一致,以便在后续的处理中能够顺利进行。
    归一化:归一化一般用于将数值型数据的范围转换为0-1或-1-1之间的值,以便分布在相同的范围内,使得这些数据更加容易处理。
    正则化:正则化是将高维数据转换为低维数据,以减少数据维度,以便更有效地处理数据。
    4、特征选择:
    特征选择是为了有效地处理大数据,将数据中的特征值筛选出来,以便更有效地分析数据,
进行各种算法处理,或者用于模型的训练和预测。
    5、模型训练:
    模型训练是机器学习的核心内容,训练的目的是使用大数据集中的训练样例,为机器学习算法构建一个模型,以便以后根据该模型来进行预测,即所谓的机器学习。
    6、模型评估:
    模型评估的目的是评估创建的模型是否有效,是否能够准确地预测数据。一般情况下,会采用验证数据进行模型评估,以调整模型的参数,以获得最佳效果。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。