猜你喜欢
基于鲲鹏的大数据挖掘算法实战

基于鲲鹏的大数据挖掘算法实战

书籍作者:袁春 ISBN:9787111713180
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:3083
创建日期:2023-05-17 发布日期:2023-05-17
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介
在大数据应用中,如何高效地挖掘数据价值是企业要解决的核心问题。为了应对这一挑战,华为推出了鲲鹏BoostKit大数据机器学习算法库,通过算法原理优化和鲲鹏芯片亲和性优化,充分释放了华为鲲鹏芯片的强劲算力,大幅提升海量数据的计算性能,是大数据挖掘强有力的工具。

《基于鲲鹏的大数据挖掘算法实战》主要面向大数据挖掘算法开发者,围绕鲲鹏BoostKit大数据机器学习算法库,深入介绍算法原理以及基于鲲鹏的优化实践。开发者可以通过本书实现数据挖掘入门,掌握用算法解决实际业务问题的方法和流程,了解分布式大数据挖掘算法的实现步骤,进而在鲲鹏集群中进行算法调优、二次开发或者开发新的高性能算法。
作者简介
袁春,清华大学深圳国际研究生院教授、博士生导师、CCF 杰出会员、IEEE高级会员。1999年和2002年在清华大学计算机科学与技术系人机交互及媒体集成研究所,分别获得硕士和工学博士学位,2003年至2004年在法国国家信息与自动化研究所(INRIA-Rocquencour) 任博士后研究员。讲授的“大数据机器学习”课程于2020年被评为教育部“一流本科课程”。主要研究方向为大数据机器学习和计算机视觉等。

刘婧,泰山学院信息科学技术学院教师,主要研究方向为机器学习、计算机视觉与图像处理。2018年至2019年在清华大学深圳国际研究生院做访问学者,合作导师为袁春教授和肖熹副教授;2019年至今,在中国科学院大学沈阳计算技术研究所攻读博士学位。曾主持或参与了省部级教学科研项目、泰安市科技创新项目等多个项目,申请了两项软件著作权。

王工艺,长期从事机器学习/AI、数据挖掘、数据存储等相关理论和算法的研究,对行业有深入理解,在算法设计、优化和实现上有丰富经验;曾在存储领域实现多个算法的技术突破,并将其广泛应用到产品上。现任华为计算产品线机器学习算法专家,拥有超过50项的国内外专利。
编辑推荐
适读人群 :大数据挖掘算法开发者 高校和科研机构数据分析师 鲲鹏开发者
适读人群:大数据挖掘算法开发者、高校和科研机构数据分析师、鲲鹏开发者
清华大学袁春教授、华为计算算法开发部 倾力出品
·深入介绍大数据挖掘的算法原理
·详解面向分布式计算框架的算法优化流程
·全面分析基于鲲鹏芯片释放底层算力的实现步骤
·详述企业级大数据算法的性能优化方法
·解析鲲鹏大数据机器学习算法库的实战应用案例
前言
大数据技术的发展正如火如荼,在互联网、物联网、智慧城市等产业应用中,各种大数据如生物大数据、交通大数据、医疗大数据、电信大数据、金融大数据等都呈现“井喷式”的增长。大数据技术的进步和发展迫切需要相关领域的人才,然而由于大数据技术的理论和知识相比其它技术而言更丰富也更复杂,因为它融合了人工智能、统计学、计算机网络与体系结构、软件工程等各方面知识,学习难度也更高,导致人才培养也愈加困难。
作为一名高校教师,人才培养是我的职责,也深刻认识到大数据技术的重要性。我从2016开始在清华大学深圳国际研究生院开设《大数据机器学习》课程,学生们无论是选课还是上课,都对该课程表现出了浓厚的兴趣和积极性。在该课程的教学过程中,我也深切感受到学生们一定要理论联系实际才能更高效地学好这门课。而华为公司恰好邀请我合作撰写基于鲲鹏大数据平台的大数据挖掘的书,給了我一个很好的学习机会,我便欣然同意。撰写此书的过程也让我对大数据技术有了更多更深入的了解,学到了更多的知识,在此衷心感谢华为公司对我们的信任和支持。
衷心感谢和我一起撰写此书的访问学者、泰山学院的刘婧老师!
同时感谢参与本书部分内容补充和校阅的王依凡、董姝婷、卢锋等实验室的同学。
同时也衷心感谢在写书过程中一直与我们并肩战斗在一起的华为的余思,何晓宇两位老师,本书的每一个段落,每一句话都是我们共同讨论的结果。同时也衷心感谢华为公司在后期参与校对的各位老师包括:熊钦,周坤,贾佳峰,徐宸,王宗佐,杨克宇,林琦宏,汪川,曾伟迪。
本书写作过程较为仓促,难免会有错误和遗漏的地方,恳请读者朋友批评指正。
目录
丛书序
前言
第1章 大数据挖掘技术概述
1.1 大数据技术重要性
1.2 大数据概念和类型
1.3 大数据挖掘技术
1.3.1 大数据采集技术
1.3.2 大数据预处理技术
1.3.3 大数据分析和挖掘技术
1.3.4 大数据可视化技术
1.3.5 大数据应用
1.4 大数据挖掘系统架构
1.4.1 大数据存储系统
1.4.2 大数据处理系统
1.4.3 大数据可视化和应用系统
1.5 大数据挖掘技术的特性
1.6 新技术浪潮下的大数据挖掘技术
参考文献
第2章 分布式开发框架
2.1 分布式并行策略
2.1.1 数据并行
2.1.2 模型并行
2.2 分布式协调
2.2.1 ZooKeeper简介
2.2.2 数据模型
2.2.3 ZooKeeper体系结构
2.2.4 分布式锁
2.3 分布式通信
2.3.1 分布式通信机制
2.3.2 分布式通信拓扑
2.4 分布式一致性算法
2.4.1 一致性哈希
2.4.2 Paxos算法
2.4.3 Raft算法
2.5 分布式计算框架
2.5.1 Hadoop
2.5.2 Spark
2.5.3 Flink
2.5.4 Ray
参考文献
第3章 经典挖掘算法
3.1 主成分分析
3.1.1 算法介绍
3.1.2 算法推导
3.2 线性回归
3.2.1 线性回归的损失函数
3.2.2 优化求解方法
3.2.3 正则化
3.3 逻辑回归
3.3.1 Logistic函数
3.3.2 逻辑回归的损失函数
3.3.3 多分类问题
3.4 线性支持向量机
3.4.1 支持向量机的基本概念
3.4.2 线性支持向量机的损失函数
3.5 决策树
3.5.1 决策树算法概述
3.5.2 ID3决策树算法
3.5.3 C4.5算法
3.5.4 分类回归树(CART)
3.6 随机森林
3.7 梯度提升决策树
3.7.1 负梯度与残差
3.7.2 GBDT的计算原理
3.7.3 GBDT常用的损失函数
3.8 XGBoost
3.8.1 XGBoost预测模型
3.8.2 目标函数
3.8.3 XGBoost算法分析
3.9 交替小二乘法
3.9.1 显式反馈
3.9.2 隐式反馈
参考文献
第4章 鲲鹏BoostKit大数据挖掘
4.1 鲲鹏芯片
4.1.1 鲲鹏芯片的发展
4.1.2 鲲鹏920处理器
4.1.3 鲲鹏920处理器的特点
4.2 鲲鹏BoostKit使能大数据场景
4.2.1 鲲鹏应用使能套件BoostKit
4.2.2 鲲鹏BoostKit大数据使能套件
4.3 鲲鹏BoostKit大数据机器学习算法库
4.3.1 算法介绍
4.3.2 机器学习算法库的使用方法
第5章 数据挖掘算法在鲲鹏的优化实践
5.1 主成分分析
5.1.1 Covariance方法实现
5.1.2 SVD方法实现
5.1.3 鲲鹏BoostKit算法API介绍
5.2 逻辑回归
5.2.1 概念回顾
5.2.2 优化求解
5.2.3 分布式实现
5.2.4 鲲鹏BoostKit算法API介绍
5.3 随机森林
5.3.1 随机森林基础回顾
5.3.2 随机森林分布式实现与优化
5.3.3 鲲鹏BoostKit算法API介绍
5.4 XGBoost
5.4.1 XGBoost的基础回顾
5.4.2 XGBoost4J-Spark实现详解
5.4.3 XGBoost单轮分布式训练实现详解
5.4.4 鲲鹏BoostKit算法API介绍
5.5 交替小二乘法
5.5.1 分布式实现流程
5.5.2 分布式实现详解
5.5.3 鲲鹏BoostKit算法API介绍
参考文献
第6章 数据挖掘算法应用案例
6.1 商品推荐案例
6.1.1 场景介绍
6.1.2 整体方案
6.1.3 关键步骤
6.1.4 小结
6.2 房价预测案例
6.2.1 场景介绍
6.2.2 整体方案
6.2.3 关键步骤
6.2.4 小结
6.3 客户细分案例
6.3.1 场景介绍
6.3.2 整体方案
6.3.3 关键步骤
6.3.4 小结
产品特色