猜你喜欢
爬虫实战:从数据到产品

爬虫实战:从数据到产品

书籍作者:贺思聪 ISBN:9787121355080
书籍语言:简体中文 连载状态:全集
电子书格式:pdf,txt,epub,mobi,azw3 下载次数:5626
创建日期:2021-02-14 发布日期:2021-02-14
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
内容简介

本书从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0到1地开发一个大数据产品。

作者简介

贺思聪,毕业于电子科技大学,在ThoughtWorks任高级咨询师,担任海外交付团队技术负责人、架构师。

具有十余年产品研发经验,涉及澳洲矿业相关数字产品研发、保险业网站技术架构、光网络设备软件研发、医疗AR/VR、机械控制、加工仿真模拟等领域。

精通大规模重构实践、测试驱动开发,熟悉微服务架构及架构实践,熟悉敏捷项目开发管理流程和相关实践,具有丰富的敏捷团队管理经验。


编辑推荐
适读人群 :本书适合对大数据、爬虫、数据可视化等感兴趣的读者,包括但不限于程序员、产品经理,以及相关专业的学生等。

本书以介绍思路为主,通过丰富的案例讲解爬取数据的思路,

介绍数据分析、可视化的方法,

以及如何根据数据分析结果,开发一个应用,

为读者提供一个从采集数据到应用数据的完整视角。


前言
前 言
  智能设备(如智能手环、百度音箱、扫地机器人等)的普及使收集个人数据变得非常容易。机器性能的提高使得分析、使用数据变得更加自动化。大量的数据结合强大的计算性能使数据从量变到质变的过程极短,我们的导航早已不再是傻傻地按照既有的策略规划行驶路线,而是一直在向“老司机”学习,不断更新算法,从而带来更精准的预测。
  在这个时代,数据就是新一代的资源。我们的身边充满了数据流。我们既是数据流的生产者,也是数据流的消费者。对个人而言,如果我们能够合理地识别、收集、分析、利用这些数据,就能够在我们做决策时给出一些新的想法。例如,在GitHub上一个非常有效的比特币高频交易的源代码,其作者在2016年年底到2017年1月这段时期内,用6000元的初始资金赚到了25万元。他所利用的就是对比特币这种新交易手段的交易数据的洞察,利用机器自动收集分析行情并进行自动化交易。为了解决“什么时候买机票最便宜”的问题,我通过长达两年的数据爬取,收集到上百亿条机票价格数据并进行数据分析及可视化,最后形成了一个名为“爱飞狗”的产品。爱飞狗可将近期各平台的历史价格展示给用户,让不对称的价格信息变得更加透明化。通过对这些数据进行分析,我们可以掌握国内航空公司机票票价变化规律。基于人的经验,在机器学习的帮助下,我的这套方法可以对国内的航班价格提供较为准确的预测,为用户的出行节约成本。
  掌握获取信息的能力使我们能够站在更高的角度识别出一些规律。例如,在求职的过程中,大量的公司信息很难进行分辨,即便是某些APP提供了很多的筛选功能,但仍无法满足我们分析的需求。再如,大量的房产信息淹没在海量数据中,跟踪这些数据的变化或许能够发现一些规律或结论。在这样一个数据丰富的时代,每个人都应该学习一些从数据采集到数据分析的综合技能。
  本书从基础知识出发,通过丰富的案例,详细介绍数据抓取和分析的整个过程,帮助读者构建相关能力。
  本书不同于大多数介绍爬虫的技术书,不仅讲述如何进行数据爬取,而且通过丰富的案例讲解爬取数据的思路,介绍数据分析、可视化的方法,以及如何根据数据分析结果,开发一个应用,以求为读者提供一个从采集数据到应用数据的完整视角。本书以介绍技术思路为主,不会详细介绍一些特别基础的知识点,例如,Python的基础知识、软件包的安装操作等,所以需要读者自行查阅一些相关资料。另外,由于移动应用、网站等更新速度非常快,当阅读到本书时,可能书中介绍的一些方法已经发生了变化,读者可以自行研究,把知识灵活地运用到实践中。
  ‘特别声明
  本书仅限于讨论爬虫技术,书中展示的案例只是为了读者更好地理解爬取的思路和操作,达到防范信息泄漏、保护信息安全的目的,请勿用于非法用途!严禁利用本书所提到的技术进行非法爬取,否则后果自负,本人和出版商不承担任何责任。
目录

第1章 基础知识 1
1.1 什么是爬虫 1
1.2 数据获取渠道 2
1.3 抓包分析工具 4
1.4 爬虫和反爬虫的斗争 5
1.5 数据处理、分析和可视化 20
1.6 延深阅读 21
第2章 基于位置信息的爬虫Ⅰ 23
2.1 背景及目标 23
2.2 爬虫原理 24
2.3 数据来源分析 26
2.4 简单的矩形区域爬取方式 38
2.5 高级区域爬取方式 46
2.6 坐标转换 49
2.7 存储数据的方式 49
2.8 数据导入 51
2.9 基本数据分析 52
2.10 地图可视化 56
2.11 轨迹可视化 58
2.12 总结 60
第3章 基于位置信息的爬虫Ⅱ 62
3.1 背景及目标 62
3.2 爬虫原理 62
3.3 优化方案一 71
3.4 优化方案二 75
3.5 优化方案三 82
3.6 导入数据到数据库 97
3.7 基本数据分析及可视化 100
3.8 总结 117
第4章 网站信息爬取及可视化 118
4.1 背景及目标 118
4.2 网站API分析 118
4.3 数据爬取 122
4.4 数据导入 129
4.5 数据分析及可视化 133
4.6 总结 173
第5章 基于逆向分析小程序的爬虫 174
5.1 背景及目标 174
5.2 数据来源分析 176
5.3 数据爬取方案 177
5.4 转换数据格式 195
5.5 总结 196
第6章 从数据到产品 197
6.1 从一张机票说起 197
6.2 从价值探索到交付落地 201
6.3 数据爬取 203
6.4 爬虫架构设计 203
6.5 发现数据的价值 211
6.6 创新的不确定性 223
6.7 产品设计 226
6.8 产品交付 235
6.9 总结 236

产品特色