猜你喜欢

睡个好觉 [The Mystery of Sleep] [加] 迈尔·克利格
无伤跑法戴剑松
自律的孩子成学霸：如何激发孩子的学习动力和学习韧性凌笑妮
世界地图（中英文）人民交通出版社股份有限公司
秦淮妓非实录钟表匠
终身教养（男孩篇+女孩篇全2册）(“华人励志大师”刘墉四十年亲子教育精华、亲子共读黄金手册) [美] 刘墉
古迹寻踪日历（自助版）李星明
中国旅游地图册（大字版）成都地图出版社
成交力：成为批量签单高手的3个秘诀贺嘉
不再是一个人吃饭啦高木直子
包邮如何写出短视频爆款文案：数亿爆款幕后操盘手实战秘诀全公开，好文案就是财富收割机雨涛
中华人民共和国民法典（16开精装大字本）2020年6月新版团购电话：4001066666转6 中国法制出版社
2022年秋季黄冈小状元作业本一年级语文上人教版万志勇
村“两委”换届工作指导手册（2020年版）中央组织部组织二局
秦汉朱良
你也可以活成想要的幸福模样 UP子木
算力经济高同庆
Spark大数据分析源码解析与实例详解刘景泽
OpenStack设计与实现（第3版）英特尔亚太研发有限公司
Word+Excel+PPT+PS+移动办公 5合1完全自学视频教程（全彩版） IT教育研究工作室
会教育，不焦虑潘从红
高韧性社会周园
接班人：领导系统与制度建设徐升华
硬件产品经理方法论林志平
只争朝夕不负韶华--为全面建成小康社会而奋斗任仲文
价值之道：公司价值管理的最佳实践魏斌
不知归处乔治·普罗尼克
大唐气象陈望衡
意林作文素材（合订本）2021年总第66卷王立莉
轴心文明与现代社会金观涛
墨点宣纸毛笔字绘画手工宣纸四尺四开国画绘画书法书画创作生宣纸毛笔书法练习纸 100张半生半熟墨点字帖
师父如花隔云端2 穆丹枫
走出考核困局――业绩倍增的新绩效模式王春国
[综]太阳的自娱自乐耹也
财务数据价值链：数据、算法、分析、可视化陈虎
和秋叶一起学PPT（第5版）秋叶
中国式礼仪（全4册）赠送一个笔记本子：家教学校礼+社会交往礼+婚丧喜庆礼+传统节日礼俗雷子
三国演义罗贯中
漫画小学生套装3册：漫画小学生自信培养+漫画小学生抗挫训练+漫画小学生社交情商育儿家教育儿书籍父母必读叶晓川
10种洞察王可越
三国配角演义马伯庸
我信仰阅读 [美] 罗伯特·戈特利布
RxJava反应式编程 [波兰] 托马什·努尔凯维茨（Tomasz
怕说真话的十二岁
小学生黑板报手抄报创意大全（全彩）关明尚等
隋代墓志精粹（第二辑）上海书画出版社
一看就停不下来系列大全集（套装全7册）胡杨
生物医用陶瓷张胜民
秦伯未治疗新律（翻译版）丁一谔
爱上读书的妖怪李相培

从零开始学Python网络爬虫

书籍作者：罗攀蒋仟	ISBN：9787111579991
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：3562
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板

内容简介

Python是数据分析的首*语言，而网络中的数据和信息很多，如何从中获取需要的数据和信息呢？*简单、直接的方法就是用爬虫技术来解决。

本书是一本教初学者学习如何爬取网络数据和信息的入门读物。书中不仅有Python的相关内容，而且还有数据处理和数据挖掘等方面的内容。本书内容非常实用，讲解时穿插了22个爬虫实战案例，可以大大提高读者的实际动手能力。

本书共分12章，核心主题包括Python零基础语法入门、爬虫原理和网页构造、第*个爬虫程序、正则表达式、Lxml库与Xpath语法、使用API、数据库存储、多进程爬虫、异步加载、表单交互与模拟登录、Selenium模拟浏览器、Scrapy爬虫框架。此外，书中通过一些典型爬虫案例，讲解了有经纬信息的地图图表和词云的制作方法，让读者体验数据背后的乐趣。

本书适合爬虫技术初学者、爱好者及高等院校的相关学生，也适合数据爬虫工程师作为参考读物，同时也适合各大Python数据分析的培训机构作为教材使用。

本书综合案例

爬取北京地区短租房信息

爬取酷狗TOP500的数据

爬取《斗破苍穹》全文小说

爬取糗事百科网的段子信息

爬取豆瓣网图书TOP250数据

爬取起点中文网小说信息

爬取PEXELS图片

爬取糗事百科网的用户地址信息

爬取豆瓣音乐TOP250的数据

爬取豆瓣电影TOP250的数据

爬取简书网热评文章

爬取转转网二手市场商品信息

爬取简书网用户动态信息

爬取简书网7日热门信息

爬取拉勾网招聘信息

爬取新浪微博好友圈信息

爬取QQ空间好友说说

爬取淘宝商品信息

爬取简书网热门专题信息

爬取知乎网Python精华话题

爬取简书网专题收录文章

爬取简书网推荐信息

作者简介

罗攀，知名论坛Python爬虫专题管理员。擅长Python爬虫技术，并对Python数据分析与挖掘也有研究。曾经在CSDN等多个知名博客网站发表多篇技术文章，深受读者的喜爱。目前从事线上Python网络爬虫的培训工作。

蒋仟，喜爱并擅长Python编程，并将Python作为学术研究手段。在数据采集、数据分析等方面均有较为深入的研究。对Python网络爬虫技术应用也颇有心得。目前从事林业遥感技术的研究，并利用业余时间兼职从事Python培训方面的工作。

编辑推荐

详解网络爬虫的原理、工具、框架和方法，内容新，实战案例多

详解从简单网页到异步加载网页，从简单存储到数据库存储，从简单爬虫到框架爬虫等技术

22个网络爬虫综合实战案例、30个网站信息提取、2500余行代码

详解爬虫的3大方法：正则表达式、BeautifulSoup 4库和Lxml库

详解爬取数据的4大存储方式：TXT、CSV、MongoDB和MySQL

详解Scrapy爬虫框架的安装、项目创建、文件使用及爬取数据的存储

前言

随着Internet的飞速发展，互联网中每天都会产生大量的非结构化数据。如何从这些非结构化数据中提取有效信息，供人们在学习和工作中使用呢？这个问题促使网络爬虫技术应运而生。由于Python语言简单易用，而且还提供了优秀易用的第三方库和多样的爬虫框架，所以使得它成为了网络爬虫技术的主力军。近年来，大数据技术发展迅速，数据爬取作为数据分析的一环也显得尤为重要。程序员要进入与数据处理、分析和挖掘等相关的行业，就必须要掌握Python语言及其网络爬虫的运用，这样才能在就业严峻的市场环境中有较强的职场竞争力和较好的职业前景。

目前，图书市场上仅有的几本Python网络爬虫类图书，要么是国外优秀图书，但书籍翻译隐晦，阅读难度大，而且往往由于网络原因，使得书中的案例不能正常使用，因此不适合初学者；要么是国内资料，但质量参差不齐，而且不成系统，同样不适合初学者。整个图书市场上还鲜见一本适合初学者阅读的Python网络爬虫类图书。本书便是基于这个原因而编写。本书从Python语言基础讲起，然后深入浅出地介绍了爬虫原理、各种爬虫技术及22个爬虫实战案例。本书全部选用国内网站作为爬虫案例，便于读者理解和实现，同时也可以大大提高读者对Python网络爬虫项目的实战能力。

本书特色

1．涵盖Windows 7系统第三方库的安装与配置

本书包含Python模块源的配置、第三方库的安装和使用，以及PyCharm的安装和使用。

2．对网络爬虫技术进行了原理性的分析

本书从一开始便对网络连接和爬虫原理做了基本介绍，并对网络爬虫的基本流程做了详细讲解，便于读者理解本书后面章节中的爬虫项目案例。

3．内容全面，应用性强

本书介绍了从单线程到多进程，从同步加载到异步加载，从简单爬虫到框架爬虫等一系列爬虫技术，具有超强的实用性，读者可以随时查阅和参考。

4．项目案例典型，实战性强，有较高的应用价值

本书介绍了22个爬虫项目实战案例。这些案例来源于不同的网站页面，具有很高的应用价值。而且这些案例分别使用了不同的爬虫技术实现，便于读者融会贯通地理解书中介绍的技术。

本书内容

第1章 Python零基础语法入门

本章介绍了Python和PyCharm的安装及Python最为简单的语法基础，包括简单的流程控制、数据结构、文件操作和面向对象的编程思想。

第2章爬虫原理和网页构造

本章通过介绍网络连接原理，进而介绍了爬虫的原理，讲解了爬虫的基本流程，另外还介绍了如何使用Chrome浏览器认识网页构造和查询网页信息。

第3章我的第一个爬虫程序

本章主要介绍了安装请求和解析网页的Python第三方库、Requests库和BeautifulSoup库的使用方法，最后通过综合案例手把手教会读者编写一个简单的爬虫程序。

第4章正则表达式

本章主要介绍了正则表达式的常用符号及Python中re模块的使用方法，在不需要解析库的情况下完成一个简单的爬虫程序。

第5章 Lxml库与Xpath语法

本章主要介绍了Lxml库在Mac和Linux环境中的安装方法、Lxml库的使用方法及Xpath语法知识，并且通过案例对正则表达式、BeautifulSoup和Lxml进行了性能对比，最后通过综合案例巩固Xpath语言的相关知识。

第6章使用API

本章主要介绍了API的使用和调用方法，对API返回的JSON数据进行解析，最后通过使用API完成一些有趣的综合案例。

第7章数据库存储

本章主要介绍了非关系型数据库MongoDB和关系型数据库MySQL的相关知识，并通过综合案例展示了Python对两种数据库的存储方法。

第8章多进程爬虫

本章主要介绍了多线程及其概念，并通过案例对串行爬虫和多进程爬虫的性能进行了对比，最后通过综合案例介绍了多进程爬取数据的方法和技巧。

第9章异步加载

本章主要介绍了异步加载的基本概念，以及如何针对异步加载网页使用逆向工程抓取数据，最后通过综合案例讲解了逆向工程的使用方法和常用技巧。

第10章表单交互与模拟登录

本章主要介绍了Requests库的POST方法，通过观测表单源代码和逆向工程来填写表单以获取网页信息，以及通过提交cookie信息来模拟登录网站。

第11章 Selenium模拟浏览器

本章主要介绍了Selenium模块的安装、Selenium浏览器的选择和安装，以及Selenium模块的使用方法，最后通过综合案例介绍了如何对采用异步加载技术的网页进行爬虫。

第12章 Scrapy爬虫框架

本章主要介绍了Windows 7环境中的Scrapy安装和创建爬虫项目的过程，并通过案例详细讲解了各个Scrapy文件的作用和使用方法，而且通过多个综合案例讲解了如何通过Scrapy爬虫框架把数据存储到不同类型的文件中，最后讲解了如何编写跨页面网站的爬虫代码。

本书读者对象

?? 数据爬虫初学者；

?? 数据分析初级人员；

?? 网络爬虫爱好者；

?? 数据爬虫工程师；

?? Python初级开发人员；

?? 需要提高动手能力的爬虫技术人员；

?? 高等院校的相关学生。

本书配套资源及获取方式

本书涉及的源代码文件等配套学习资源需要读者自行下载。请登录机械工业出版社华章公司的网站www.hzbook.com，然后搜索到本书页面，按照页面上的说明进行下载即可。

虽然我们对书中所述内容都尽量核实，并多次进行文字校对，但因时间有限，加之水平所限，书中疏漏和错误之处在所难免，敬请广大读者批评、指正。联系我们请发E-mail到[email protected]。

编著者

从零开始学Python网络爬虫

内容简介

作者简介

编辑推荐

前言

目录

标签