猜你喜欢

奇妙博物馆奇妙博物馆
全栈数据之门任柳江
别无归处是归处朱良志
慌张余一鸣
苍狼下部森村诚一
Django + Vue.js实战派——Python Web开发与运维杨永刚
国际水墨设计.2 李中扬
镖人许先哲
不白吃话山海经3 我是不白吃
[文豪野犬]都是太宰的锅昔有蔓生
曾国藩传张宏杰
Python与机器学习实战何宇健
制度与经济增长姚洋
抽水蓄能电站工程技术中国水电顾问集团北京勘测设计研究院
好好过李若彤
数据要素五论：信息、权属、价值、安全、交易张平文
鍔ㄦ极浜轰綋鎶€娉曪紙淇鏈級鏉ㄥ缓椋
碳达峰碳中和：国家战略行动路线图袁志刚循环经济低碳经济环境气候袁志刚
人人可懂的数据科学 [爱尔兰] 约翰·D.凯莱赫
猫在一起喵呜不停日历2021 黑色版喵呜不停
10-16岁青春期亲子沟通心理学刘春芸
亲子成语童话绘本：别有洞天的土拨鼠小窝谢霈仪
乐高创意指南城市建筑第2版 [英] 沃伦·埃尔斯莫尔
太阳的礼物（太阳的孩子）杨映川
资管大未来：打通资管血脉，决胜地产存量时代明源地产研究院
亲密关系续篇：无拘无束的关系（全新修订版）克里斯多福·孟
云计算——在智能交通系统中的应用梅朵
元宇宙：开启虚实共生的数字平行世界黄安明晏少峰
我的趣味国学课孙子兵法论语墨子庄子（套装4册） [7-14岁] 芒果哥哥
知识内容写作课：写一篇真材实料的网络爆红好文章（自媒体时代，必修个人知识品牌成功策略）郑国威
中国港中国超级工程丛书系列青少年建筑科普百科知识陈馈
穿成玛丽苏总裁文的女配言萝
专精特新——中小企业的冠军之道祖林
高效能管理消除庞大工作量与沟通不畅的35种笔记术 [日] 田岛弓子
C# 7.0本质论马克·米凯利斯
尼康 Z6Ⅱ/Z7Ⅱ摄影与视频拍摄技巧大全雷波
英皇线上考级钢琴演奏自选曲集(1级-5级曲目选自2003-2020年考纲) 王启达
【点读版】走近科学探秘万物儿童百科套装全12册 3-6岁儿童科普百科全书小学生幼儿彩绘版绘本 [6-9岁] 埃马纽埃尔·勒珀蒂
东奥中级会计职称2022教材（官方正版）中级会计实务东奥轻1 轻松过关1会计专业技术资格考试应试指导及全真模拟测试东奥会计在线
Nick Bland绘本作品8册合集情绪管理绘本英文原版学乐点读笔可点读 [盒装] [3-8岁] Scholastic
城市交通大数据挖掘与应用实践（交通大数据系列）周涛
Adobe Illustrator CC 2017中文版经典教程彩色版布莱恩·伍德
高手的学习之道（套装2册）：如何成为一个会读书的人如何成为一个会学习的人渡边康弘
永远年轻的初学者汤姆·范德比尔特
诺门罕1939 斯图尔特·D.古德曼
敢行动，梦想才生动：梦想清单训练手册李婉萍
读者杂志6月刊（2022年11/12期，总第760/761期）宁恢
心智成长李书玲
黄冈小状元同步作文（5上）万志勇
1小时搞定全家保险（专享作者手写信）陈铜

网络数据采集技术：Java网络爬虫实战

书籍作者：钱洋	ISBN：9787121376078
书籍语言：简体中文	连载状态：全集
电子书格式：pdf,txt,epub,mobi,azw3	下载次数：9183
创建日期：2021-02-14	发布日期：2021-02-14
运行环境：PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板
下载地址

内容简介

《网络数据采集技术：Java网络爬虫实战》以Java为开发语言，系统地介绍了网络爬虫的理论知识和基础工具，包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站，采用案例讲解的方式介绍网络爬虫中涉及的问题，以增强读者的动手实践能力。同时，本书还介绍了3种Java网络爬虫开源框架，即Crawler4j、WebCollector和WebMagic。

《网络数据采集技术：Java网络爬虫实战》适用于Java网络爬虫开发的初学者和进阶者；也可作为网络爬虫课程教学的参考书，供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用；也可供企业网络爬虫开发人员参考使用。

作者简介

钱洋

合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题，负责数据采集系统的设计与开发工作。在CSDN（博客名称：HFUT_qianyang）上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。

姜元春

合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。

编辑推荐

适读人群：本书适用于Java网络爬虫开发的初学者和进阶者；也可作为网络爬虫课程教学的参考书，供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的大学生和研究生参考使用；也可供企业网络爬虫开发人员参考使用。

《网络数据采集技术：Java网络爬虫实战》是国内上很少见的讲解Java语言（而不是Python语言）网络爬虫的书籍。与Python语言相比，使用Java语言进行网络数据采集，具有采集效率更高、框架性能更好、敏捷易用等优点，而且针对大型搜索引擎系统的数据采集工作更多使用Java语言，故本书值得读者学习。编程语言的初学者也可通过本书进一步掌握Java语言的高级编程技能。

《网络数据采集技术：Java网络爬虫实战》电子书免费下载

pdf下载 txt下载 epub下载 mobi下载 azw3下载

前言

近几年，网络空间大数据（Big Data）已成为各领域研究的热门话题。在企业应用方面，天猫利用海量的用户数据挖掘年轻消费者偏好，并将用户偏好反馈给手机研发部门，将其用于手机设计；汽车之家利用平台中用户生成的大数据对用户进行画像，在此基础上开展个性化营销。在学术界，很多领域的学者针对大数据衍生出的新问题开展学术研究，如大数据驱动的客户洞察、大数据驱动的个性化推荐、大数据驱动的管理决策等。

在网络大数据环境下，数据采集尤为重要。因此，很多企业都提供了（高级）数据采集工程师的职位。对于很多在校大学生而言，尤其是硕士生和博士生，网络数据采集是一项必备的技能。

在编写本书之前，笔者主要从事数据采集系统的设计与开发工作。在CSDN 社区上，笔者撰写过一系列介绍Java 网络爬虫的博客，这些博客为笔者的主页带来了不少访问量；同时，也有许多博客读者通过邮件的方式，向笔者咨询网络爬虫相关的工具使用、程序调试等问题。为此，笔者对Java 网络爬虫所涉及的知识与技术进行了系统的梳理，并打算编写一本关于Java 网络爬虫的书籍。在写作过程中，笔者与具有丰富网络爬虫教学经验的姜元春教授就写作逻辑、介绍的知识点、使用的案例等多方面的内容进行了多次讨论。本书的内容更加注重爬虫理论、开发基础与实战演练。基于对本书爬虫案例的研读，读者可以快速开发自己需要的其他网络爬虫程序。

本书的内容

本书分为9 章，具体内容如下所示。

第1 章至第3 章：这3 章重点介绍与网络爬虫开发相关的基础知识，其中包括网络爬虫的原理、Java 基础知识和HTTP 协议等内容。

第4 章至第6 章：这3 章分别从网页内容获取、网页内容解析和网络爬虫数据存储3 个方面介绍网络爬虫开发过程中所涉及的一系列技术。在这3 章中，涉及很多开源工具的使用，如Jsoup、HttpClient、HtmlCleaner、Fastjson、POI3 等。

第 7 章：本章利用具体的实战案例，讲解网络爬虫开发的流程。通过对本章的学习，读者可以轻松开发Java 网络爬虫。

第8 章：针对一些复杂的页面，如动态加载的页面（执行JavaScript 脚本），本章介绍了一款实用的工具——Selenium WebDriver。

第9 章：本章重点介绍了3 种比较流行的Java 网络爬虫开源框架，即Crawler4j、WebCollector 和WebMagic。读者可根据数据采集需求，自行开发支持多线程采集、断点采集、代理切换等功能的网络爬虫项目。

本书的特色

注重基础：俗话说，基础不牢，地动山摇。本书从可读性和实用性出发，重点介绍了网络爬虫中涉及的基础知识。

系统性：本书系统地梳理了网络爬虫的逻辑和开发网络爬虫需要掌握的技术。对网络爬虫初学者和进阶者而言，学习这些内容将有利于解决数据采集过程中遇到的各种问题。

详细的案例讲解：本书选取了较为典型的网站，讲解网络爬虫经常遇到的问题，如HTTPS 请求认证问题、大文件内容获取问题、模拟登录问题、不同格式文件（文本、图片和PDF 等）的存储问题、定时数据采集问题等。

开源框架：本书介绍了3 种Java 网络爬虫开源框架，即Crawler4j、WebCollector和WebMagic。通过对这3 种网络爬虫开源框架的学习，读者可以轻松开发一些高性能的网络爬虫项目。

完整的代码：为便于读者学习，对于每个数据网络爬虫项目，笔者都提供了完整的代码，并且在代码中给出了清晰的注释。

适合的读者

Java 网络爬虫开发的初学者和进阶者。

科研人员，尤其是从事网络大数据驱动研究的硕士生和博士生。

开设相关课程的高等院校的师生。

企业网络爬虫开发人员。

说明

网络爬虫作为一项技术，更应该服务于社会。在使用该技术的过程中，应遵守Robots 协议（互联网行业数据抓取的道德协议）。同时，需要注意对数据所涉及的知识产权和隐私信息进行保护。另外，采集数据时，需要注意礼貌，即不频繁地请求网页，以防止给数据提供者的服务器造成不良影响。在使用所采集的数据时，需要注意是否涉及商业利益和相关法律。最后，本书中所有使用的案例皆为测试案例，仅供读者学习使用，本书中的URL 均做了处理。

基金项目

本书由国家自然科学基金重大项目课题“面向大数据的商务分析与计算方法以及支撑平台研究（71490725）”、国家自然科学基金重大研究计划子课题“面向商务领域的大数据资源池及集成示范平台（91746302）”、国家自然科学基金优秀青年基金“个性化营销理论与方法（71722010）”提供资助。

勘误

由于笔者的水平有限，书中难免出现一些错误及不准确之处，恳请读者批评指正。为及时更正书中不恰当的内容，笔者在CSDN 博客中创建了一个板块，读者可以将书中的问题以评论的方式进行反馈，笔者将针对这些问题进行勘误。另外，也欢迎读者通过发送电子邮件的方式，反馈书稿的问题。

致谢

感谢电子工业出版社的林瑞和编辑、合肥工业大学电子商务研究所的刘业政教授和孙见山副教授等给本书提出的宝贵建议。

感谢华为的杜非、王佳佳和王锦坤师兄的帮助，是他们将我带入编程的世界。

感谢淮南师范学院的孙娜丽女士对整本书稿写作语言的梳理。

感谢合肥工业大学电子商务研究所的朱婷婷、杨露、田志强、宋颖欣、张雪、李哲、贺菲菲、叶畅、陶守正、梁瑞诚等博士参与本书内容的讨论。

最后，希望热爱网络爬虫开发的小伙伴们能够喜欢本书。

钱洋

2019 年9 月

网络数据采集技术：Java网络爬虫实战

内容简介

作者简介

编辑推荐

《网络数据采集技术：Java网络爬虫实战》电子书免费下载

前言

目录

产品特色