书籍作者:徐飞 | ISBN:9787121358340 |
书籍语言:简体中文 | 连载状态:全集 |
电子书格式:pdf,txt,epub,mobi,azw3 | 下载次数:9310 |
创建日期:2021-02-14 | 发布日期:2021-02-14 |
运行环境:PC/Windows/Linux/Mac/IOS/iPhone/iPad/Kindle/Android/安卓/平板 |
本书以各个企业在大数据浪潮中跌宕起伏的经历为核心来讲述大数据发展史,并分析各个大数据企业迥异的发展历程,探讨在新技术浪潮来临时应该如何应对。本书主要分为两部分,前半部分讲述谷歌、微软、IBM、雅虎、***、阿里巴巴等大公司在大数据浪潮中的发展史,后半部分讲述各个大数据创业公司的发展历程和现状。在每部分的最后,还通过专门的文章分析并总结了各企业在大数据浪潮中的作为和选择所产生的影响。全书从公司的视角出发为大家呈现了一幅波澜壮阔的大数据领域发展史,读者不仅可以了解大数据技术,更能领略大数据领域的全貌,从各公司的故事中吸取教训,学习思路。本书适合对大数据技术和商业思维有兴趣的读者阅读。
徐飞,著名大数据专家。拥有浙江大学本科学位,美国佛罗里达大学计算机博士学位,研究方向为数据库系统。从事大数据的基础构架研发10余年,先后在微软和TabIeau等知名公司的大数据核心团队工作,担任过首席架构师。在国际**会议和杂志上发表论文10余篇。2016年开通微信公众号“飞总聊IT”,并原创“大数据那些事”系列文章,系统阐述了大数据发展史,以及发展过程中的种种技术和商业决策案例,受到广泛好评。
√ IT版《万历十五年》,技术之上的“大历史观”,激荡十年的商业复盘。
√ 读坊间故事般的轻松体验,实则饱经洗练、穿透岁月的独立思考与批判精神。
√ 备受互联网高端人士推崇的大号“飞总聊IT”作者深度洞察科技公司商业逻辑。
√ 真内行,白描生态圈众生相,入木三分;大高手,俯瞰大数据全景图,包罗万象。
√ 既有圣地硅谷技术与商业完美融合之典范,又有国内互联网颠覆创新重塑世界之楷模。
√ 作者亲历大数据发展全程,十余年在微软|Tableau|华为西雅图研发中心等从事相关工作。
√ 技术创业法则:长短期平衡|先发优势|弯道超车|技术驱动|开源贡献|僵化vs.混乱|框架束缚。
√ 大数据战国列传,IT成败案例卷宗,剖析技术兴衰背的深层根源,参透互联网商业的演进规律。
推荐语
近年来大数据技术迅速发展,随着智能手机、可穿戴设备以及物联网设备的普及,我们正步入一个数据爆炸的时代,收集、存储和处理大数据的云计算平台应运而生。有了云计算作为基础,人工智能技术才得以迅猛发展,从而更精准地挖掘和释放数据中潜在的价值。
与飞总相识多年,每次与他交流都让我受益匪浅,总能被他在大数据领域的广阔见识和独到见解吸引。飞总的微信公众号“飞总聊IT”在业界小有名气,他在公众号中连载的“大数据那些事”系列文章是本书内容的基础。本书以浅显易懂的语言分析了各公司的大数据之路,介绍了各个大数据技术平台的功能与特点,内容连贯完整,既能让读者系统了解大数据领域的发展历史和现状,又能促使读者一起思考、交流大数据领域未来的发展方向。
刘国伟
谷歌资深软件工程师
作为一名大数据领域的资深专家,飞总在本书中用生动活泼的语言深入浅出地描绘了大数据生态圈的“众生相”。是什么吸引着我在凌晨时分困意全无地一口气读完了全书?我想,一方面是飞总清晰地描绘了各个公司及其技术相生相克的关系,让我这个实用主义者第一次从宏观角度看到了这个领域的全貌;另一方面,也许对我来说是更重要的方面,书中的内容激发了我对决策和管理的思考:初创公司应该如何平衡短期增长和长期留存?先发优势应该如何保持?后起之秀应该怎样弯道超车?顶尖技术对于商业成功和项目成功的贡献各有多大?大公司将代码开源的行为是在汇集资源还是在让资源流失?管理僵化和管理混乱哪个会导致公司更快地垮掉?公司应该如何利用资源帮助一个好点子成长,而不是用已有的技术框架绑架它?
所以,即使你对大数据技术并不了解,这本书中丰富的商业案例也会为你带来很多启发。
殷培
Facebook经理
数据库从业人员往往都保持着大量的输入,读学术论文、读技术总结、读商业分析,每天都要吸纳更多的知识和技能。可是,像飞总这般乐于输出、甘于输出、不计代价地输出的人,倒不常见。这是一种能力,高屋建瓴地梳理归纳,而后有条理、有章程地输出的能力;更是一种态度,已成名的大家总是过于爱惜自己的羽毛,不愿轻易公开地表达对事物的想法和见解,特别是当自己身上已打上公司tag、立场tag,而不是所谓“独立大V”时。
飞总在本书中并没过多地着墨于技术本身,而是站在技术之上,从宏观的、大环境的层面对商业案例进行分析探讨,在我看来,颇有黄仁宇老先生“大历史观”的感觉。大数据的时代已经开启,大数据的时代远未结束,希望能看见飞总的更多好文,也谢谢他高质量的、持续的分享。
龚玮薇
Oracle数据库系统技术经理
飞总的文章富有批判精神且论述有理有据,这一点深深吸引了我。一篇篇文章恰似坊间故事,把来龙去脉讲得非常有趣,更于有趣之中蕴含着思考,于思考之间洋溢着情感。愿飞总持之以恒,不断为粉丝们呈现佳作。
李海翔(那海蓝蓝)
数据库内核开发者,
《数据库查询优化器的艺术:原理解析与SQL性能优化》、
《数据库事务处理的艺术:事务管理与并发控制》作者,
腾讯T4级工程师
我们处在技术高速发展的时代,而商业是技术最好的驱动力。一段代码可能只能默默无闻地放在我们自己的测试服务器上,也可能每天被调用上百万次。决定代码生命周期的往往不是代码质量本身。新技术可能推动商业模式的发展,也可能让项目走向低迷。飞总对技术和商业的关系有着深入的思考,他把这些思考的精华写在了这本书中,将我带入了另一个认知维度。
林晓斌
极客时间“MySQL实战45讲”专栏作者,MySQL专家
硅谷之所以被称为IT圣地,不仅因为这里实现了大量科技创新,更因为这里实现了技术和商业的完美结合,值得国内的IT企业认真思考和学习。徐飞的这本《大数据浪潮之巅:新技术商业制胜之道》以通俗易懂、幽默风趣的语言,将硅谷和国内典型的技术与商业融合创新的案例娓娓道来,其中一些是失败的教训,比如MongoDB追求技术上的易用性而忽视了商业应用的安全性,因而给了微软的CosmosDB大举侵占市场的机会;另一些则是成功的经验,比如Spark通过综合不同大数据存储系统的优点,并针对性地改造其缺点实现了后来居上。通过介绍这些正反面案例,带领读者从中汲取经验,学习思路。
谢梁
滴滴首席数据科学家
大数据是被称为“未来石油”的珍贵资源,大数据的概念一被提出,便成为各大知名IT企业争夺的制高点。谷歌、微软、IBM、阿里巴巴等公司都不惜重金进行相关技术的研究和商业化实践,一时间大数据江湖风起云涌。
飞总在微软、Tableau、华为西雅图研发中心等多家公司从事过十余年大数据相关的工作,对大数据技术以及商业化实践形成了独到而深刻的见解。本书用浅显易懂又风趣幽默的语言,向读者分析了MongoDB、微软、谷歌、亚马逊、Facebook等世界IT巨头及各个创业公司的技术革新、商业模式变化,以及由此导致的企业沉浮。既能满足读者的猎奇心理,又能让人学到大数据、技术型企业的商业运作等专业知识,给人带来了深刻的思考与丰富的启迪。
汪云海
山东大学计算机学院教授
推荐序一
第一次读到徐飞的大数据系列文章是在他的“飞总聊IT”公众号上,我一口气读完了所有历史文章。后来有机会见到徐飞,才发现我们以前是同事。我于2006年加入微软的必应搜索引擎开发部门,主要从事搜索技术研发;徐飞比我晚三年加入,他当时直接进入了必应的大数据Cosmos部门。说来也奇怪,我们在同一栋楼工作了若干年,却没有正式见过面,这可能是因为那段时间必应正野蛮生长,人员流动比较大。
过去十年,整个互联网产业发生了翻天覆地的变化,从大数据到云计算再到人工智能,变革一浪接着一浪。读徐飞的大数据系列文章,我再次感受了这场轰轰烈烈的变革。读完文章再看现在的格局,有种以史为镜的感觉,对现在的很多挑战都有了新的思考。作为一名大数据老兵,徐飞是科班出身,所写的文章不仅有精辟的技术见解,而且穿插了很多背后的故事,引经据典、娓娓道来,有种读小说的感觉。不少故事和过程,特别是一些重要的技术决策,我都是第一次知道完整的来龙去脉。其中,谷歌的“三驾马车”、SQL与NoSQL之争、从MongoDB到CosmosDB都是我们亲身经历的事件。我对微软相关的文章尤其感兴趣,因为其中的商业和技术决策是很好的学习案例,值得再三回顾:从Cosmos到CosmosDB,从闭源到开源,从“面子”到“里子”,其中的兴衰一言难尽,值得所有技术公司借鉴。书中还分析了一些很新的系统,比如阿里巴巴的Blink系统等。
如果你对计算机和互联网行业感兴趣,想了解一些伟大的技术和公司的发展史,那么这本书正适合你,它会告诉你很多有趣的故事。更重要的是,你可以通过这些故事来了解背后的原因,所谓知其然且知其所以然。
汪军华
微软杰出工程师(Distinguished Engineer)
推荐序二
极客时间App上的专栏“技术与商业案例解读”上线后不久,我们请专栏作者徐飞来公司做直播,给用户分享他写这个专栏背后的故事,于是我第一次见到了飞总。和任何一个技术出身的小伙伴一样,飞总有点羞涩,但和很多技术人又不太一样的是,飞总很有自己的观点,而且敢说。时间过去很久了,我还能很清楚地记得他指点江山般地分析一家当红公司的种种优势与劣势,畅快淋漓而有见地。
文如其人,飞总的专栏也是如此。每次看或者听专栏的内容时,我都会纳闷:这哥们儿的知识怎么那么渊博?好像没有他不了解的公司,没有他不知道的奇闻逸事。也许正是这个原因,在极客时间App一开始用户量还不大的情况下,飞总的专栏就有几千人订阅。因为工作原因,我个人特别喜欢了解那些科技公司的历史。在我从事的软件开发领域,技术更迭实在太快,如果不能从源头理清这些技术的发展脉络,就很容易迷失在历史的谜团里。
飞总的文章不仅有趣,而且很有参考价值。有一次,飞总分析了当时很火热的大数据公司Cloudera的业务模式、竞争对手及财务状况,然后他断言Cloudera当时的估值虚高,大概是其实际价值的两倍。这篇文章发布后的第三天,就传出了Cloudera公司自砍一半估值上市的新闻。听起来有点不可思议,但这也从侧面说明飞总对大数据行业的了解有多么深刻。
本书是将飞总的专栏中大数据方面的内容抽出来整理而成的。里面既有对国内外当红的大数据产品的解析,比如TiDB、麒麟(Kyligence)以及被阿里巴巴以9000万欧元收购的Flink,又有国际知名公司的大数据发展史,公司包括阿里巴巴、微软、亚马逊、IBM等,读起来都非常有趣。技术变革从来都不是一件容易的事情,但是不管技术怎么变动,每家公司都希望在保持业务平稳增长的状态下发展,在移动互联网时代下做到这一点很难,不能掉以轻心。
古人说“以史为镜,可以知兴替”。相信有心的读者朋友——不论是程序员还是在IT企业家,都会从本书受益良多。
霍泰稳
极客邦科技创始人兼CEO
推荐序三
从20世纪60年代至今,信息技术的版图不断扩大,从大型机、小型机、PC,到操作系统、网络、数据库、ITOM、云计算,而大数据无疑是近十年来最引人瞩目的新领域之一。
与其他技术领域相比,大数据领域的故事尤其难讲,一是因为领域新,在一个领域稳定下来之前,是不容易讲清楚其来龙去脉的。二是大数据领域的技术性很强,涉及的细分领域也很多,外行很难理清技术和需求之间的关系,自然更难看清兴衰背后的深层根源。第三,大数据领域中的技术发明者和商业角逐者既有大数据技术的使用者(比如雅虎、Facebook),又有产品和技术提供者(比如MongoDB、Hadoop、谷歌),更有在技术使用者和商品提供者之间转换的云厂商巨头(比如亚马逊、阿里巴巴、微软等),不熟悉该领域的专家很难看清楚其中的演进规律。第四,在商业模式上,大数据领域是少有的甚至可以说是第一个以开源模式为主导的技术领域。
飞总在大数据领域有扎实的学术功底和丰富的企业实践经验,而且他对大数据领域的企业发展历程也有浓厚的兴趣,进行了深入的思考,因此才为我们呈现了这本精彩的关于大数据技术的“战国志”。
书中讲述的大数据故事,主要围绕的是企业软件市场。国内的企业软件公司主要偏重于业务应用侧,而偏重于基础架构和工具领域的大多数公司才刚刚起步,成功经验很少,还需要经历一个漫长的摸索和学习过程。
回到几十年前,中国各行各业都和国外有巨大的差距,但靠着艰苦卓绝的努力,许多行业已经大大缩小甚至消除了和国外的差距。我们相信在企业软件领域也会这样。只要投身于企业软件领域的中国创业者们认认真真、踏踏实实地向成功者学习,遵循科学的方法,假以时日,一定会出现一大批企业软件领域的优秀企业。
相信飞总的这本书会引发各位软件业同仁的思考,投石水中,必有涟漪,激荡反复,必将汇入中国企业软件的大潮,汹涌澎湃,席卷未来。
陈傲寒
优锘科技联合创始人兼CEO,
BMC、Opsware中国区前总经理
推荐序四
从2000年前的数据仓库、BI到现在的大数据、人工智能,从Lambda到IOTA,从“数据湖”到“数据河”,数据行业的新概念和产品层出不穷。飞总在本书中把主要的大数据组件的缘起、成长和未来都讲述了一遍,堪称“大数据领域的现代简史”。
我们可能知道Hadoop的Cloudera和Hortonworks版本,却不知它们为何从雅虎的团队分离出来了;我们可能知道Spark是现在最流行的大数据处理框架,却不知道它的诞生缘于一场针对MapReduce的论战,更不知道学术界以中立著称的ACM参与了这场“大战”;我们知道IBM在云化和大数据的浪潮中没有跟上潮流,却不知道IBM的云化策略要比谷歌、AWS早很多;我们在非常开心地使用着各种各样的开源组件,却不知道这些开源厂商都在艰难度日,而一味从开源社区索取利益的云厂商们却赚得盆满钵满。
不算厚的一本书却对近20年的大数据组件的兴衰做了小结,以古鉴今,能给我们这些大数据从业者带来很多思考:大数据行业最终的形态将会是怎样的?开源看上去很美好,但是怎样做才可以保持良性循环?大公司应该如何拓展领域并实现创新?如果像雅虎、IBM这样的“巨无霸”也难逃“创新者的窘境”,那么我们又该如何走下去?
相对于IT行业整体的发展,数据行业其实还处在一个很稚嫩的早期阶段,很难脱离业务独立存在的特性迫使数据行业不断推陈出新,社区持续活跃。而相对于美国已经取得绝对优势的芯片行业,国内的企业更容易在大数据领域找到并把握领先的机会,因为中国的人口和数据量有天然的优势。纵观全书,不难发现,与其说大数据技术是被创造出来的,不如说大数据技术是被庞大的数据量倒逼出来的。所以,我非常看好中国大数据领域的发展前景,我们孕育着下一代全球级别的大数据开源架构,究竟哪家公司可以脱颖而出呢?让我们拭目以待。
最后,再次推荐大数据行业的从业者及有志于打造下一代大数据引擎的创新者阅读此书,从30多个大数据开源组件的兴衰历史里汲取经验,少走一些弯路,让中国在大数据创新的赛道上领跑世界!
郭炜
易观CTO,中国软件行业协会智能应用服务分会副主任委员,
全球中小企业创业联合会(ICSB)副会长,
鲲鹏会(TGO)北京董事会会长
推荐序五
有人的地方就有江湖,有江湖的地方就有故事。技术界的故事同样精彩纷呈。
我在数据分析、大数据行业从事了十几年的工作,虽然对技术、架构及一些公司的发展有一定了解,但直到读了飞总的这本书,才发现背后还有那么多的故事和纠缠,而且那么精彩和有趣。
飞总在书中如数家珍般地讲述了很多不为人知的故事,从数据库领域顶级科研会议、论文、流派,到商业模式以及相关技术方向和架构。飞总在数据库理论和实践领域有多年的积淀,并且拥有VLDB、SIGMOD论文评审的深厚功底,因此才能抽丝剥茧,为我们呈现一个个精彩的企业故事,勾勒出技术圈的一段至关重要的历史。
数据分析作为当今社会科技的基础技术,已经深入人们生活和工作的方方面面,从最早的信息化到数据仓库、大数据、云端数据分析,再到人工智能技术的初期应用,到处体现了数据、数据分析方法和技术的重要性。毫不夸张地说,没有数据分析,今天的大部分业务和工作都将无法进行。数据分析在过去几十年中发展迅速,各种理论和流派层出不穷,数据和应用的发展速度远远超过了技术本身的发展速度。本书涉及绝大部分流行的、成规模的大数据技术和公司,分析了其中的技术本质、理论基础及发展规律。鲜有一本著作能够就一个科技细分行业的发展做出如此全面而深入的描绘和分析。
过去几十年,一提到科技,总是绕不开美国的科技实力和地位,尤其是计算机技术领域。虽然我们在各个方面做着努力,但未能真正超越之。其中有太多的原因和偶然性,更有很多惋惜和遗憾。但在数据领域,我们看到了令人兴奋的可能:依托全球第一的人口基数、全球第一的数据市场,我坚信国人一定能够在数据领域的实践中闯出自己的一片天地。飞总的书中描述了中国互联网巨头的超大规模的投入和实践,以及开源社区的突破和探索,希望未来会有更多关于国人的故事。
研究历史是为了更好地发展,数据领域还有很长的路要走,随着IoT等技术的兴起,数据规模一定会越来越大,现有的技术和架构很快又将面临瓶颈和挑战。下一个突破点在哪里?什么样的技术可以持续进化以适应变化?什么样的商业模式可以驱动新技术和场景的发展?我们的机会在哪里?跟随飞总一起回顾数据界的发展故事,期待各位读者能够从中找到自己的答案。
韩卿(Luke Han)
Kyligence联合创始人兼CEO,
Apache麒麟联合创始人及PMC主席,
Apache基金会会员
目录
1 谷歌的大数据路:从拥有“三驾马车”到丧失先发优势 1
谷歌的“三驾马车”开启了大数据时代,然而在这个新时代里,谷歌却丧失了先发优势。这是为什么呢?我认为是谷歌对待开放架构的态度相对保守导致的。
2 谷歌的大数据路:一场影响深远的论战 7
在大数据发展史上,以迈克尔?斯通布雷克为代表的数据库元老级人物,针对MapReduce向谷歌提出了质疑。这场著名的论战给整个业界带来了动荡,最后诞生了Spark。
3 谷歌的大数据路:谷歌的“黑科技” 14
在大数据的上半场,谷歌以“三驾马车”引领时代,但后来因为决策失误丧失了先发优势;而在大数据的下半场,谷歌带着“黑科技”Spanner数据库系统闪亮登场,效果如何呢?
4 如何读懂类似谷歌“三驾马车”这样的技术论文 20
读懂一篇技术论文,首先需要明白“论文是写给谁看的”和“论文是怎么写出来的”这两个基本问题,然后就可以有针对性地提升自己阅读论文的功力。
5 雅虎:大数据领域的“活雷锋” 26
雅虎,这个早已淡出我们视线的公司,却是大数据领域的“活雷锋”,可以说正是它促成了今天的Hadoop生态圈。这篇文章就来说说它的故事。
6 IBM的大数据路――起早贪黑赶了个“晚集” 31
作为历史悠久的计算机公司,IBM早早涉足了大数据领域,最终却只能寄希望于比自己的产品起步还要晚的Spark,我们来看看其中发生了什么。
7 三大社交媒体公司对Hadoop生态圈的贡献 35
雅虎把Hadoop开源以后,当时著名的三大社交媒体公司Facebook、LinkedIn和Twitter都加入了这个生态圈,并做出了巨大贡献。Hadoop生态圈给我们的启示是,抱团取暖才是生存之道。
8 微软的大数据发展史:微软硅谷研究院 41
微软硅谷研究院曾经在微软的大数据发展历程中扮演了非常特殊的角色,它推出的Dryad和DryadLINQ可以说是两个另类的产品,虽然未曾大受欢迎,却对大数据的发展有着不可磨灭的贡献。
9 微软的大数据发展史:必应的Cosmos 47
Cosmos是微软必应搜索引擎下面的团队开发的大数据基础架构,代表了微软在大数据方面的最高成就。
10 微软的大数据发展史:Azure的发展 53
微软大数据发展史上的另一个分支是微软云计算平台下的大数据项目Azure。这个项目产生了HDInsight、Azure Data Lake、CosmosDB三大平台,但最后只有CosmosDB取得成功。
11 亚马逊的大数据故事:从先驱者到一味索取者 59
在大数据技术发展的早期,亚马逊发表了Dynamo系统的论文,成为和谷歌“三驾马车”的论文一样具有深远影响的论文。然而随着大数据的发展和Hadoop生态圈的建立,亚马逊对大数据圈的贡献极少,但亚马逊自己却从中获得了巨大的利益。
12 亚马逊的大数据故事:创新和“拿来”并存的云服务 64
亚马逊不仅在Hadoop生态系统里蓬勃发展,还推出了自己的数据分析产品。这些产品有些是亚马逊自己研发的,有些则只是对开源的产品进行了包装。但是,亚马逊一如既往地没有反哺开源项目。
13 阿里巴巴的大数据故事:数据分析平台发展史 70
国内大数据平台做得最好的公司当属阿里巴巴。本文就来介绍一下阿里巴巴数据分析平台的发展情况:数据分析平台的叠加开发。
14 阿里巴巴的大数据故事:流计算引擎发展史 75
在阿里巴巴的发展过程中,流数据处理一直是一项十分重要的技术,阿里巴巴也在这方面做了很多有意义的项目。本文就来介绍一下阿里巴巴的流计算引擎JStorm与Blink的发展史。
15 大公司的大数据战略得失:自建“轮子”成本高 80
大公司的大数据平台可分为两类,一类是自己搭的基础架构(自建“轮子”),另一类是抱团取暖所形成的Hadoop生态圈,两者各有利弊。本文将分析第一种情况,主要以谷歌、微软、阿里巴巴自己搭建的大数据平台架构为代表。
16 大公司的大数据战略得失:抱团取暖的Hadoop生态圈 86
除了自建“轮子”的公司,其他各大公司走向了一条抱团取暖的道路,就是你搭一个模块,我搭一个模块,大家一起开源出来,最后组成了一个叫作Hadoop的生态圈。其中有为社区积极做贡献的公司,也有以赚钱为目的的公司,还有一味索取的公司。
17 Hadoop三国之“魏国”――Cloudera 91
Hadoop领域曾经有三家发行商互相角逐,其中不乏各种战术与谋略,仔细琢磨,你会发现这三家公司的关系与三国时期的魏蜀吴之间的关系非常相似。本文讲述Hadoop三国之“魏国”――Cloudera的故事。
18 Hadoop三国之“吴国”――MapR 97
Hadoop三国之“吴国”MapR,实力强大却很少参与竞争,这篇文章就来说说它特立独行的故事。
19 Hadoop三国之“蜀国”――Hortonworks 103
Hadoop三国之“蜀国”Hortonworks始终坚持100%开源,本文讲述它的故事。
20 Hadoop及其发行商的未来 111
Hadoop已诞生十多年,围绕其生态圈诞生了诸多企业,例如前面讲的社交媒体公司、三大发行商,而亚马逊却最终成为最大的受益者。
21 文档数据库的缔造者MongoDB(上) 116
MongoDB的诞生像一场意外。它是一个文档型数据库,由10gen公司开发,以易用性闻名。本文就来讲述MongoDB团队的开发重心、商业运作模式和产品盈利方式。
22 文档数据库的缔造者MongoDB(下) 127
MongoDB的开发团队一向重视用户体验而不重视核心功能,其负面影响终于以一次安全危机的方式暴露。加上公司曾经获得具有CIA背景的风投公司的投资,这一并引起了很多人的顾虑。当然,这一切都挡不住MongoDB公司最终的成功上市。
23 以MongoDB为例,看基础架构类产品创业 132
作为一款基础架构类产品,MongoDB以其易用性闻名,然而MongoDB的开发者不注重系统的可靠性,只注重可用性,导致很多MongoDB的用户转向了其他产品。基础架构类产品的创业者应该如何平衡可用性和可靠性?这是一个值得深思的问题。
24 直面MongoDB,谈微软的NoSQL战略 137
2013年,MongoDB在数据库市场中的占有率很高,成为很多创业者和初创企业的首选。微软究竟做了哪些事情,将Cosmos DB变成能与MongoDB竞争的产品的呢?
25 Palantir:神秘的大数据独角兽公司 144
Palantir是一家神秘的大数据创业公司,由硅谷著名投资人彼得?蒂尔创办,其主要服务对象是美国政府部门、特情组织和军队,所以外界对其了解甚少。
26 Splunk:机器日志数据分析帝国 149
Splunk是大数据圈里少有的盈利并且蓬勃发展的企业。它主要服务于机器日志数据分析领域,随后又不断拓展业务,演变开发了若干不同类型的软件。在本文中我们就来好好聊聊Splunk的进阶史。
27 Confluent:Kafka项目背后的公司 155
Kafka是LinkedIn开发的开源项目,它主要通过日志文件传输的方式在不同的数据源之间同步数据。而Confluent公司是Kafka开源项目的创始人离开LinkedIn以后所创立的公司,主要致力于Kafka项目的商业化。在本文中,我们来讲讲这家公司的故事。
28 Powerset:HBase的“老东家” 160
Powerset是一家在多年前被微软收购的创业公司,目前在语义搜索方面开疆拓土。它为开源社区贡献了BigTable的Hadoop版实现。本文就来讲讲这家公司的发展史。
29 Cassandra和DataStax公司的故事 166
Cassandra是开源社区仿照Amazon Dynamo开发的产品,它最初由Facebook开发并开源,却又被公司内部弃用。创业公司DataStax对Cassandra大力支持,造就了今天繁荣的Cassandra社区。
30 Databricks:Spark的数据“金砖”王国 172
Spark是Hadoop生态圈里大红大紫的项目,它甚至取代了Hadoop MapReduce的地位。Databricks是对这个项目进行商业化的企业。本文就来聊聊这家企业的故事。
31 Data Artisans和浴火重生的新一代大数据计算引擎Flink 178
Data Artisans是对Flink进行商业化的公司。Apache Flink是一个年轻的新型处理引擎,是Hadoop社区里Spark的主要竞争对手。Flink设计理念先进,但是工程实现方面相对落后。
32 Dremio:基于Drill和Arrow的大数据公司 183
Dremio是另外一家大数据创业公司,其创始人是从MapR公司跳槽出来的。Dremio的主要产品就是Dremio项目,它吸收了MapR主导的开源项目Drill的精华,以开源项目Arrow为核心开发。本文就来讲讲Dremio公司和Dremio平台的来龙去脉。
33 Imply:基于Druid的大数据分析公司 189
开源大数据项目Druid由Metamarkets开发。开始时籍籍无名,后来被一些大公司,尤其是Airbnb使用和推广以后,受到了很多关注。
34 Kyligence:麒麟背后的大数据公司 194
麒麟(英文名字是Kylin)是第一个全部由中国人主导的Apache顶级开源项目,Kyligence则是对这个项目进行商业化的公司。本文就来看看麒麟和Kyligence的故事。
35 Snowflake:云端的弹性数据仓库 200
Snowflake是一个构建在云端的弹性数据仓库,它背后的公司与之同名。Snowflake公司的创始人和管理层都有强大的背景,本文就来讲一下Snowflake及其公司的故事。
36 TiDB:一个国产新数据库的创业故事 205
TiDB是位于北京的一家创业公司PingCAP的产品,它的目标是实现一个开源的类似谷歌Spanner的系统,这个产品非常有特色,本文就来聊聊TiDB和它背后的公司。
37 大数据创业公司的前景:红海vs.蓝海 211
关于创业的市场,通常有红海和蓝海的说法,蓝海容易成功,红海相对艰难。对大数据创业公司来说,蓝海多半指的是应用软件类的市场,而红海指的则是基础架构软件类的市场。本文将对比分析一下这两类市场。
38 如何通过分析企业的技术积累来判断其发展前景 216
通过分析企业的技术积累,能够有效地判断企业的发展前景如何。我们需要关注三个方面:技术适用的场景是否有巨大的盈利空间,技术本身是否有领先和独到之处,以及技术的积累是否足够深和广。