大家好,我是负雪明烛。

我最近在跪读一本神书: 《数据密集型应用系统设计》 (大名鼎鼎的 DDIA)。文末有阅读指南和资料分享。

图片

这是怎样一本神书?豆瓣评分高达 9.7 分!

图片

什么是「数据密集型应用系统」?

当数据(数据量、数据复杂度、数据变化速度)是一个应用的主要挑战,那么可以把这个应用称为数据密集型的。与之相对的是计算密集型——处理器速度是主要瓶颈。

其实我们平时遇到的大部分系统都是数据密集型的——应用代码访问内存、硬盘、数据库、消息队列中的数据,经过业务逻辑处理,再返回给用户。

图片

很多应用都是在解决不同场景下的数据存储和检索问题——MySQL,Redis,HBase,Kafka,ElasticSearch……

还有很多技术是围绕着数据展开——索引,编码(JSON, XML, Thrift, ProtoBuffer),行列存储……

当数据在分布式处理时,要考虑——数据复制,分区,事务等等。

只要是个程序员,就肯定跟数据打过交道,也都或多或少对上述软件与技术有所了解。

我之前在阿里巴巴的主要工作就是处理数据,但我对数据相关的技术只是处于「看山是山」的阶段,远远没有达到融会贯通的地步。

当我们学知识的时候,往往都是分门别类地学:这本书讲 MySQL 的,那本书讲 Redis 的。这种学习方法使知识割裂,很难让我们掌握不同的技术之间的区别和联系。

在购物网站上搜「数据库」出来的基本都是某种数据库的用法。

《数据密集型应用系统设计》这本书,把所有跟「数据」有关的知识点做了剖析、整理、总结,从一个很高的层次把各项技术的共性和区别讲得透彻。  当我们懂了底层原理之后,就明白了每项技术产生的背景是什么,解决了什么问题,有什么适用场景。

这本书既有理论也有实践,基本没有公式,图很多,阅读起来很流畅,一点也不枯燥。

这本书分为了三部分:

  • 第一部分:数据系统的基石,包括数据模型与查询语言、存储与检索、数据编码与演化;
  • 第二部分:分布式数据,包括复制、分片、事务、一致性与共识;
  • 第三部分:衍生数据,包括批处理、流处理、数据系统的未来。

image.png

第一部分的第三章「存储与检索」真是精华,从一个最简单的数据库开始,越讲越深入,把常见数据库的存储与检索方式都讲完了。按照第三章的讲解,可以自己动手实现一个数据库,并且这个项目是能写到简历里面的。

我在读《数据密集型应用系统设计》的时候,一边读,一边做笔记。虽然读得比较慢,但是收获确实很多。这种神书根本就读不快啊!里面到处都是我从未看到过的知识点,只能一边读一边思考。不过,这时间花得值,解决了之前我对「数据」的理解只浮于表面、而没有深究的问题。

图片

强烈推荐《数据密集型应用系统设计》这本书!大家在阅读的同时也做好笔记,增加知识与大脑的「摩擦」可以记得更牢哦!

这个专栏,就是我的阅读笔记,我是把全书的内容重点摘抄了一遍。采用一问一答的形式,并且用列表形式整理了原文。

笔记的内容大概是原文的 1/5 ~ 1/3,所以你如果没有很多时间看书的话,看我的笔记也就够了!

阅读指南

这本书比较厚,概念也比较多,而且很少有代码,基本都是在讲逻辑,因此有些「太干了」。

我给出一些阅读的建议和资料,供大家参考。

阅读建议

首先,我强烈建议买书!中文版的翻译比开源翻译强很多。开源翻译的有很多错误,而且不符合阅读习惯。比如数据库中 「join 操作」,在开源翻译成了「连接操作」,而中文版的书里确实写的是「join 操作」。

在阅读中文版书籍的时候,也发现了书中的一处翻译错误,所以最好还是读英文版。

我在阅读的过程中,也参考了这本书的英文版,不得不说,英文原版是最流畅、最准确的!有能力的同学都去读英文原版!

推荐的阅读选择为 《DDIA 英文版》 > 《数据密集型应用系统设计中文书籍》 > 开源翻译仓库

另外,这本书的内容大而多,每一章都可以成为一本单独的书。如果你时间精力有限,不妨阅读你感兴趣的重点章节。

  • 如果你对数据的编码、存储感兴趣,可以阅读第 1~4 章;
    • 这些是比较基础的内容,解密了数据库的原理,对工作比较有帮助
  • 如果你对分布式系统感兴趣(如分布式复制、分区、事务等),可以阅读第 5~9 章;
    • 这部分内容比较偏向于概念和思维,挺抽象的,属于进阶内容,帮助拓展思维(和准备面试)。
  • 如果你对大数据计算(批处理、流处理)感兴趣,可以阅读第 10~12 章。
    • 这部分内容工程实践比较强,如果你工作中用到了 Spark, Flink 等,可以在这些章节了解它们的原理

阅读这本书要什么前置知识吗?

  • 我觉得不需要哈,前 4 章还是比较通俗易懂的;分布式部分有点难理解,但是认真看也能看懂。
  • 最好了解过一些基本的概念,比如哈希表、B+树、JSON、ProtoBuffer 等。

阅读资源

这是一些阅读资源:

辅助资料

ddia-references

这个仓库包含了《数据密集型应用系统设计》每章后面的所有参考文献对应的 pdf。

地址是:https://github.com/ept/ddia-references

Book Review

这里有个很不错的 Book Review,是一个小哥讲了《DDIA》每一章的概述,作者很用心。

全英文的,在油管可以看到。地址是:

https://www.youtube.com/watch?v=PdtlXdse7pw&list=PL4KdJM8LzAMecwInbBK5GJ3Anz-ts75RQ

MIT6.824

看这本书的时候,你可以结合 MIT6.824 分布式系统课程。油管上这门课程的视频版本,地址:

https://www.youtube.com/channel/UC_7WrbZTCODu1o_kfUMq88g/videos

这门课程是全英文的,英文字幕。

在 B 站有这个课程的中文字幕翻译合集,地址:https://www.bilibili.com/video/av91748150

这门课程的中文文字版,地址:https://mit-public-courses-cn-translatio.gitbook.io/mit6-824/

读书经验分享

找到了油管上的一个 DDIA 读书分享,大概讲了这本书每章节的主要内容。不过分享者的普通话不是太好,有兴趣可以看下,https://www.youtube.com/watch?v=5G_JHHSvmS0

第三章辅助资料

第三章讲解数据存储与检索,我们常说的 mysql,leveldb 的基本原理都能在这里找到。

https://mp.weixin.qq.com/s/sK2qqYCM-dZJTbbFn-23zg

https://mp.weixin.qq.com/s/w1ZFOug8-Sa7ThtMnlaUtQ

第五章辅助资料

这篇文章异地多活的文章,讲了分布式下怎么搞数据复制,能明显看出是参考《DDIA》写的。文章很不错,推荐阅读。

https://mp.weixin.qq.com/s/T6mMDdtTfBuIiEowCpqu6Q

交流

您可以在评论区中交流,也可以关注我的 gzh:负雪明烛。

你觉得这本书怎么样?可以在评论区中给我留言。

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐