江苏永乐高·(中国区)官方网站机械有限公司
您当前的位置 : 永乐高·(中国区)官方网站 > 机械自动化 >


2024年度数据库回首

2025-04-02 07:32

  OtterTune 的死让我很唏嘘,但也是一段宝贵履历。我很侥幸曾跟良多伶俐人一路共事,也很感激 Intel Capital[145] 和 Race Capital[146] 一曲支撑我们到最初。我接下来可能会再搞个新创业项目(提醒:仍是跟数据库相关)。

  •Amazon QLDB连 Amazon 都搞不下去一个区块链数据库(好吧它其实也不算实正的去核心化区块链),那就申明这个标的目的实不可了。•OtterTune这个是我、Dana[120] 和 Bohan[121] 花了快十年精神搞的科研和创业项目。成果现正在还得说再见。对某家正在最初阶段“对我们不厚道”的公司,我只想说:你们永久被从 CMU-DB 招人。你们晓得本人干了啥。

  CedarDB Umbra[94] 绝对是目前最前沿的数据库系统之一,并且听说背后那位大神恰是“世界上最牛的数据库研究员”[95]Thomas Neumann[96]。但人家 Thomas 似乎只想安心待正在大学,把 Umbra 堆到 Clickbench[97] 榜首,不想给任何“烦人顾客”打工。所以他的一些博士生就把 Umbra fork 出来贸易化,给它取名 CedarDB。

  可风投老爷们可不做慈善,他们要回本,还要拆满本人的“荷包子”。于是这些数据库公司纷纷推出云上托管办事。但云的存正在让源码数据库的贸易模式变得相当棘手:系同一旦火了,雷同 Amazon 这种云大厂就会把你的软件打包成他们自家的云办事,赔得比你这家实正开辟软件的公司还多。为了防止这种事儿发生,良多数据库公司起头换更严酷的许可证,目标就是防止云厂商抄功课。MongoDB 正在 2018 年[7]就曾经带了个头,改用了 SSPL(Server Side Public License)[8]。

  不外这种合作对用户来说是功德。狼多肉少,才能逼着手艺前进、价钱往下走。就像 Snowflake 现正在把 Polaris 也捐给了 Apache[68],这不就是多一分隔源、多一些平价选择嘛。可别整成过去 Oracle 和 SalesForce 那种“两个土豪 CEO 互相喷口水”,大把烧钱然后用户也没啥现实益处。

  老冯评论:关于 MySQL 的糊弄,躺平摆烂,缺陷取过气,我曾经说过不少了,合订本请看这里。诚恳说,我曾经懒得再写这些曾经算是 “共识” 的工具了。

  老冯评论:国内开辟者李红艳还有一个 DuckDB FDW 是另一个 Andy Pavlo 没有提到的 DuckDB 缝合玩家。起了个大早,占领了一个相当奇特的生态位。(同样正在 Pigsty 中可用,可惜取 pg_duckdb 不克不及同时安拆)Andy 的见地。

  然而 Snowflake 和 Databricks 这一仗,曾经扩展到数据库周边生态:从怎样把数据灌进数据库,到接下来怎样处置数据,再到大模子和 AI 线。这岁首,列式引擎跑阐发曾经算是大货[66]了,Databricks 和一众 OLAP 厂商都正在押着 Snowflake 的 2013 年设想思走——其时就是基于 Snowflake 创始人之一的 博士论文[67]。现在更主要的是用户体验(难以量化和收费)、取其他东西的兼容,以及 AI / LLM 的点睛之笔。

  但线 月发生的一件事——Larry 赞帮了密歇根大学橄榄球队招徕一个超等牛的大学四分卫[137]。这名球员原先正在易斯安那州立大学,后来转学去了密歇根。那份校方的声明还出格感激了“一位名叫 Larry 和他老婆 Jolin 的捐帮人”。成果挖出[138]这个 Larry 就是甲骨文老板 Larry Ellison!他豪捐了 1200 万美元给校友会,用于请到最牛的四分卫来密歇根打球。

  来岁很可能是良多数据库草创公司力量的试金石。没人想沦为下一个 MariaDB Corporation[130]……所以良多公司都想等 Databricks 上市时带动整个数据库板块的热度再 IPO。若来岁利率线],可能又会一波资金,砸向那些两三年前就融过大钱但一曲没上市的公司(如 CockroachDB、Starburst、Imply、DataStax、SingleStore、Firebolt 等)。此中一个破例是 dbtLabs,传说风闻他们现正在仍然挺爽的。

  奇异的是,Redis 和 Elasticsearch 改证激发的反弹似乎比其他改证的数据库大多了。像 MongoDB、Neo4j[37]、Kafka[38]、CockroachDB[39] 等等,它们改证时,社区仿佛没有顿时都要分支“闹”。也没见大规模分叉。那为啥 Redis 跟 Elasticsearch 就炸了锅?拆机量大必定是一方面,可当初 MongoDB 和 Kafka 的用户基数也不小啊。我猜 Redis 的问题是:大师感觉 Redis Ltd。 这种“拿别人工具来赔本”的感受很不爽,由于创始人早就分开了,而公司这连续串操做,让大师感觉他们对社区的贡献并不婚配他们获得的收益。别的,从 Redis 代码库提交记实[41]看,互联网大厂(好比腾讯、阿里)也有不少贡献,所以现正在公司俄然一刀切,也难怪大师炸毛。这跟 2023 年 HashiCorp[42] 改 Terraform 许可证被疯狂吐槽一样,都是 “占了社群盈利,却要反过来控盘”的嫌疑。

  老冯评论:VictoriaMetrics 现正在曾经占领了高机能 Promethues 的生态位,成为高机能 APM 时序数据库的现实尺度。收购案?。

  这场数据库大和曾经不只是比谁跑得快那么简单。它不像 90 年代 Oracle 和 Informix 的对轰,那会儿拼的就是 SQL 查询速度。确实,Informix 昔时除了做基准测试还搞了讼事[63]告 Oracle,说 Oracle 挖他们高管,成果最初本人撤诉了[64]。更惨的是 Informix CEO 后来还被爆出做财政制假,虚报营收目标来显得比 Oracle 牛,最初 被[65]坐了两个月牢。

  说实话,我不怎样喜好 Redis。它跑得不敷快,所谓事务[34]也比是个冒牌货,查询语个怪胎。我们正在 CMU 做的尝试发觉 Dragonfly[35] 的机能数据更优良(即便只用单核 CPU)。我正在数据库课程里常拿 Redis 的查询言语来做负面典型讲授(“该怎样写才不会这么难看”[36])。不外,我也理解 Redis Ltd。 被 Amazon“骑脸”的尴尬。但我感觉 Redis Ltd。 高估了“沉写一个 Redis”这件事的难度——Redis 是个简单的系统,要做替代品没啥难度(不像实现完整功能的 Postgres 那样离谱),所以他们这个姿势会不会让社区感觉受不了?

  归根到底,云时代,开源数据库公司(ISV)能不克不及活得下去确实很难。云厂商有钱又有资本,只需他们想,把你的开源数据库拿去当个插件就行,好比 AWS 把 InfluxDB v2 和谈[43]给移植到他们本人的 Timestream 上,分分钟抢用户。再者,他们还能够像 Bushwick Bill 前女友一样,对着你的眼睛就是一枪[44],像 AWS 现正在间接推出兼容 Valkey 的办事,并且号称比兼容 Redis 的办事廉价 30%[45],这波釜底抽薪简曲太狠。

  Google Bigtable 最成心思的是,这货正在 2024 年支撑了 SQL……想昔时 NoSQL 活动的前锋,现在又加回 SQL 了,也是略有。

  之前那些给 Postgres 加列式存储的方案(好比 Citus、Timescale),只是处理了“存储格局”这一部门问题。可若是引擎本身还行式处置[90],那究竟仍是不敷。DuckDB 把列式存储和向量化施行流程都带到了用户面前。

  Elasticsearch 的环境大同小异:公司颁布发表改许可证,外面就冒出一个开源分支,公司又只好兴冲冲改回开源,但其时的热闹劲儿也曾经过去。

  2024 年 3 月,Databricks 先开了一枪,颁布发表花了 1000 万美元锻炼了一个自家开源大模子 DBRX[46],具有 1320 亿参数。开辟团队就是他们正在 2023 年花 13 亿美元收购的 Mosaic[47] 团队。成果一个月后,Snowflake 也搞了个 Arctic 开源大模子[48],有 4800 亿参数,号称只花了 200 万美元就把它锻炼得能 DBRX,特别正在“企业场景”诸如从动生成 SQL 方面更强。你能看出 Snowflake 居心把本人跟 DBRX 对比,一副“我就是要怼你 Databricks”的气焰;他们以至认可有其他模子(好比 L3)跑得比本人还猛,但就是硬要对比 DBRX。某位 AI 研究员说为什么Snowflake 天天盯着 DBRX 不放[49],而不跟此外大模子比?他大要不晓得这俩数据库厂都流了几多血了。

  我对 Larry 的最新成绩实是打心底里。他本身连大学都没结业,跟密歇根大学本来一点关系都没有,却由于他现任太太十年前正在密歇根读过书,就情愿掏上万万美金去帮手挖来橄榄球明星,也就占他净资产的 0。0055%……我跟他说,这事对我来说也很意义不凡,由于我以前的头号博士生[141]现正在是密歇根大学计较机系的传授,并且那儿的数据库小组[142]也很牛。

  PS:还想给 ByteBase 点个赞,他们写了篇《2024 年数据库东西回首》[151]。往年他们城市先发邮件问我,能不克不及把我那篇年度回首翻译成中文放正在他们博客。本年他们等不及了,间接用了同样的题目和套本人先写了一篇,不外也挺成心思哈哈。

  之后大师都猎奇的是这位 “Jolin” 到底是谁。有人翻出过去 Larry 正在网球场不雅和时跟一个戴密歇根帽子的密斯[139]合影的照片。两周后,某家大凌晨 5!30 放出猛料(把我从梦里吵醒),[140]那位密斯叫 Jolin (Keren) Zhu,并且她就是 Larry 的新任妻子。

  MySQL v9距离 MySQL v8 GA 曾经过了六年,成果大师发觉当数据表跨越 8000 张[103]就会崩……我对这个新版功能列表(链接[104])实的提不起劲。Oracle 自家把更多资本放到闭源的 MySQL Heatwave[105] 办事上。MySQL 的利用量仍然很大,但会商热情较着不如畴前,大师根基都转投 PostgreSQL 的怀抱了。

  Prometheusv3 距离上个大版本曾经七年。这期间呈现了一大堆兼容 Prometheus 的替代品(参考这里[106]),所以也不必然非得用原版 Prometheus。

  此次 Redis 改许可证激发了敏捷的反弹[15]。统一周就冒出了两个基于 BSD-3 旧代码的分支[16]: Valkey[17] 和 Redict[18]。Valkey 出自 Amazon,但 Google 和 Oracle 的工程师随后也插手了进来。Valkey 项目仅用一周就被 Linux 基金会[19]纳入麾下,一大波大厂转而支撑它。取此同时,Redis Ltd。 又正在商标上玩花活儿,还把某些开源 Redis 拓展项目标节制权收走[20],弄得大师都感觉公司黑乎乎的。

  Databricks 和 Snowflake 之间的互怼仍然火力全开。这俩大厂的恩仇情仇,绝对是一场“典范数据库之和”,曾经从机能打到了生态、从台面斗到了。

  老冯评论:Amazon Aurora DSQL 号称本人 PostgreSQL 兼容,可是从他们文档中不支撑的 PostgreSQL 特征列表来看,我认为他们该当利用更务实的说法 —— PostgreSQL 线缆和谈(WireProtocol)兼容。 总的来说这也从另一个角度反映出 MySQL 确实过气了,由于好久以前 AWS 这种新品都是 MySQL 先上,此次连影子都没有了。Andy 的见地!

  Amazon Aurora DSQL目前息不多,只晓得它是个 “Spanner-like” 数据库,AWS 本人的Mark Brooker[92] 也只说了点架构:用分布式日记办事(听说是基于曾经下线的 QLDB),加上 Time Sync[93] 实现雷同“时间戳排序”。感受 AWS 也晓得 “Aurora” 这牌子很是响,所以给这全新数据库也挂了 Aurora 的名号,其实跟原先的 Aurora Postgres 似乎没啥关系。

  话说回来,本来我想做个 “turducken(火鸡、鸭子、鸡三合一)”的梗,再共同 Postgres 的意味“大象”,可想想我还得保住饭碗,免得学校 找我麻烦[91],仍是算了。

  目前我又回到卡内基梅隆大学全职当传授了,和 Jignesh Patel[147] 有几个“大杀器”研究项目预备出炉。这个学期我还要开一门查询优化[148]的新课,但愿能打制出高质量的“数据教程”。得想法子提拔我的学术影响力,由于 2024 年 9 月那帮人还把我条目给删了[149],说我援用数不敷……实有点烦末路。

  Microsoft Garnet这是 MS 出的键值库,号称是 FASTER[102] 的继任者,兼容 Redis,支撑多线程并行、支撑大于内存的数据集,还有实·事务。Redis 正在 2024 年还实别当啥首选了。

  老冯评论:《》,虽然 Redis LTD 这家公司本身整的烂活也不怎样样,但更该当的是过时的 OSI 取白嫖开源的公有云厂商。Elasticsearch!

  Databricks 本年再一次把数据库圈的融资总额甩正在死后,狂砸100 亿美元 J 轮[125],之前 2023 年的 5 亿美元 I 轮[126] 和 2021 年的 16 亿美元 H 轮[127]都曾经够惊人了。此次不太一样的是,听说这轮钱是拿来给老员工变现的(“二级市场收员工的股”[128])。好几位 CMU-DB 校友都正在 Databricks,包罗我已经的头号博士生[129],他们中的良多人正等着 Databricks 上市好套现,看下一步人生去哪儿。

  DuckDB 的便携和轻量,让它正在 Postgres 社区倍受欢送。虽说 ClickHouse[85] 从 2016 年就有了,但以前想摆设 ClickHouse 并没 DuckDB 那么简单(参考他们回首摆设难度的文章[86])。并且通过把 DuckDB 嵌到 Postgres 里,还能同时接驳 Iceberg、S3 等等,不消额外拆其他插件。这让良多组织轻松获得高机能阐发能力,而不消上高贵的数据仓库。

  过去这一年里发生了不少事,从 10 位数的收购案、厂商四处撒泼乱改许可证、再到某位超等有钱的数据库界八旬老夫为了逃求新、砸钱撮合大学橄榄球明星等传奇故事,好不热闹。

  我们身处数据库的黄金时代。各类优良的(关系型[6])数据库数不堪数,合用于各类使用场景。良多软件都开源了,而背后则是拿了风投的公司正在运营。

  看起来只是个许可证的变更,但背后是数据库圈的巨额好处胶葛,并且还只是两个系统的故事!我都还没提到 Greenplum,他们 默默关停[32] 本人了 9 年的开源仓库,转为闭源,但没人留意到,由于估量也没几小我现正在还实用 Greenplum。另一家正在开源转闭源上翻车的,还有 Altibase[33],那是正在 2023 年干的事。

  你可晓得谁正在本年送来 80 大寿?恰是我们传奇的 Larry Ellison!是的,这位认命、给本人设限的狠脚色,又正在这一年创下了一系列。本年他富到本人都快挤进 世界富豪榜前三[133]。2024 年 3 月,Oracle 股价疯涨,他一天就赔了 150 亿美元[134]。拿到钱后,7 月他又花 60 亿[135]把派拉蒙影业买给他儿子(第三任妻子所生)。接着他又以 2。77 亿美元[136]正在棕榈滩买了个度假村,只当小玩意儿收着。别忘了,这些都只是他 2024 年的花钱小插曲,背后都是靠数据库发家致富啊。

  过去这一年,许可证的变更就像海上的风暴,翻腾得厉害。而此中最受关心的两大事务,非 Redis™ 和 Elasticsearch 莫属。

  Andy Pavlo 颁发于 2025 年 1 月 1 日,译评:冯若航 就像俄然有人一记“脑瓜冲天炮”般曲击(这里有视频佐证[1]),我又来了!为大师送上我每年的数据库大乱斗总结。没错,以前我是正在 OtterTune[2] 的博客上写这些工具,然而公司曾经 Game Over(愿它安眠)。现正在我就跑回本人的传授小我博客来搞事。

  老冯评论:我帮帮 ParadeDB 打好了所有 Linux 上的二进制包,他们的创始人 Noel 已经问我 PostgreSQL 阐发引擎该当怎样做,我说:赶紧去缝 DuckDB 吧。他们是仅次于 duckdb_fdw 后第二个入阵的玩家。

  就像做正在线营业时,首选数据库是PostgreSQL一样,现在做阐发时的 “默认之王” 就是 DuckDB。以前大师可能还会说用 Pandas,但现正在几乎一启齿就是“DuckDB 走起”。这货出格简便,所以良多人想把它塞进那些本身对 OLAP 支撑不是出格好的数据库。本年,我们就看到四款把 DuckDB 集成到 Postgres 的扩展接踵表态。

  出格要给 Andres Freund[122] 点赞,他正在 2024 年发觉了 xz backdoor[123] 这个平安缝隙。这个后门是暗藏了两年[124]的,方针是一个普遍利用的压缩库(xz),次要想搞 SSH,可是却被 PostgreSQL 提交者发觉了 —— 这提示我们——数据库工程师实的是身怀绝技的工程师。

  最初提示列位,我们还正在支撑 DJ Mooshoo[150] 兄弟,他现正在正在库克郡蹲着呢,但愿 2025 年能把他捞出来。

  至于 Postgres 的扩展机制,那实是强大。“可扩展”一曲是 80 年代 Postgres 设想方针[87]之一,人家就是要支撑新存储引擎、新数据类型等等。2006 年当前又引入了各类“钩子”API。我们正在 CMU 的研究[88] 里发觉,Postgres 拥无数据库里最繁荣、最百花齐放的扩展生态。当然,也有副感化:扩展之间可能互相冲突,导致奇奇异怪的错误[89]。

  老冯评论:正在《》专栏中,我已多次聊过这件事了:公有云 PaaS 云软件白嫖开源软件(数据库)的是,必将招致反噬 —— 而这将成为这个时代的行业焦点议题。好比:Databricks vs。 Snowflake 的陌头帮派混和还正在继续。

  老冯评论: PG 生态的 DuckDB 缝合大赛,算是一件干脆就是我放火点燃的赛事。岁首年月的一篇《》 传遍整个 PG 社区,成功的将 OLAP DuckDB 缝合鞭策成为了一场如火如荼的合作。关于 DuckDB 缝合大赛的评论,请看拙做:《》。 我认为 PG OLAP 扩展生态很快会呈现雷同 PGVECTOR 的爆款扩展,就正在以上几个选手中降生。(目前我比力看好 pg_duckdb 取 pg_analytics)不管怎样样,这些扩展目前 全数 都正在我的 中收录。开箱即用!即便你不消 Pigsty,也能够利用?。

  本来我想开篇一下,说这是我三年来第一次跨年没生病。成果我亲闺女把 COVID 传给了我,我只好抱着处方药躺平。好正在之前 9 月打过加强针,大夫又给开了 Paxlovid,该当不会有大碍。

  老冯评论:《》其实缘由也很简单,ES 如果再不改许可证,生态位就会被 Tantivy 换皮和 Grana 完全占领了。Andy 的见地。

  更让人冲动的是,Larry 再一次正在恋爱里找到了感受!现现在,约会软件八门五花,却也都难找到实爱。良多人线下勾当也尴尬,以至有人想正在操场守株待兔成果被当做“怪蜀黍”。就算好不容易赶上对方,可能又因一些小弊端(好比不爱洗袜子,或者喜好往麦片里加辣酱)而崩盘。所以当初人人都说 Larry 第四任婚姻(2010 年离[143])之后不会再成婚;然后他正在2020 年跟第五任[144]也分了,大师更果断他不会再进婚姻。他仍是找到了实爱,此次是第六任——Keren Zhu!




建湖永乐高·(中国区)官方网站科技有限公司

2025-04-02 07:32


标签

本文网址:

近期浏览:本新闻您曾浏览过!

相关产品

相关新闻



0515-68783888

免费服务热线


扫码进入手机站


网站地图 |  | XML |       © 2022 Copyright 江苏永乐高·(中国区)官方网站机械有限公司 All rights reserved.  d25f324a-5149-4fe5-b916-0dbe332c8bd0.png

  • 网站首页
  • 咨询电话
  • 返回顶部