Image courtesy of The Everett Collection on Shutterstock.
从LLM改变现代数据堆栈到用于矢量数据库的数据可观察性,这是我对2024年数据工程趋势的预测。“数据和AI领域发展迅速。如果你不时停下来看看周围的情况,你可能就会错过它。” 6park.com
2023年是GenAI的一年。2024年正在成为......另一年的GenAI。但在2023年,团队们争相挂名,而2024年,团队将优先考虑AI模型的实际业务问题。随着重新聚焦,新的重点也随之而来。
在未来的数据领域,涨潮会推动所有船只。而GenAI将在2024年继续崛起,提高数据行业的标准和优先级。
以下是我对数据和AI团队未来走势的十大预测,以及你的团队如何保持领先一步。 6park.com
1. LLM将改变堆栈
这是必然的。毫不夸张地说,大语言模型(LLM)在过去的12个月里已经改变了技术的面貌。从拥有合理用例的公司到试图寻找问题的技术短视团队,每个人和他们的数据管理员都在试图以一种或另一种方式使用生成AI(GenAI)。
LLM将继续在2024年及以后改变,从推动对数据的需求增加,需要新的架构,如矢量数据库(即“AI堆栈”),到改变我们操作和使用数据的方式供最终用户使用。
自动化的数据分析和激活将成为每个产品和数据堆栈的预期工具。问题是:我们如何确保这些新产品在2024年提供真正的价值,而不仅仅是为了获得公关信用而增添一些新的亮点? 6park.com
3. 数据团队将变得像软件团队
最复杂的数据团队正在将其数据资产视为真正的数据产品——包括产品要求、文档、冲刺,甚至是面向最终用户的SLA。因此,随着组织越来越多地将价值映射到其定义的数据产品,越来越多的数据团队将开始看起来——并被管理——像它们所是的关键产品团队。 6park.com
3. 软件团队将成为数据从业者
当工程师试图在不考虑数据的情况下构建数据产品或GenAI时,结果并不好。问问联合保健公司。随着AI继续吞噬这个世界,工程和数据将变得一模一样。没有哪个主要的软件开发会进入市场而不考虑AI——没有哪个主要的AI会进入市场而不需要某种级别的真实企业数据支持。
这意味着随着工程师寻求提升新的AI产品,他们将需要对数据——以及如何与之合作——产生眼光,以构建增加新价值和持续价值的模型。 6park.com
4. RAG将是所有RAGe
在一系列备受关注的GenAI失败之后,为了增强AI产品,对于干净、可靠且经过策划的上下文数据的需求变得越来越明显。随着AI领域的发展和一般LLM训练中的盲点变得痛苦显而易见,拥有专有数据的团队将大规模使用RAG(检索增强生成)和大规模微调来增强其企业AI产品,并为其利益相关者提供可证明的价值壕沟。
RAG在舞台上仍然相对较新(Meta AI在2020年首次介绍了它),组织尚未在RAG周围开发经验或最佳实践,但它们正在逐渐形成。 6park.com
5. 团队将使企业就绪的AI产品操作化
数据工程趋势继续发展——数据产品。毫无疑问,AI是一个数据产品。如果说2023年是AI的一年,那么2024年将是将AI产品操作化的一年。无论出于需求还是强迫,各行各业的数据团队将拥抱企业就绪的AI产品。问题是——它们真的会是企业就绪的吗?
已经过去了(希望如此)只是为了在董事会问起时说你正在集成AI而创建随机聊天功能的日子。在2024年,团队可能会更加复杂,他们将以更好的培训实践来开发AI产品,以创造价值并识别要解决的问题,而不是推出技术以创建新问题。 6park.com
6. 数据可观察性将支持AI和矢量数据库
在亚马逊网络服务(AWS)的2023年首席数据官见解调查中,受访者被问及实现生成AI潜力时他们组织面临的最大挑战是什么。最常见的答案?数据质量。
生成AI在本质上是一个数据产品。和任何数据产品一样,如果没有可靠的数据,它就无法正常工作。但在LLMs的规模上,手动监控无法提供全面而有效的质量覆盖,以使任何AI可靠。
为了真正成功,数据团队需要一个与AI堆栈相适应的、能够在不断增长和动态环境的背景下始终在解决方案、流水线效率和支持AI的流/矢量基础设施的情况下检测、解决和防止数据停机的活跃的数据可观察性策略。而且,这些解决方案需要优先考虑在2024年现代AI可靠性战斗中支持AI的分辨率、流水线效率和流/矢量基础设施。 6park.com
7. 大数据将变小
30年前,个人计算机是一种新奇。现在,随着现代Macbook拥有与2012年Snowflake启动其MVP仓库的AWS服务器相同的计算能力,硬件正在模糊商业和企业解决方案之间的界限。由于大多数工作负载很小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。
特别是对于需要快速扩展的团队,这些解决方案可以快速启动,并且可以通过商业云提供的企业级功能来实现。 6park.com
8. 合理规模将成为重中之重
今天的数据领导面临着一项不可能完成的任务。使用更多数据,创造更多影响,利用更多AI——但降低那些云成本。正如哈佛商业评论所说,首席数据和AI官员被设置为失败。根据IDC的报告,截至2023年第一季度,云基础设施支出上升到215亿美元。根据麦肯锡的说法,许多公司每年看到云支出增长30%。
元数据监控和允许团队查看和合理规模利用的工具等低影响方法将在2024年非常宝贵。 6park.com
9. 冰山将崛起(Apache Iceberg)
Apache Iceberg是由Netflix的数据工程团队开发的开源数据湖表格格式,旨在以更快、更简便的方式处理大规模数据集。它被设计为易于使用SQL进行查询,即使对于具有PB级数据的大型分析表格。现代数据仓库和湖仓将提供计算和存储两者兼得,而Iceberg侧重于提供经济高效的结构化存储,可以由组织中可能在同一时间利用的许多不同引擎访问,如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。
最近,Databricks宣布Delta表的元数据也将与Iceberg格式兼容,Snowflake也一直在积极努力与Iceberg集成。随着湖仓成为许多组织的事实上的解决方案,Apache Iceberg ——以及Iceberg的替代方案——可能会继续增长。 6park.com
10. 回到办公室...让某些人
RTO —— 大家最不喜欢的首字母缩略词。或者可能是他们最喜欢的!说实话,我此刻已经跟不上了。尽管团队对此问题看法不一,但越来越多的团队被要求在至少每周几天返回到他们的隔间/开放式办公环境/灵活工作环境。根据Resume Builder于2023年9月发布的一份报告,90%的公司计划到2024年底执行办公室返聘政策——几乎是2020年春天之后的四年。实际上,几位强大的首席执行官,包括亚马逊的Andy Jassy、OpenAI的Sam Altman和谷歌的Sundar Pichai,已经在过去的几个月里实施了返聘政策。而且似乎在办公室工作(至少是兼职)与完全在家工作相比确实有一些好处。
发现自己属于永远呆在家里的阵营?答案似乎——正如在数据中总是如此——是提供更多的价值。尽管最近的经济逆风对就业市场产生了影响,但数据和AI团队的需求很大。雇主通常会尽力而为,以获取他们并留住他们——尽管一些公司正在要求所有员工无论角色如何都返回办公室,而像Salesforce这样的公司则要求非远程工程师减少到更少,每季度总共10天。 6park.com
Barr Moses
贴主:laosanjie于2024_01_30 10:33:17编辑