今天正好和以前的一个老朋友通了个电话,他在创业,其实做的还可以,业务发展的也不错。但是做互联网服务,尤其是内容服务,不可避免的需要譬如推荐,搜索,精准推送等功能,而这几个功能,又比较依赖大数据和AI相关的体系。举个最简单的例子,获取用户访问行为,然后做个协同,然后推荐时需要把用户看过的内容过滤掉,就这个可能就需要Flume,Kafka,流式引擎等,更别提然后还要归档日志(或者进入数仓)了。我以前就说,大数据是个流程和模式,不是一定要数据大才需要。

但是呢,他们这个阶段有几个地方非常尴尬:

  1. 对硬件资源成本非常敏感
  2. 没有大数据/AI基础,缺人缺硬件

【毕竟现在资本疯狂的年代已经过去,很多创业公司没办法大手笔的花钱了。】

他们用云,但是又用的很谨慎,因为【 硬件资源成本】的账单起伏对他们来说,太敏感,云厂商的各种付费模式(按计算资源,按条数,按内存,按存储等等)让他们蹑手蹑脚,本来就不太熟悉大数据,一不小心搞下,就花了几千上万,他们的工程师压力太大了。还有就是云厂商提供的各种智能API接口,按调用次数付费,工程师们压力也很大,业务上来是开心,但是调用量上来了,费用成本也上来了。

所以,他们其实需要的是:

  1. 硬件账单是稳定的,所以比如OSS/ECS就非常的好,使用时账单很稳定,而类似MaxCompute,ODPS,PAI这些,就非常不友好,你没办法控制好账单,一个失误可能就挺要命的。
  2. 因为前面的问题,就导致他们很难用云厂商提供的各种计算服务以及API。在创业初期,这些东西带来的价值是小于成本的。但是他们又缺乏响应的数据和AI的人才,他们可能相对充足的是Web研发工程师,所以传统的Hadoop集群,组件太多了,Kafka,HDFS,Yarn,Zookeeper等等,每一个都需要学习和维护。

所以他们真正的需要的是一个基于ECS的开箱即用的“一把梭”的数据处理工具加云端的分布式存储。

  1. OSS
  2. Compute Engine based on ECS

解决的痛点在哪呢?

  1. 成本稳定。 你可以买一个T的OSS,然后要10个特定规格的ECS实例。这个价格是固定的,不会忽高忽低的。
  2. 不需要部署,服务提供方帮你部署好。

基于这个Compute Engine,研发经过一定的学习,完成所有推荐系统,精准营销所需要的数据和AI需求,

所以你就知道为什么Databricks公司的那套Analysis的价值了吧。他妥妥的满足了上面两个需求。其实不仅仅是小公司,大公司也喜欢这样,因为大家都喜欢成本是稳定的东西。

大家可能会好奇,难道你不需要数仓建设,需要Hive? 提起大数据就提数仓是不对的,我之前写过文章数据部门起步阶段需要建立数仓么?里就提到,确实不需要,尤其是我前文提到的阶段。我们只要能把数据写入到OSS,然后通过ComputeEngine 加工,然后将数据写会OSS,写回到Redis/MySQL等业务常用的存储引擎就可以了。That’s ALL. 这个过程你可能做ETL,做流,做AI模型训练,其实已经涵盖了大部分诉求了。

总结下,中小企业要走好数据和AI,前期其实最好是使用一个“一把梭”工具,对于云厂商的功能,去使用那种稳定付费模式的,比如OSS存储和ECS就够了。这种在结合业务,同时最小化和稳定化成本的模式,可以将价值极大化,避免承受太多成本压力。

恩,看样子我要写一篇MLSQL Stack如何部署在阿里云,并且以OSS为存储的文章了。

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐