7月28日周日下午,大暑刚过的北京,热得愈加肆意。编者来到在涛思数据联合CSDN举办的「TDengine和他的小伙伴们」的BeijingMeetup现场时,陶建辉正在答观众问。
突然,编者被一位20来岁的小姑娘热心提醒可以坐下听。攀谈几句,得知姑娘是留学伦敦的电子工程毕业生,趁放暑假来这里做志愿者。
不仅志愿者很高大上,涛思数据的团队也很“高配”:3位博士,4位海归。他们最近斩获超级喜讯一枚:仅有十人的涛思数据团队,在GitHub开源的TDengine,连续数天雄踞榜首。
那么,这是怎样的一个项目?又是怎样的一个团队?团队背后的创始人有着怎样的经历?应CSDN邀约,创始人陶建辉亲自撰写本文,为你答疑解惑,赶快往下看吧!
大家在看亿条记录查询的现场演示
作者
陶建辉
责编
胡巍巍
7月12日,涛思数据宣布将TDengine开源,10多万行C代码,包括最核心的存储引擎和计算引擎都上传到了GitHub上。
整整两周时间,GitHub上Star已经超过,Fork数已经超过,在开发者社区中获得的反响远超预期。应开发者要求,7月28日在北京进行了一次线下交流,现场互动十分热烈。
线下活动现场
很多人好奇,为什么一个从没研发过大数据,也没研发过数据库软件的人,能研发物联网大数据平台软件?
而且你怎么想到要开发这样软件的?你三次创业,每次都在跨界,怎么能做到的?
7月28日,我把创业过程中的思考和分析分享出来,供在创业路上的朋友特别是技术型创业者参考。
年初,我上家创业公司快乐妈咪被收购,一下就轻松下来。但总有很多朋友拉我去看项目,有想让我投资的,有想让我加入团队的。
因为我在智能硬件圈子里有一定名气,因此看的最多的还是智能硬件、物联网相关的项目。花了自己不少时间仔细琢磨的有好几个项目。
第一个就是菜市场的智能秤,希望通过智能秤将菜市场的信息流完全打通,打造一个不亚于美团的平台出来;
第二个就是养殖物联网,希望对投料机进行自动控制,对养殖的鱼塘的环境进行监测,通过物联网将饲料、养殖、水产销售打通,形成平台;
第三个是电梯物联网,系统通过监测,由按期保修变成按需保修,而且建立全国性的电梯维保平台。
还有智能家居等好几个,但最终没有一个打动我,让我投入进去。因为我分析这些项目之后,发现他们成功的关键因素,都不是我或者现有团队具备的。
但这些项目让我看到了物联网的前景,看到万物互联是不可阻挡的潮流,一定要抓住。我一个强技术背景,没有多少行业资源的人,能在这股潮流里找到什么样的机会?
我的第一反应就是研发一个物联网平台,但仔细一看,从IT巨头如微软、IBM、Oracle、亚马逊,到工业巨头如GE、Siemens等等,无不有自己的物联网平台,特别是仔细看完GE的Predix,发现自己能想到的东西都被它做了。
再看国内,做物联网平台的公司就更多了,海尔、三一、徐工、阿里、百度等等,就更不用提无数Startup了。心一下就凉了,这个物联网平台是绝不能做了,要做就是瞎折腾,唯一的可能性是紧靠一行业资源,靠行业特性和市场资源取胜,但我偏偏没有多少行业背景和资源。
但在仔细看完很多物联网平台的资料后,终于发现了一丝曙光,那就是数据处理。物联网平台里模块很多,但其中很重要的一块就是数据处理,包括采集、存储、查询、分析和计算,是整个物联网行业里面比较共性的部分,个性化程度不高。
再仔细一看,大部分物联网平台,尤其是国内的,几乎无一例外的用的是Hadoop生态搭建的,用的是互联网行业流行的大数据架构,采集进来的数据先进Kafka,然后分流进HBase/Cassandra/MongoDB等做持久化存储,进Redis做缓存,进Spark/Flink等做流式计算,后面再接应用、大屏展示等等。
虽然我没有真正接触过大数据的处理,但了解这些通用的大数据框架后,我的第一反应就是,Hadoop这套体系太重,至少对于物联网大数据而言如此。
搭建一个平台,居然要好多款开源软件拼接在一起,研发、运维效率会很低,数据一致性很难保证,定位一个问题牵涉的环节太多,很不适合私有化部署。
将各种物联网场景抽象出来,我总结出了物联网数据的十二大特点:
数据是时序的,一定带有时间戳;数据是结构化的;数据极少有更新或删除操作;数据源是唯一的;相对互联网应用,写多读少;用户