全球最强开源模型,一夜易主!超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX,超越了Llama 2、Mixtral和Grok-1。
它采用了细粒度MoE架构,这种架构让推理速度比LLaMA 2-70B快了2倍!最重要的是,训练成本直接砍半!只用了1000万美元和3100块H100,Databricks就在2个月内推出了DBRX。比起Meta开发Llama2所用的成本和芯片,这是非常小的一部分。
早在2023 年 3月,Databricks 就跟着 ChatGPT 的风推出了开源语言模型 dolly。
根据睿兽分析数据显示,Databricks自从2013年成立以来共完成了11轮融资。最近的两轮融资发生在2023年,2023年3月获得了来自Vantage Legacy Capital的H+轮投资;9月完成了由T. Rowe Price领投,A16z、Tiger Global Management 老虎环球基金、英伟达、微软等14家机构公司参投的I轮融资,投资金额6.85亿美元。本轮融资过后Databricks估值高达430亿美元(约合3000亿元人民币)。
Databricks公司诞生于2013年,由一群与学术界和开源社区有着深厚渊源的人士创立的。
包括现任CEO Ali Ghodsi在内的七位创始人是UC Berkeley的AMPLab研究员。值得一提的是,Databricks公司的其中一位联合创始人辛湜来自中国,毕业后先后在谷歌和IBM从事系统开发工作,后到加州大学伯克利分校攻读计算机博士学位。
他们构思了Apache Spark,这是一个用于大规模数据处理的开源统一分析引擎。在大规模数据工程、数据科学和机器学习方面起着重要作用。
Databricks以其lakehouse平台而闻名,这是一套数据仓库和数据湖的组合,可以在单一平台上统一数据、分析和AI部署,以便客户管理企业数据、产生洞察,并快速构建自己的生成式人工智能解决方案。其客户包括AT&T、壳牌、Walgreens等大公司。
尽管谷歌等巨头过去一年里部署了AI,但行业内的许多大公司,还没有在自己数据上广泛使用大模型,这让Databricks意识到金融、医药等行业的公司渴望类似ChatGPT的工具,但又担心将敏感数据发到云上。
于是他们产生了为客户定制大模型的想法。为此,Databricks还在去年6月以13亿美元的价格,收购了AI初创公司MosaicML,开始训练大模型。DBRX一推出就成为“最强”开源大模型。
Databricks的首席神经网络架构师 & DBRX 团队负责人 Jonathan Frankle 曾经是 MosaicML 的首席科学家, Databricks 收购了 MosaicML后, Frankle 辞掉了哈佛大学的教授工作,专心开发 DBRX。
DBRX在语言理解、编程、数学和逻辑方面轻松击败了开源模型LLaMA2-70B、Mixtral,以及Grok-1。另外,与闭源模型GPT-3.5相比,DBRX Instruct的性能全面超越了它,甚至还可与Gemini 1.0 Pro和Mistral Medium相较量。
伴随着DBRX的推出,问题也随之而来,作为迄今最强的开源大模型,任何人都可以使用或修改,这是否会带来不可预知的风险,比如被网络犯罪或者生化武器滥用?Databricks表示,已经对模型进行了全面的安全测试。Eleuther AI的执行主任Stella Biderman说,几乎没有证据表明开源会增加安全风险。
目前,企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。而开源社区可以通过GitHub存储库和Hugging Face访问DBRX。
Databricks通过DBRX向Meta、谷歌、OpenAI等AI公司发起挑战,随着AI领域的竞争日益激烈,Databricks将成为一个重要的竞争者。