大数据、云计算等技术在近几年得到迅猛的发展,但是在实际操作层面,中美之间还存在很大差距。国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主,而在美国,很多企业已经开始分析非结构化数据,中国市场仍缺少这方面有效的分析工具。
据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
位于硅谷的Taste Analytics推出综合智能数据分析平台—— Signals,其最独特的地方在于既具备非结构化文本文档数据的深度分析能力,同时也支撑着各种传统的结构化数据 (报表、销售记录等)。
那么,什么是非结构化数据?
非结构化数据主要是指那些无法用固定结构来逻辑表达实现的数据,简单来说就是用户散落在论坛、微博、微信或其他渠道发表的关于产品的各种评价或吐槽。
从形态上,它主要包含这三大块:
第一是文本文字;
第二是图像、图片等;
第三是视频流、电视流。
对比一下或许更有助于理解,非结构化数据和结构化数据最本质的区别包括三个层面:
首先,非结构化数据的容量对比结构化数据要大,可以达到10几倍甚至几十倍的体量;
其次是产生的速度,比如Twitter刚出来的时候,每天产生一亿条的信息量,新浪微博的信息量更大,可以达到几十亿条信息;
最后是数据来源的多样性,这些数据来源有客服、邮件、调查问卷、社交网络等等。
因此,signals平台服务的对象不是企业的 IT、数据库,而是商业人员,例如市场营销,客服、信息洞察员、产品优化改进设计人员等。
以手机厂商为例,Signals通过对客户的邮件反馈、在论坛的相关讨论、微信、微博等相关评价信息分析,告诉设计师用户普遍反映电源键的位置设计很不人性化,手机开屏经常掉帧等等,从而进行产品优化。
非结构化数据既然这么复杂,那怎么分析?
Taste analytic主要是通过如下几个步骤进行非结构化数据分析的:
第一,数据采集,帮助企业更快更全的采集到各类数据。
signals集成了上百个数据接口,包括亚马逊、天猫、Salesforce,ZenDesk, Esty, Yelp、Twitter、Facebook、Apple Store、Google Play Store等,并且这个数字还在飞速扩大,根据taste analytic创始人汪晓宇的介绍,他们正在和国内的第三方数据提供商聚合数据、百分点等进行合作,将为中国客户提供更多本地化的数据。
非结构化数据接入口
第二,数据分析,也就是对于非结构化和结构化数据进行深度机器分析。
signal通过深度学习非结构化的自然语言,根据用户的用词、造句、行文方式来理解文字含义,通过对大范围的用户、上千万个消费点进行聚类分析。目前Signals平台具备成熟的实时分析包括中文在内的12种文字以及语音等非结构化数据的能力。
此外,Taste Analytics的服务适用于各种非结构化数据分析场景,只要有聊天记录、对话记录和邮件记录,就可以和数据源直接对接分析。
从各种维度进行分析
第三,将数据进行图像可视化。
Signals平台会把数据分析结果进行可视化输出,为客户提供10余种图像可视化模式,并且支持客户自定义分析,共包括15种不同的可视化分类。
将数据分析结果可视化
此外,汪晓宇告诉创业邦,Taste Analytics研发出的最先进的分析技术——预测性分析,也将在中国上线,用户可以享受到结构化和非结构数据的精准分析结果,系统针对关键词、时间趋势等因素对市场行为作出及时的预测。
依据上图的元素进行预测分析
那凭啥别人不能做或做不了?
与国内诸葛IO、GrowingIo不同的是,Taste Analytics主要针对的是文本非结构化的挖掘和处理,而诸葛IO是对于机器产生的数据流,Click数据的分析。对于企业来说,两者是相对互补的关系。
汪晓宇告诉创业邦,Taste Analytics成立两年,就已经获得了百万美元量级的订单,拥有像Ally银行、ForeSee问卷调查等客户,收入增长了6倍,并且季度营收增长速度保持在300%左右。
之所以取得这样的成绩,主要核心在于技术和人才,其技术壁垒在于文本数据的深度学习。
汪晓宇博士毕业于北京邮电大学的通信工程专业,之后就到美国直博,之后因为突出的学术贡献,被破格提拔为北卡大学夏洛特分校的助理敎授,并在美国五大视觉中心之一的夏洛特视觉中心任主任。他曾经应邀在美国海事国防安全风险大会演讲;还曾在斯坦福给计算机系的学生传授研发经验。
Taste Analytics的CTO俞立和Thomas Kraft,也是从美国顶级学府博士毕业,技术团队成员全都是硕士以上学历,博士占比达40%。
Taste Analytics在2月完成Pre-A轮340万美元融资,由真格基金领投,跟投机构包括聚合数据、华创资本等。
汪晓宇认为在实际操作中,图片、视频的潜力还大大没有被挖掘,机器数据和FinTech 瞬时高维度的金融数据也很有潜力。Taste Analytics未来将加大对图片和视频领域的非结构化数据分析。