“数据突然成了富矿,我赚到了大模型创业潮的第一桶金”-访八友科技创始人梁斌

本报记者 李静 北京报道

在创立八友科技之前,梁斌曾在金山词霸、搜狗等多家公司工作。

2015年梁斌获得清华大学人工智能博士学位,同年10月创立八友科技。但那个时候人工智能还不够火,最早的八友科技主要是为舆情公司提供数据服务,后来逐渐给需要实时数据的电商公司提供数据需求。

由于每天给各种客户提供各类数据,八友科技每天都会留存大量的数据,“使用过的数据对于客户来说已经没有任何商业价值,所以存储这些数据的活没人愿意干。”八友科技创始人梁斌近日在接受《中国经营报》记者采访表示,“我本身是学习人工智能的,知道数据对于人工智能的价值,也长期免费为高校教师科研提供数据服务,所以这么多年存储数据的事情都是我自己做。”

2022年年底,ChatGPT的问世让国内外人工智能界大为震惊,大语言模型的浪潮开始风靡国内,各类技术企业争相打造自己的大模型,据不完全统计,目前国内已有过百家大模型企业。

要打造大模型,算力和数据量都是重要资源。由于大模型训练需要非常多的语料数据,八友科技曾经放在仓库“积灰”的数据突然之间成了香饽饽,公司也顺势跻身为大模型服务商之列。梁斌对记者透露:“近50%的国内主流大模型厂商都有从我们公司采购数据,半年多时间公司销售数据额已经接近3000万元。”

坚信“数据”的前景

随着移动互联网的发展,人们使用网络的人数规模得到扩大,使用时间也大幅增加,产生的数据规模越来越大。但移动互联网时代“数据孤岛”问题变得更严重,越来越多的数据封闭在一个个独立的App中,对于企业来说采集难度变大,数据逐渐成为独立的社会分工。

例如,某一电商企业需要获悉其他主流电商某一商品的实时售价情况,如果人工一个个搜索效率太低,如果自己开发一个实时比价软件又不太划算,就会找八友科技这类第三方数据服务商购买实时比价服务。

据介绍,目前被八友科技列入销售线索的企业大约有106家,包括主流电商、社交软件等,数据总量非常巨大,国外则主要来自Common Crawl、Laion、Quora,Github,Reddit,电子书等平台。“国内数据比较敏感,我们通过合规的方式去采集数据,如今中文压缩数据掌握了大约100TB,海外数据超过1PB。”梁斌对记者说道。

八友科技之前的客户群主要购买的是实时数据服务,因此公司沉淀了大量的数据,梁斌透露:“以前历史数据没人购买,所以很多同行没有存储这些数据。因为储存数据需要专人管理,还需要购买很多硬盘做多个备份。”

2015年八友科技创办前后,当时还没有大模型,但从事人工智能的学习让梁斌相信大规模数据储备价值很大。他原本想把储存数据的工作交给员工做,但一份不挣钱、做好了也不会有奖励的工作,很难有员工能坚持做好。因为一组数据,如果缺了一天的数据,可能就不完整了,没法为科研服务。所以储存、备份数据的工作一直是梁斌自己亲力亲为。

国内开始大模型竞赛开始后,八友科技是第一波获益的企业之一,很多客户找到梁斌购买数据进行模型训练。“大模型客户购买我们的数据就是用硬盘拷贝数据,对我们来说成本很低,原来堆在仓库不值钱的东西一下子就值钱了。”梁斌透露,公司目前已经有50多个大模型客户,客单价约在50万至60万元,目前公司大模型数据销售收入已接近3000万元。

未来也要做模型

对于一个大模型来说,需要多少的数据量?梁斌介绍,目前他了解到的情况是,大模型参数大概分10B(billion),100B这个参数量级,前者解决一些文史哲数据,或者解决一些理工类数据解决复杂问题。参数的提升意味着数据需要跟着提升,否则就容易过度拟合,从算力提升的趋势看,数据肯定是越多越好。

但需要注意的是,不能只是数据量的提升,数据质量也要跟着提高,否则数据多反而会影响训练效果,低层次的数据反复训练,大模型其实也达不到高水平智能。

“临界点划分目前我知道没有统一标准,目前1TB token都是小模型,玩具型的,随着社会发展需要,10TB甚至100TB token都不算大。”梁斌表示,不同行业数字化水平的不一样,炼就行业大模型需要的数据量也不一样。比如机械行业的数据都在书籍、论文、课本上;消费行业能拿到的线上数据基本来自知乎、小红书上的一些评价型数据,数据量非常小。

梁斌表示,第一波购买八友科技数据的是互联网公司;第二波购买是非互联网的上市公司;第三波是各行各业的2B类公司。

如今除了为大模型提供过往的数据服务外,八友科技还在为他们提供实时数据服务,大模型厂商需要的数据包括国内外的电子书、论文等,还包括图、视频等类型。

“以前一天抓取的数据量加在一起接近1TB,现在一天抓取的数据量已经涨到了十几个TB。”梁斌告诉记者,现在大模型对于实时数据的需求已经越来越强,因为用户在大模型的对话框中不止会提问过往的信息,还有很多实时信息的提问,例如“今天天气怎样?”“推荐一个正在上映的电影,帮忙指定一个旅游计划,住宿酒店等等。”

如果一个大语言模型回答不了实时的问题,意味着它接入的实时数据还不多。未来大模型的实时回答水平,也是衡量大模型能力的一个重要维度,也有助于争抢其他实时应用的接口,有助于提高大模型工具的应用打开率,梁斌也有意识将八友科技的业务重点放在实时数据服务上。“不能说数据行业的天花板很高,但大模型以后,数据行业的天花板已经比以前高出很多,整体行业对数据的出价能力在大幅度提高,至少数据市场容量提高了5倍。”

但历史数据的销售有天花板,客户买完一遍之后不会复购重复数据;加上随着市场的发展,数据集的生意会越来越便宜;另外梁斌判断未来巨头可能也会切入这个市场。

所以梁斌和团队也在思考,如何和大模型结合,打造更具想象力的业务?

“我们希望在垂直行业领域做底座大模型,然后用企业的私有数据训练大模型,再为行业经营服务。”梁斌认为,八友科技是一家有技术但是缺乏场景的公司,可以为有场景的公司提供大模型服务。例如,Llama 2开源模型回答不了法律类的很多问题,八友科技将2亿多法律类的高质量数据放在模型上进行再训练,就能形成一个新的法律类的垂直模型,这个新的模型就属于八友科技,可以提供给法律场景的客户。“最后我们就不是一家卖数据的公司,而是把数据作为燃料,炼就出能服务千行百业的新模型。”

顺福资本创始人、行行AI董事长李明顺也指出,在下一阶段的人工智能发展中,强应用和多模型将成为总趋势。

不过,目前数据集服务已经上升为八友科技的主要业务,销售额已经占到公司总收入的三分之二以上。考虑到数据销售业务还有上升空间,梁斌也担心现有的客户群将八友科技作为竞品,所以在做大模型时他有一个心理预期,即只选择非常小的方向,而不和目前主流客户产生业务冲突。

(编辑:李正豪 校对:翟军)

展开阅读全文

页面更新:2024-02-25

标签:模型   富矿   数据   科技   人工智能   创始人   实时   主流   客户   行业   企业   公司   梁斌

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top