“数据突然成了富矿，我赚到了大模型创业潮的第一桶金”-访八友科技创始人梁斌

本报记者李静北京报道

在创立八友科技之前，梁斌曾在金山词霸、搜狗等多家公司工作。

2015年梁斌获得清华大学人工智能博士学位，同年10月创立八友科技。但那个时候人工智能还不够火，最早的八友科技主要是为舆情公司提供数据服务，后来逐渐给需要实时数据的电商公司提供数据需求。

由于每天给各种客户提供各类数据，八友科技每天都会留存大量的数据，“使用过的数据对于客户来说已经没有任何商业价值，所以存储这些数据的活没人愿意干。”八友科技创始人梁斌近日在接受《中国经营报》记者采访表示，“我本身是学习人工智能的，知道数据对于人工智能的价值，也长期免费为高校教师科研提供数据服务，所以这么多年存储数据的事情都是我自己做。”

2022年年底，ChatGPT的问世让国内外人工智能界大为震惊，大语言模型的浪潮开始风靡国内，各类技术企业争相打造自己的大模型，据不完全统计，目前国内已有过百家大模型企业。

要打造大模型，算力和数据量都是重要资源。由于大模型训练需要非常多的语料数据，八友科技曾经放在仓库“积灰”的数据突然之间成了香饽饽，公司也顺势跻身为大模型服务商之列。梁斌对记者透露：“近50%的国内主流大模型厂商都有从我们公司采购数据，半年多时间公司销售数据额已经接近3000万元。”

坚信“数据”的前景

随着移动互联网的发展，人们使用网络的人数规模得到扩大，使用时间也大幅增加，产生的数据规模越来越大。但移动互联网时代“数据孤岛”问题变得更严重，越来越多的数据封闭在一个个独立的App中，对于企业来说采集难度变大，数据逐渐成为独立的社会分工。

例如，某一电商企业需要获悉其他主流电商某一商品的实时售价情况，如果人工一个个搜索效率太低，如果自己开发一个实时比价软件又不太划算，就会找八友科技这类第三方数据服务商购买实时比价服务。

据介绍，目前被八友科技列入销售线索的企业大约有106家，包括主流电商、社交软件等，数据总量非常巨大，国外则主要来自Common Crawl、Laion、Quora，Github，Reddit，电子书等平台。“国内数据比较敏感，我们通过合规的方式去采集数据，如今中文压缩数据掌握了大约100TB，海外数据超过1PB。”梁斌对记者说道。

八友科技之前的客户群主要购买的是实时数据服务，因此公司沉淀了大量的数据，梁斌透露：“以前历史数据没人购买，所以很多同行没有存储这些数据。因为储存数据需要专人管理，还需要购买很多硬盘做多个备份。”

2015年八友科技创办前后，当时还没有大模型，但从事人工智能的学习让梁斌相信大规模数据储备价值很大。他原本想把储存数据的工作交给员工做，但一份不挣钱、做好了也不会有奖励的工作，很难有员工能坚持做好。因为一组数据，如果缺了一天的数据，可能就不完整了，没法为科研服务。所以储存、备份数据的工作一直是梁斌自己亲力亲为。

国内开始大模型竞赛开始后，八友科技是第一波获益的企业之一，很多客户找到梁斌购买数据进行模型训练。“大模型客户购买我们的数据就是用硬盘拷贝数据，对我们来说成本很低，原来堆在仓库不值钱的东西一下子就值钱了。”梁斌透露，公司目前已经有50多个大模型客户，客单价约在50万至60万元，目前公司大模型数据销售收入已接近3000万元。

未来也要做模型

对于一个大模型来说，需要多少的数据量？梁斌介绍，目前他了解到的情况是，大模型参数大概分10B（billion），100B这个参数量级，前者解决一些文史哲数据，或者解决一些理工类数据解决复杂问题。参数的提升意味着数据需要跟着提升，否则就容易过度拟合，从算力提升的趋势看，数据肯定是越多越好。

但需要注意的是，不能只是数据量的提升，数据质量也要跟着提高，否则数据多反而会影响训练效果，低层次的数据反复训练，大模型其实也达不到高水平智能。

“临界点划分目前我知道没有统一标准，目前1TB token都是小模型，玩具型的，随着社会发展需要，10TB甚至100TB token都不算大。”梁斌表示，不同行业数字化水平的不一样，炼就行业大模型需要的数据量也不一样。比如机械行业的数据都在书籍、论文、课本上；消费行业能拿到的线上数据基本来自知乎、小红书上的一些评价型数据，数据量非常小。

梁斌表示，第一波购买八友科技数据的是互联网公司；第二波购买是非互联网的上市公司；第三波是各行各业的2B类公司。

如今除了为大模型提供过往的数据服务外，八友科技还在为他们提供实时数据服务，大模型厂商需要的数据包括国内外的电子书、论文等，还包括图、视频等类型。

“以前一天抓取的数据量加在一起接近1TB，现在一天抓取的数据量已经涨到了十几个TB。”梁斌告诉记者，现在大模型对于实时数据的需求已经越来越强，因为用户在大模型的对话框中不止会提问过往的信息，还有很多实时信息的提问，例如“今天天气怎样？”“推荐一个正在上映的电影，帮忙指定一个旅游计划，住宿酒店等等。”

如果一个大语言模型回答不了实时的问题，意味着它接入的实时数据还不多。未来大模型的实时回答水平，也是衡量大模型能力的一个重要维度，也有助于争抢其他实时应用的接口，有助于提高大模型工具的应用打开率，梁斌也有意识将八友科技的业务重点放在实时数据服务上。“不能说数据行业的天花板很高，但大模型以后，数据行业的天花板已经比以前高出很多，整体行业对数据的出价能力在大幅度提高，至少数据市场容量提高了5倍。”

但历史数据的销售有天花板，客户买完一遍之后不会复购重复数据；加上随着市场的发展，数据集的生意会越来越便宜；另外梁斌判断未来巨头可能也会切入这个市场。

所以梁斌和团队也在思考，如何和大模型结合，打造更具想象力的业务？

“我们希望在垂直行业领域做底座大模型，然后用企业的私有数据训练大模型，再为行业经营服务。”梁斌认为，八友科技是一家有技术但是缺乏场景的公司，可以为有场景的公司提供大模型服务。例如，Llama 2开源模型回答不了法律类的很多问题，八友科技将2亿多法律类的高质量数据放在模型上进行再训练，就能形成一个新的法律类的垂直模型，这个新的模型就属于八友科技，可以提供给法律场景的客户。“最后我们就不是一家卖数据的公司，而是把数据作为燃料，炼就出能服务千行百业的新模型。”

顺福资本创始人、行行AI董事长李明顺也指出，在下一阶段的人工智能发展中，强应用和多模型将成为总趋势。

不过，目前数据集服务已经上升为八友科技的主要业务，销售额已经占到公司总收入的三分之二以上。考虑到数据销售业务还有上升空间，梁斌也担心现有的客户群将八友科技作为竞品，所以在做大模型时他有一个心理预期，即只选择非常小的方向，而不和目前主流客户产生业务冲突。

（编辑：李正豪校对：翟军）

展开阅读全文

页面更新：2024-02-25

标签：模型富矿数据科技人工智能创始人实时主流客户行业企业公司梁斌

1 2 3 4 5

“数据突然成了富矿，我赚到了大模型创业潮的第一桶金”-访八友科技创始人梁斌

大力实施电普服务工作！湖南移动桑植公司助力革命老区巨变

江西南昌：水下“黑科技” 保障高速桥梁安全运行

陕西一幼儿园给孩子食用过期酸奶？园长已停职！

宝爸宝妈：关注孩子的这些习惯，避免脊柱侧弯找上门！

支原体肺炎还在持续，孩子感染后多久能上学？

怀孕时内脏被胎儿挤成啥样？三张动图揭露真相，让人感动又心疼

1岁半萌娃捡老鼠送给妈妈，妈妈拒绝尖叫：我不要！走开！

秋季养肺，可以给孩子这样吃，拒绝秋燥

重庆大学附属涪陵医院：用专业与爱心照亮特殊儿童的康复之路

独生子女“高考加分”推行后？三胎家庭遭遇绝望？是否还有希望？

十种非常危险的儿童玩具，仿真枪，玩具飞镖，你都玩过吗？

晰元成长日记：陪外婆去看医生，晚上自己吃饭了

独／王杰「吃隔夜饭」成习惯　固定餐厅1周吃3次：不用点菜

荧屏又见消防题材！晨报对话张婧仪：“守护”才是角色的底色

张小斐高叶被打回原形，细看她俩的操作和资本关系，都是有原因的

大力实施电普服务工作！湖南移动桑植公司助力革命老区巨

江西南昌：水下“黑科技” 保障高速桥梁安全运行

福州鼓楼打造人工智能全产业链创新高地

智慧热电设备数据采集说明

国科恒泰：正与各合作方共同研究人工智能等关键技术在医

三名国际学员顺利完成北京先驱公司海上“龙课”培训

海信举办2023HVAC全球客户大会深化推进海外市场和用

连云港建成一条高科技生产线实现二氧化碳循环化利用

国内博物馆界首个数字人文项目：让数据可阅读

10亿用户刷短视频催生行业变局