因为工作关系,在2023年的3到4月份,对各个大模型做了非常深入的学习。不得不说几点粗浅的认识:
- 接触过的大模型有百度文心一言、阿里通义千问、清华智谱ChatGLM,当然还有ChatGPT的3.5和4.0,以及一些周边服务的公司。
- 作为百度文心的首批的API合作伙伴,做了大量的API调用测试,也参加了技术闭门交流会。
- 清华智谱的6B模型已经开源,项目上的朋友做了环境搭建,在没有剪枝蒸馏的情况下做了100个左右的JSON格式的FAQ知识,租赁了A100训练仍然耗时(A100不能物权转移)
- 谈论交流的都是2B、2G的业务,2C的不涉及。金融机构、政府客户为主。均涉及到数据不能出域的问题。只能私有化部署。
- 私有化部署解决两个问题,数据安全(不允许出域的行业),以及专属知识的训练(其实更多知识是互联网搜索不到的专属知识)。
- 专属知识的持续训练和精调,可以通过Prompt(其实也不现实)和模型托管的方式来实现。
- 但数据安全问题就不是上面的模式能解决的了,只剩下私有化,仅仅一个模型的私有化就需要千万级别的预算,还不包括算力的投入,以及标注、精调、剪枝蒸馏等。
- 算力也是问题,受到信创的很多限制,据说华为和上海超算中心合作的项目,能提供相当于A100的算力。不要想着用3090 12G来预训练6B之类的模型,每次训练少则10几个小时不能关机,你家空调费你都搞不起了。用A100物权不能转移,只能租赁,而且实际应用中,还涉及到并发问题,需求量超级大。
- 连百度这样依靠搜索起家的公司,都极度缺乏高质量的数据。要知道,算法、算力、数据,是AIGC的重要基础(很多所有财经博主不懂乱说的不要信了),数据就是有用的行业知识、专属知识,都是决定应用能否落地的决定性因素。
- 下面这个图,来自于财联社,仅仅引用说明一下,数据的自动标注还不切实际。要不然OpenAI在南非搞那么多人做什么?而且越是专业的领域,数据标注对人员的要求越高。
大体总结一下,专业的2B、2G领域的应用,时机还差了很多成熟的条件,特别是国内的大模型要到2023年底才能相对成熟些并达到ChatGPT4.0的水平,算力和数据的不足,更加制约专业领域的发展。2C嘛,没太多思考,不做什么评价。