宇宙无敌的程序猿

作为一个宇宙无敌的程序员,是如何做到快速、高效、无bug的?

除了扎实的基本功(百度谷歌+复制粘贴)以外,选对辅助工具也非常重要。

下面来分享一下,使用“知否AI”来作为辅助工具,开发一个敏感词过滤功能的过程。

动手编码之前我们要首先想好这个事情应该怎么做,一定要按耐住编码的冲动。

1、首先要了解一下,什么是敏感词过滤

2、主要技术点有哪些

3、技术选型

4、查找代码,开始复制粘贴

“知否AI问答”,地址在图片中可以看到哦~


什么是敏感词过滤

答案很清晰,主要是为了过滤掉一些不合时宜的词语。

敏感词过滤的主要技术点有哪些?

我们了解到,要做一个敏感词过滤系统,需要5个步骤:词库建设、文本预处理、匹配算法、过滤策略、性能调优,前4个步骤为我们的架构给出了建议。通过这个回答,我们可以看出我们需要组件有哪些。

(1)词库加载组件:从文件中加载敏感词

(2)文本预处理组件:对输入的文本进行去噪

(3)匹配算法:这也是这个系统的核心组件,这个需要进行下一步调研

(4)过滤策略:我现在理解就是用来做敏感词替换的

匹配算法的选取

通过给出的答案,我们可以非常清楚的看到每种算法的时间复杂度(暂不考虑空间复杂度),很明显,DFA算法的时间复杂度是最低的。现在可暂定使用DFA作为匹配算法,后续看实现成本。

搭建工程

有了工程以后,就可以准备代码和词库了,github有很多公开的敏感词词库。

搜索填充代码

1、生成词典加载的代码

看样样子写的挺对的,上下文关联的也不错。拿过去改一下类名,先贴到开发环境中

2、生成DFA算法

感觉少点东西,能够返回敏感词的位置和长度就更方便了。

这次生成的代码完整了很多,按我们的要求添加了返回敏感词信息的接口。

3、生成替换策略

文章写到这里基本上就快要完工了。

上面的分享并不是为了做一个这样的工程,主要分享的是使用工具的思路和方法。其实大语言模型在生成代码方面是非常出色的,这个要看我们怎么去使用它。

目前国内再使用GPT的成本还是比较高的,知否AI,在这方面做了一些工作,能够方便大家去使用大语言模型来解决我们工作和生活中的问题。

希望我们的付出能够对大家有所帮助,如果对演示感兴趣,可以微信搜索公众号“云智博瑞”免费体验,亦可以访问图片中链接直达“云智AI问答”。感谢关注

展开阅读全文

页面更新:2024-05-15

标签:复杂度   词库   辅助工具   算法   组件   宇宙   加载   敏感   策略   代码   程序   工程

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top