港校开学好早,在新年的时候就上完了两周课,于是期中考也特别早。
由于前两周考了期中考,没怎么上课,笔记更新就停滞了。
再浅浅吐槽一句,这学期上的课【深度学习】、【大数据计算】、【数据预分析】感觉都在讲相同的东西。
在【机器学习】的基础上,讲【数据挖掘导论】和【深度学习】的内容。
今天更新的是【大数据计算】课程中的图分析和文本分析。
我们知道数据是多种多样的,有文本数据、信号数据(如声音、广播)、相片、图。
首先我们来看的是图的数据分析。有关图的数据结构是由顶点和边组成的,每个边都有它对应的顶点,一般用相邻链表来表示图。
图的分类可分为两类,有向图和无向图、有权重图和无权重图,在图像表示上就是箭头和数字/距离。
根据相邻链表,图形遍历一般从顶点开始,根据一定算法访问图形所有顶点并返回它们,再以树的形式输出,也就是搜索树。
图形遍历算法,有两种,深度优先搜索和宽度优先搜索。具体内容可观看第一、二张笔记部分。
然后就是Google创建的“页面访问率”的概念。
在文本分析中,找出一个文本的主题是十分关键的。有个关键词的可视化叫做“词云”,关键词的频率越高,这个词就越明显,也就是字号越大。
我们要从文本中找出隐藏的主题,也是一种特殊的聚类。
文本中不仅有关键词还有停词。
在对这个文件预处理时,我们需要为它构建一个文件,一个装满关键词的袋子,将它用矩阵表示。
TF-Term Frequency 术语频率
IDF-Inverse Document Frequency 反向文档频率
TF-IDF Weight 联合术语的重要性(联合术语的加权)。
页面更新:2024-05-01
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号