大数据计算图像和文本分析

港校开学好早,在新年的时候就上完了两周课,于是期中考也特别早。

由于前两周考了期中考,没怎么上课,笔记更新就停滞了。

再浅浅吐槽一句,这学期上的课【深度学习】、【大数据计算】、【数据预分析】感觉都在讲相同的东西。

在【机器学习】的基础上,讲【数据挖掘导论】和【深度学习】的内容。

图和文本分析

今天更新的是【大数据计算】课程中的图分析和文本分析

我们知道数据是多种多样的,有文本数据、信号数据(如声音、广播)、相片、图。

图分析

首先我们来看的是图的数据分析。有关图的数据结构是由顶点和边组成的,每个边都有它对应的顶点,一般用相邻链表来表示图。

图的分类可分为两类,有向图和无向图有权重图和无权重图,在图像表示上就是箭头和数字/距离

根据相邻链表,图形遍历一般从顶点开始,根据一定算法访问图形所有顶点并返回它们,再以树的形式输出,也就是搜索树。

图形遍历算法,有两种,深度优先搜索和宽度优先搜索。具体内容可观看第一、二张笔记部分。


页面访问率

然后就是Google创建的“页面访问率”的概念。

文本分析

在文本分析中,找出一个文本的主题是十分关键的。有个关键词的可视化叫做“词云”,关键词的频率越高,这个词就越明显,也就是字号越大。

我们要从文本中找出隐藏的主题,也是一种特殊的聚类。

文本中不仅有关键词还有停词。

在对这个文件预处理时,我们需要为它构建一个文件,一个装满关键词的袋子,将它用矩阵表示。


TF-Term Frequency 术语频率

IDF-Inverse Document Frequency 反向文档频率

TF-IDF Weight 联合术语的重要性(联合术语的加权)。

TF-IDF加权

展开阅读全文

页面更新:2024-05-01

标签:文本   数据   遍历   权重   顶点   术语   频率   深度   图形   图像   关键词

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top