大数据计算图像和文本分析

港校开学好早，在新年的时候就上完了两周课，于是期中考也特别早。

由于前两周考了期中考，没怎么上课，笔记更新就停滞了。

再浅浅吐槽一句，这学期上的课【深度学习】、【大数据计算】、【数据预分析】感觉都在讲相同的东西。

在【机器学习】的基础上，讲【数据挖掘导论】和【深度学习】的内容。

图和文本分析

今天更新的是【大数据计算】课程中的图分析和文本分析。

我们知道数据是多种多样的，有文本数据、信号数据（如声音、广播）、相片、图。

图分析

首先我们来看的是图的数据分析。有关图的数据结构是由顶点和边组成的，每个边都有它对应的顶点，一般用相邻链表来表示图。

图的分类可分为两类，有向图和无向图、有权重图和无权重图，在图像表示上就是箭头和数字/距离。

根据相邻链表，图形遍历一般从顶点开始，根据一定算法访问图形所有顶点并返回它们，再以树的形式输出，也就是搜索树。

图形遍历算法，有两种，深度优先搜索和宽度优先搜索。具体内容可观看第一、二张笔记部分。

页面访问率

然后就是Google创建的“页面访问率”的概念。

文本分析

在文本分析中，找出一个文本的主题是十分关键的。有个关键词的可视化叫做“词云”，关键词的频率越高，这个词就越明显，也就是字号越大。

我们要从文本中找出隐藏的主题，也是一种特殊的聚类。

文本中不仅有关键词还有停词。

在对这个文件预处理时，我们需要为它构建一个文件，一个装满关键词的袋子，将它用矩阵表示。

TF-Term Frequency 术语频率

IDF-Inverse Document Frequency 反向文档频率

TF-IDF Weight 联合术语的重要性（联合术语的加权）。

TF-IDF加权

展开阅读全文

页面更新：2024-05-01

标签：文本数据遍历权重顶点术语频率深度图形图像关键词

1 2 3 4 5

近2年腾讯投资不再活跃！中国互联网正在失去信心？

近期，随着阿里巴巴、腾讯、字节跳动等互联网公司的头条新闻纷纷传出裁员的消息，以及关于中国互联网的传闻，人们开始怀疑并逐渐对中国互联网失去信心，无论是在股市还是在社会上都有中间的坏声音。虽然我不同意这些不好的说

元科普-「XID数字身份」问答手册

1、XID数字身份是什么？「XID数字身份」是由技术方爱聚科技基于派链区块链技术支撑的去中心化数字身份，安全且去中心化的用户名系统，也可以称为 XMETA DID（XID），是存储在区块链上的去中心化身份标识，由用户掌控自己的信息。2

案例解读！事关城商行数字化转型

#头条创作挑战赛# #互联网# #互联网# #让AI触手可及# #金融# #财经# #程序员#一、案例背景某股份制城市商业银行数据中心，在英国《银行家》杂志发布的“全球银行1000强”排名中，按一级资本排名前100名。为更好地完成企

大场面！超威新能源惊艳亮相中国新能源展！全新升级，赚足回头率

你听说没超威新能源电池在这场展会上霸屏了多张巨幅广告在展会现场展出回头率爆棚赶紧一起来看看据悉，这场展会是第19届中国（济南）新能源电动车及零部件展览会，而超威新能源本次在展会上的惊艳亮相，再度引发行业轰动！技术

荣耀Magic5 Pro评测：什么样的升级，才称得上是「全面爆发」？

不知不觉，荣耀的 Magic 系列也迎来了“数字5”的重磅升级。老实说，这一次他们的升级幅度确实不小，甚至荣耀还多次强调了“全面爆发”这个关键词，似乎也是对这一次的配置升级很有信心。那么这究竟是一款什么样的旗舰，又与此

想不到吧，统计物理竟然能创造音律

导语为什么音乐创作需要基于一系列规则？为什么以这些方式创作就容易得到悦耳的音乐？物理学家给出的答案是——相变——声音从嘈杂到和谐的过程，与分子从无序到有序的过程惊人地相似。本文介绍了一项经典研究，用统计力学框

「网信普法」互联网群组信息服务管理规定（全文+图解）

互联网群组信息服务管理规定第一条为规范互联网群组信息服务，维护国家安全和公共利益，保护公民、法人和其他组织的合法权益，根据《中华人民共和国网络安全法》《国务院关于授权国家互联网信息办公室负责互联网信息内容

微信封号的新规？下面几种行为是直接被封号的，很多人都中招了？

如今，随着社会的日益发展，人的生活方式，可谓是翻天覆地。在现代社会中，我们已经离不开社交网络。微信已经成为日常生活中的一部分，微信凭借其独特的功能和强大的用户群迅速崛起，并在短短的几年内获得了快速发展。一，经常发

Spring核心组件—01—容器启动流程概览

整体流程总的来说，分为 12 个大步骤。本文只是概览。后续文章会对这个 12 个步骤进行详解。spring-容器初始化流程下文都是对上图中 12 个关键步骤的大体说明，由于篇幅原因，每个步骤的详情会在后续的文章中逐一说明。1.p

毛sir：接下来是跨境高速成长后的善后阶段，该拿什么来拯救？

我们联合大信法务出了一本书《跨境电商常用合同、协议模板》这本书免费送给我们行业参与者文末有领取方式以下是毛sir为这本书写的序言致各位看到这本书的跨境人：我是跨境工厂佬儿创始人毛sir，一个深入跨境电商行业以内

2023 年的牛市-为什么加密市场会上涨？

在接近 2022 年疲软之后，加密市场在 2023 年第一季度有所复苏。那么是什么推动了转变，哪些因素将影响今年剩余时间的加密价格？ 2022 年只带来了加密世界的低迷。它使薄弱的区块链项目消失，已建立的实体和平台陷入困境（在某

韦尔半导体增资至11亿元

天眼查App显示，近日，上海韦尔半导体股份有限公司发生工商变更，注册资本由约8.77亿增至约11.82亿，增幅约34.84%。该公司成立于2007年5月，于2017年5月A股上市，法定代表人王崧，经营范围含集成电路、计算机软硬件的设计、开发、

为世界带来革命性的解决方案，Movella正式登陆纳斯达克

美国东部时间3月2日，全球领先的全栈硬件、软件和数据分析提供商Movella在纽约纳斯达克交易所敲钟开市，在CEO Ben LEE的带领下，公司管理团队成员、董事会成员、投资者和嘉宾一起共同庆祝Movella正式登陆纳斯达克，股票代码

“气溶胶”如何影响全球各地的气候和空气质量？

中国生物多样性保护与绿色发展基金会（中国绿发会、绿会）是联合国气候变化框架公约（UNFCCC）的观察员机构，对全球气候变化议题持续保持高度关注。近日，绿会气候变化工作组从《科学进展》获悉一项新的研究，显示空气污染对人类健

阿维塔销量“成绩斐然”，三十万出头就能买到！

关于阿维塔11这款新车，在这波纯电新能源浪潮当中，无疑是最光彩夺目的那一个。据悉，38天交付2000的表现造就了阿维塔销量历史。而今天要为大家带来的就是这款阿维塔11，光看价格就能预见它对于同价位竞品的杀伤力有多大，阿维

上滑加载更多 ↓

大数据计算图像和文本分析

图和文本分析

图分析

文本分析

近2年腾讯投资不再活跃！中国互联网正在失去信心？

元科普-「XID数字身份」问答手册

案例解读！事关城商行数字化转型

大场面！超威新能源惊艳亮相中国新能源展！全新升级，赚足回头率

荣耀Magic5 Pro评测：什么样的升级，才称得上是「全面爆发」？

想不到吧，统计物理竟然能创造音律

「网信普法」互联网群组信息服务管理规定（全文+图解）

微信封号的新规？下面几种行为是直接被封号的，很多人都中招了？

Spring核心组件—01—容器启动流程概览

毛sir：接下来是跨境高速成长后的善后阶段，该拿什么来拯救？

2023 年的牛市-为什么加密市场会上涨？

韦尔半导体增资至11亿元

为世界带来革命性的解决方案，Movella正式登陆纳斯达克

“气溶胶”如何影响全球各地的气候和空气质量？

阿维塔销量“成绩斐然”，三十万出头就能买到！

做数据分析选Python还是Java？

数据测试实践：从一个bug开始的大数据引擎兼容性探索

京东2022年女性消费报告：深度悦己绽放自我价值

十组数据看开局之年中国发展

Python神经网络学习大乐透第23025期数据分析

交付数据表现优异，阿维塔11潜力尽显

中国海关数据显示：韩国“中国第四大贸易伙伴”地位被日

「深度」高尔夫吸引年轻人，这项“贵族运动”开始接地气

数字经济回调，通信ETF、大数据50ETF跌超3%

RSA + AES对前后端数据进行加密