【数据湖】扫盲
什么是数据湖数据湖是一种以原生格式存储各种大型原始数据集的数据库。您可以通过数据湖宏观了解自己的数据。
原始数据是指尙未针对特定目的处理过的数据。数据湖中的数据只有在查询后才会进行定义。数据科学家可在需要时用比较先进的分析工具或预测建模法访问原始数据。
数据湖的现状在一些需要为数据设置大型整体存储库的企业中,数据湖正在成为一种更通行的数据管理策略。
为什么出现了数据湖的概念数据湖可为您保留所有数据,在您存储前,任何数据都不会被删除或过滤。有些数据可能很快就会用于分析,有些则可能永远都派不上用场。有些数据也可能为了不同用途而多次使用,同时也有数据会为了特定目的不断优化,这就让我们难以用不同的方式重复使用数据。
如何理解数据湖的概念?Pentaho 的首席技术官 James Dixon 对“数据湖”进行了介绍。之所以将其称为湖,是因为这种数据库可以在自然状态下存储大量数据,就像一片未经过滤或包装的水体。数据从多种来源流入湖中,然后以原始格式存储。
数据湖和数据仓库的差别是什么?数据仓库可提供可报告的结构化数据模型。这是数据湖与数据仓库的最大区别。数据湖存储的是非结构化的原始数据,并未定义具 ...
暴论:人工智能可以进行可解释升维
回归问题为例,最多只需要全局+1个维度,也就是n+1宽度的模型。
第二版第一版第一版的思路不太好(甚至有错误),我们换一种解释方式。
首先针对回归问题,我们通过n维的特征得到一个预测值,这里的这个预测值就可以解释为多出来的一个维度。
然后是分类问题,我们使用的是softmax方法进行类别的预测,于是维度多出了待分类数量个维度。
什么是模型的宽度?
一个模型宽度有几就代表着模型某一层有几个神经节点。每一个神经节点是通过对输入的高维度点进行一个基础变换得到的一个数值;一层有几个这样的数值,就代表着有多少次的基础变换行为(线性映射)。
$$k_1 * x_1 + k_2 * x_2 + … + b = y\K\times X+B=Y$$
可以实现低维特征域向高维特征域的映射。
为什么要升维?
我们在看二维平面上的物体时,我们很容易就能理解点与点之间的关系,而这层关系是在二维世界中的人很难去认识到的。升维的意义就在这里。可以将本来远在天边的两个特征点在新的维度上拉近。
那么模型的内部需要多少维度(宽度)呢?
还是先针对回归问题
回归问题本质就是一个高维向低维 ...
多个我的设定
eba4cd21686330597373f08a1e90f7ccd5ddb3684f8e4a1e24482f89676edc6addb81368268187d3ba9d2c001dda994285b15a7e95fa4f237803e29504808016d8dc00232f93493c07b4741eb46ba8c25f34f9d5019794c25633559aa8ef6de863b6cd57844c3d3b5f348dab3de50b7a30c501f7a389dd79b958a2e32a71955e51ae755848c63a0c4d9d37d2cc18f8961bf0275615fd98d0a3317980ea7e45c085454a80281953fd1908ea03c74743877ec2a6b29869833aa214a2d723fe80d9ecc041c73ed047069bc2804dc7e3e96a882360b0a4780e9ec2f68c9be19a9d2c00493a49cb186157cf3e8284dba33f11d018cbd0eaf2e0703 ...
【JavaScript】 多线程并行编程 施工中~
关键词:javascript 单线程本质,html5,worker,nodejs
封面P站画师ID:12191398
项目管理和GIT版本控制工具
@ 作者:达内 Python 教学部,吕泽@ 编辑:博主,Discover304
:four_leaf_clover:碎碎念:four_leaf_clover:Hello米娜桑,这里是英国留学中的杨丝儿。我的博客的关键词集中在算法、机器人、人工智能、数学等等,点个关注吧,持续高质量输出中。:cherry_blossom:唠嗑QQ群:兔叽的魔术工房 (942848525):star:B站账号:杨丝儿今天也在科学修仙(UP主跨站求个关注)
:star2:软件项目开发
:star:软件项目开发流程
需求分析 —-> 概要设计 —> 项目计划 —-> 详细设计—> 编码测试 —–> 项目测试 —-> 调试修改 —> 项目发布—-> 后期维护
需求分析 : 确定用户的真实需求
确定用户的真实需求,项目的基本功能
确定项目的整体难度和可行性分析
需求分析文档,用户确认
概要设计:对项目进行初步分析和整体设计
确定整体架构
进行技术可行性分析
确定技术整体思路和使用框架模型
形成概要文档指导开发流程
项目计划 : ...
【Python】独特的进程池概念
:star2:总结放开头
创建进程池可以形象的理解为创建了一个能够并行的流水线,只消耗一次创建流水线的成本,处理接收到的的任务。相对的,如果不使用进程池,每个要求并行的任务都会新建一次进程,浪费时间。
编程中本来没有进程池的概念的,除了python,其他的语言都是使用线程池(而进程是执行分隔开的任务)。python因为GIL的原因(仅限Cython),线程无法并行,所以把线程池的概念迁移到了进程,命名为进程池。
:star2:python进程池当需要创建的子进程数量不多时,可以直接利用multiprocessing中的Process动态成生多个进程。
但如果是上百甚至上千个目标,手动的去创建进程的工作量巨大,此时就可以用到multiprocessing模块提供的Pool方法。
初始化Pool时,可以指定一个最大进程数
当有新的请求提交到Pool中时
如果池还没有满,那么就会 创建 一个新的进程用来执行该请求;
如果池中的进程数已经达到指定的最大值,那么该请求就会等待,直到池中有进程结束,才会用之前的进程来执行新的任务。
:star2:进程池如何使用?
:star:app ...
【Python】实现DDNS 动态解析到阿里
什么是 DDNS?DDNS(Dynamic Domain Name Server,动态域名服务)是将用户的动态IP地址映射到一个固定的域名解析服务上,用户每次连接网络的时候客户端程序就会通过信息传递把该主机的动态IP地址传送给位于服务商主机上的服务器程序,服务器程序负责提供DNS服务并实现动态域名解析。
DDNS的使用场景分析在中国,面向社会的服务器是需要备案的,而备案的时候是需要使用一个固定的公网ip备案的。因此很多人想要使用DDNS实现网站搭建的小伙伴就要失望了(说的就是我)。
但是这里面有一个细节,面向社会提供服务的需要备案,那么不提供服务且有意阻止社会人员访问服务器的应用场景,如个人计算服务器、私人云盘(如群辉的家庭云服务),就不需要备案了。
用python实现DDNS1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071from aliyunsdkcore.clien ...
【AI】AI论文中的 精确率 和 召回率 精简解释
参考:精确率和召回率 @菜鸟瞎编
评论精选:确实是这样的,真的怀疑定义这个的人脑子有坑,你说他第一个是 预测值,第二个是 真值 不好吗,本来一个很简单的问题,搞得这么复杂。
精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是
$$P=\frac{TP}{TP+FP}$$
而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
$$R=\frac{TP}{TP+FN}$$
其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。
Yolo目标检测算法综述
结论放前面:
现阶段最强的是 YOLOX,代码已开源
YOLO最开始很简单,v2v3提供了一定的优化,v4猛堆料,v5优化了内存。
YOLO 特点
yolo
其他
YOLO训练和检测均是在一个 单独网络中 进行。
RCNN采用分离模块。包括之后的 Faster RCNN
YOLO将物体检测作为一个 回归问题 进行求解,输入图像经过一次inference,便能得到图像中所有 物体的位置 和其 所属类别 及相应的 置信概率 。
而rcnn/fast rcnn/faster rcnn将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)。
优势
速度快。YOLO将物体检测作为回归问题进行求解,速度比其他模型快。
背景误检率低。YOLO在训练和推理过程中能‘看到’整张图像的整体信息。
通用性强。YOLO对于艺术类作品中的物体检测同样适用。它对非自然图像物体的检测率远远高于DPM和RCNN系列检测方法。
问题
相较于其他方法,YOLO识别物体位置精准性差。
召回率较低,会识别不出来物体。
YOL ...
Linux 知识点整理
@ 作者:达内 Python 教学部,吕泽@ 编辑:博主,Discover304
Linux操作系统认知操作系统(Operation System简称OS)
定义
操作系统是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务。
操作系统功能
管理好硬件设备,为用户提供调用方法
是计算机中最重要的系统环境
管理各种其他的软件和程序的运行
对系统中文件进行管理
操作系统分类
桌面系统:Windows ,MacOS为主,图形界面良好用户群体大。
服务器系统:Linux,Unix为主,安全,稳定,费用低占有量大。windows占有率比较低。
嵌入式系统:Linux为主,主要用于小型智能设备,如智能手机,机器人等。
Linux系统介绍
Linux 诞生
1991 年 林纳斯(Linus) 就读于赫尔辛基大学期间,对 Unix 产生浓厚兴趣,林纳斯经常要用他的终端仿真器(Terminal Emulator) 去访问大学主机上的新闻 ...
读《这就是OKR》第一部分:OKR管理的关键点
知识
OKR,Objectives and Key Results,目标与关键结果。
OKR 是确保将 整个组织的力量 都聚焦于完成对所有人都 同样重要的事项 的一套管理方法。
目标就是你 想要实现的东西,不要将其夸大或者缩小。根据定义,目标是重要的、具体的、具有行动导向并且能鼓舞人心的。如果设计合理并且实施的当,目标能够有效地防止思维和执行过程中出现模糊不清的情况。
关键结果是 检查和监控我们如何达到目标的标准。有效的关键结果应该是具体的、有时限的且具有挑战性的,但又必须是能够实现的。最重要的是,他们必须是可衡量的、可验证的。
OKR 的价值:体现的是公司最重要的目标,能 引导员工共同努力和协作,将不同的业务联系在一起,为 整个组织提供明确的目标和凝聚力。
CFR:持续性绩效管理(Conversation对话,Feedback反馈,Recognition认可),OKR的近亲。
OKR 的四大利器
对优先事项的聚焦和承诺:推动 重要任务的筛选,帮助 聚焦关键的成功要素。
团队工作的协同和联系:OKR具有 透明性,且每个人的目标与公司计划紧密联系,为每个人的工作赋予了意义。同时自下而上 ...
开源云盘搭建部署 施工中~
记录搭建云盘时学习到的内容
Streamlit 施工中~
记录使用streamlit的项目时学习到的内容
参考/补充
参考:Streamlit官方
【Python】编程的风味 施工中~
研读PEP8
编程范式的结合律 施工中~
多范式融合多范式融合的设计建议:
每种编程范式都有优缺点,不做某单一范式的拥坌,分场景灵活选择合适的范式恰当的解决问题。
从 DDD 的角度,按照模型一致性,将不同范式的设计划分到不同的子域、BC 或层内。
参考/补充
错误观念:面向对象思想和函数式编程思想有冲突。
Haskell 语言是纯函数式编程语言。
参考:聊聊编程范式