什么是深度学习呢?深度学习是一种以深层计算堆栈为特征的机器学习方法。正是这种计算的深度使得深度学习模型能够分解在最具挑战性的真实世界数据集中发现的复杂和层次化的模式。 凭借其强大和可扩展性,神经网络已成为深度学习的标志性模型。神经网络由神经元组成,每个神经元仅执行简单的计算。神经网络的力量来自于这些神经元能够形成的连接的复杂性。 线性单元 那么让我们从神经网络的根本组件开始:单个神经元。作为一个图示,一个具有一个输入的神经元(或单元)看起来像: 线性单元: 输入是 x 。它与神经元的连接有一个权…

2026年1月29日 0条评论 18点热度 0人点赞 MuWinds 阅读全文

缺失值处理 1) 一个简单的选项:删除包含缺失值的列 最简单的选择是删除包含缺失值的列。 除非被删除列中的大多数值缺失,否则这种方法会使模型丢失大量(潜在有用!)的信息。举一个极端的例子,考虑一个包含10,000行的数据集,其中一列缺少一个条目。这种方法会完全删除该列! 2) 更好的选择:插补 Imputation 会用一些数字填补缺失值。例如,我们可以沿每一列填充均值。 在大多数情况下,插补的值不会完全正确,但它通常能比完全删除该列得到更准确的模型。 3) 对插补的扩展 插补是标准方法,通常效果良好。然而,插补的…

2026年1月29日 0条评论 11点热度 0人点赞 MuWinds 阅读全文

记录写kaggle练习时记录的东西 最基础的决策树模型 下面是假设: 你的表弟靠房地产投机赚了数百万美元。他因为你对数据科学感兴趣,所以提出和你合伙做生意。他出资,你则提供预测不同房屋价值的模型。 你问表弟过去是如何预测房产价值的,他说只是凭直觉。但进一步询问后发现,他其实是从过去看过的房子中总结出了价格规律,并利用这些规律来预测他正在考虑的新房的价格。 机器学习的工作原理也类似。我们将从一种叫做决策树的模型开始。虽然还有更高级的模型可以给出更准确的预测,但决策树易于理解,并且是数据科学领域一些最佳模型的基础构建模…

2026年1月22日 0条评论 22点热度 0人点赞 MuWinds 阅读全文

第一次遇到技术面,由于我问题没答上来几道并且时间排不开,所以无疾而终…… 这个岗位的背景:会用Linux进行定位和调试,需要用Python+Django技术栈编写一些简单的运维工具。 第一部分:根据简历进行自我介绍 第二部分:技术面试: 1. Python 中什么场景用Django合适?什么时候用FastAPI合适? Django 适合的场景:​全功能型 Web 应用​需要内置完整功能(如 Admin 后台、ORM、用户认证、模板引擎)。适合内容管理系统(CMS)、电商平台、社交网站等业务逻辑复杂、需要快速原型开发…

2026年1月6日 0条评论 51点热度 0人点赞 MuWinds 阅读全文

这是个很奇怪的需求,但是还是有 当然了,也有移除kali源的

2025年10月31日 0条评论 104点热度 1人点赞 MuWinds 阅读全文

最近在翻一些距离算法并考虑他们的GPU并行化实现,记录一下。 这里从图片转成向量开始,利用opencv配合torchvision,转成tensor还是比较容易的。 这里的to_tensor的大致实现如下: 从熟悉的欧氏距离开始,一个经典的欧氏距离就是两点之间计算,公式如下: 在几何距离和数学建模常见的聚类(例如K-Means)计算相对常用。 对于两个点之间的差异,还有一个常用于网格路径优化的距离就是曼哈顿距离,本身的定义是两个坐标在坐标轴上的绝对值之和。 pytorch的快速实现: 此时就得引入范数的概念了,因为p…

2025年10月7日 0条评论 489点热度 1人点赞 MuWinds 阅读全文

无论是打数模还是单纯的搞机器学习,都需要对最后训练结果进行分析,这时候常用的四个指标:准确率、召回率、精确率、F1分数。 作为指标,一定会涉及几个方面 假设: TP (预测正确):30个FN (漏检):10个FP (误认为是):15个TN (预测正确不是):45个 这四个指标可以形成一个混淆矩阵: 1️⃣准确率 (Accuracy) 所有预测结果中,预测正确的比例 最直观的指标,但在数据不平衡时表现不佳 2️⃣精确率 (Precision) 模型所有预测为“苹果”的结果中,有多少是真正的苹果公式:是“预测的准不准”…

2025年9月28日 0条评论 529点热度 0人点赞 MuWinds 阅读全文

下面的内容转载自https://discuss.codecademy.com/t/setting-up-conda-in-git-bash/534473,本人测试效果相当好 A) Open Git BashA)打开 Git Bash Now that you have an idea of how conda should look, go ahead and open Git Bash. As you can see, there is nothing on the prompt to ind…

2025年9月25日 0条评论 524点热度 0人点赞 MuWinds 阅读全文

A.并行计算与并行结构 在所有四类计算机设计中,多级并行化现在是主要动力,功耗和成本是主要限制因素。在应用中基本上有两种并行性: 1.数据级并行(DLP),产生的原因是有许多数据项可以同时操作。 2.任务级并行性(TLP),产生的原因是创建了可以独立操作并在很大程度上并行运行的工作任务。 计算机硬件反过来可以利用这两种应用程序并行性,四种主要方式: 1.指令级并行利用编译器帮助,通过流水线等思想在适度水平上利用数据级并行,在中度水平上使用推测执行等思想。 2.向量架构、图形处理器单元(GPU)和多媒体指令集通过将单…

2025年9月24日 0条评论 362点热度 0人点赞 MuWinds 阅读全文

这里把我的powershell的配置方法做一个整理,我的系统环境是Windows10 22H2 1.关闭ps脚本安全策略 因为我主用conda做环境配置(里面的带的库配置还是很全的,用着好使),powershell默认的配置是限制conda的ps脚本运行的,所以得关掉这个配置。 2.安装psreadline powershell的快捷键配置在windows10下和vscode的poweshell终端不通,主要原因是缺少psreadline的问题,windows11配置了这一部分,所以在windows10系统下得安装…

2025年9月21日 0条评论 543点热度 0人点赞 MuWinds 阅读全文
1234510