EricKun

置顶|发表于2019-12-08|技巧提升效率

装机必备：搜狗输入法去官网下 mac 装软件必备地址：下载软件：网址：https://xclient.info/ 下载安装解压密码：xclient.infohttps://www.macappbox.com/公众号：Mac软件… 常用软件浏览器：chrome （信息量非常大，另起一篇博客细说）pdf：自带用的多；修改方面：pdf expert；acrobat；marginote；思维导图：xmind zen；office：wps写论文：虚拟机：paralles desktop；欧路词典：下载破解的在csdn上找，Mac天空 - www.mac69.com；markdown：typora看视频用的必备！：inna；自带的QuickTime；压缩文件解压文件：keka（设置默认打开方式：右键文件–显示简介–全部更改）提升效率：插件：alfred：工作流：ocr功能：调用百度文本识别api；找文件：用find+空格+文件名；找软件直接搜（详细教程另起）贴图、截图：snipaste截图：xnip最喜欢的剪切板：paste conda deactivate展现快捷键：cheatsh ...

逻辑回归

置顶|发表于2019-11-15|机器学习逻辑回归

（五）逻辑回归定义：当给定一个训练集（矩阵），如下：年龄工资学历逾期 20 4000 本科 YES（Y=1） 25 5000 专科 NO（Y=0） 22 6000 本科 NO 28 5000 专科 YES 27 8000 本科我们需要去预测最后一个人是否会逾期，归根到底就是要学习从输入到输出的映射$$f:X \rightarrow Y$$ 最后求出一个条件概率$P(Y|X)$，即$P(Y=1|27，8000，本科)$，其概率大则逾期可能性大，或者说就是比较$P(Y=1|27，8000，本科)$和$P(Y=0|27，8000，本科)$的大小。那么能否用线性回归来表示呢？比如：$P(Y=1)=w^Tx+b$,观察过值域后会发现是不行的，概率不大于1，而右边值域为负无穷到正无穷，为了使得等号成立，则需要采用逻辑函数$\sigma$,$$\sigma(x)=\frac{1}{1+e^{-x}}$$ 逻辑函数$\sigma(x)$的值域为$(0,1)$满足概率的值域范围，将$w^Tx+b$作为自变量替换即可，条件概率即为： $$P(Y|X)=\fr ...

决策树

发表于2019-11-13|机器学习决策树

（四）决策树定义：书中实例：贷款申请样本，通过一个人的年龄、是否有工作、是否有自己的房子、信贷情况这四个特征判定，最终构建模型来判别是否给予贷款，如图：希望通过所给的训练数据学习一个贷款申请的决策树，用来对未来贷款申请进行分类（二分类），决策树可以理解成：有一个根节点开始，往下进行分支，越重要的节点应该离根越近，我们将重要的、影响度大的特征作为根节点，依次向下，其次重要的往下面街接，如图：熵与条件熵的定义：熵: 表示随机变量不确定性的度量，设$X$是一个取有限个值的离散随机变量，其概率分布为：$$P(X=x_i)=p_i, i=1,2,…,n$$则随机变量$X$的熵定义为：$$H(X)=-\sum_{i=1}^{n}p_i\log{p_i}$$越大的概率，得到的熵值越小，也就是说概率大的确定性大，不确定不就小了嘛，反之亦然；举例：$A$集合：[1,1,1,1,1,1,1,2,2] $B$集合：[1,2,3,4,5,6,7,8,9] 显然$A$集合的熵值要 ...

感知机、KNN

置顶|发表于2019-11-08|机器学习感知机&KNN

前言：参考了一位NLP学长的博客，受益颇多，跟着学长学习李航老师的《统计学习方法》，希望整理一些重点，便于翻阅，日积月累，为三年后的面试打下基础！代码来自：https://www.pkudodo.com （一）感知机定义：感知机是二分类的线性模型,属于判别模型.感知机学习旨在求出将训练数据进行线性划分的分离超平面.是神经网络和支持向量机的基础。个人理解：结合看过的《深度学习入门基于python的理论与实现》，感知机说白了就是接受一些信号，输出信号的模型（就像理工科电工科中讲到的逻辑电路一个道理），多个输入信号都有各自固有的权重，这些权重发挥着控制各个信号的重要性的作用，也就是说，权重越大，对应该权重的信号的重要性就越高。那么，有同学就疑问了，为什么是线性呢，非线性不能吗，这里可以看看两张图：用一条直线是可以将图1正常分割开，而无法将第二张图分割，第一张图在编程实现时用到的是简单的逻辑电路（与门、与非门、或门），但是第二张图这种异或门只能通过多层感知机，也就是神经网络才能够实现。感知机的几何解释:模型公式:$f(x)=sign(w\cdot x+b)$$w$叫作权值向量,$b$叫做 ...

NLP入门实战之——基于词频和TF-IDF，利用朴素贝叶斯机器学习方法新闻分类

置顶|发表于2019-11-07|机器学习朴素贝叶斯

本人是零基础的小白，现在从零开始学习NLP，这是学习的一些简单的笔记，如有错误请指正。编译环境：Jupyter NotebookWindows x64本文数据处理主要分为两个板块：一是数据预处理（Data Preparation）从而获得所需要的特征（feature），如将数据层层处理（分词、停用词过滤、向量化），本文向量化内容由于使用sklearn库，放置第二板块讲解。二是利用模型（Modeling）解决具体的问题，本文主要采用朴素贝叶斯经典机器学习方法对文本进行分类。 TOC 一、理论基础下面简单回顾一下理论部分（可以直接跳过到实战部分） 1.1 词频(TF)词频（term frequency）指的是某一个给定的词语在该文件中出现的频率。对于在某一文件里的词语$t_i$来说，它的重要性可表示为：$$ tf_{ij}=\frac{n_{i,j}}{\sum_kn_{k,j}} $$其中，$n_{i,j}$是该词在文件$d_j$中出现次数，而分母是文件$d_j$中所有字词出现的次数总和。 1.2 逆向文本频率（IDF）逆向文件频率（inverse document frequen ...