MAC软件集锦
装机必备:搜狗输入法 去官网下 mac
装软件必备地址:下载软件:网址:https://xclient.info/ 下载安装解压密码:xclient.infohttps://www.macappbox.com/公众号:Mac软件…
常用软件浏览器:chrome (信息量非常大,另起一篇博客细说)pdf:自带用的多;修改方面:pdf expert;acrobat;marginote;思维导图:xmind zen;office:wps写论文:虚拟机:paralles desktop;欧路词典:下载破解的 在csdn上找,Mac天空 - www.mac69.com;markdown:typora看视频用的必备!:inna;自带的QuickTime;压缩文件 解压文件:keka(设置默认打开方式:右键文件–显示简介–全部更改)
提升效率:插件:alfred:工作流:ocr功能:调用百度文本识别api;找文件:用find+空格+文件名;找软件直接搜(详细教程另起)贴图、截图:snipaste截图:xnip最喜欢的剪切板:paste conda deactivate展现快捷键:cheatsh ...
逻辑回归
(五)逻辑回归定义:当给定一个训练集(矩阵),如下:
年龄
工资
学历
逾期
20
4000
本科
YES(Y=1)
25
5000
专科
NO(Y=0)
22
6000
本科
NO
28
5000
专科
YES
27
8000
本科
我们需要去预测最后一个人是否会逾期,归根到底就是要学习从输入到输出的映射$$f:X \rightarrow Y$$
最后求出一个条件概率$P(Y|X)$,即$P(Y=1|27,8000,本科)$,其概率大则逾期可能性大,或者说就是比较$P(Y=1|27,8000,本科)$和$P(Y=0|27,8000,本科)$的大小。
那么能否用线性回归来表示呢?比如:$P(Y=1)=w^Tx+b$,观察过值域后会发现是不行的,概率不大于1,而右边值域为负无穷到正无穷,为了使得等号成立,则需要采用逻辑函数$\sigma$,$$\sigma(x)=\frac{1}{1+e^{-x}}$$
逻辑函数$\sigma(x)$的值域为$(0,1)$满足概率的值域范围,将$w^Tx+b$作为自变量替换即可,条件概率即为:
$$P(Y|X)=\fr ...
决策树
(四)决策树定义:书中实例:贷款申请样本,通过一个人的年龄、是否有工作、是否有自己的房子、信贷情况这四个特征判定,最终构建模型来判别是否给予贷款,如图:希望通过所给的训练数据学习一个贷款申请的决策树,用来对未来贷款申请进行分类(二分类),决策树可以理解成:有一个根节点开始,往下进行分支,越重要的节点应该离根越近,我们将重要的、影响度大的特征作为根节点,依次向下,其次重要的往下面街接,如图:
熵与条件熵的定义:熵: 表示随机变量不确定性的度量,设$X$是一个取有限个值的离散随机变量,其概率分布为:$$P(X=x_i)=p_i, i=1,2,…,n$$则随机变量$X$的熵定义为:$$H(X)=-\sum_{i=1}^{n}p_i\log{p_i}$$越大的概率,得到的熵值越小,也就是说概率大的确定性大,不确定不就小了嘛,反之亦然;举例:$A$集合:[1,1,1,1,1,1,1,2,2] $B$集合:[1,2,3,4,5,6,7,8,9] 显然$A$集合的熵值要 ...
感知机、KNN
前言:参考了一位NLP学长的博客,受益颇多,跟着学长学习李航老师的《统计学习方法》,希望整理一些重点,便于翻阅,日积月累,为三年后的面试打下基础!代码来自:https://www.pkudodo.com
(一)感知机定义:感知机是二分类的线性模型,属于判别模型.感知机学习旨在求出将训练数据进行线性划分的分离超平面.是神经网络和支持向量机的基础。
个人理解:结合看过的《深度学习入门基于python的理论与实现》,感知机说白了就是接受一些信号,输出信号的模型(就像理工科电工科中讲到的逻辑电路一个道理),多个输入信号都有各自固有的权重,这些权重发挥着控制各个信号的重要性的作用,也就是说,权重越大,对应该权重的信号的重要性就越高。那么,有同学就疑问了,为什么是线性呢,非线性不能吗,这里可以看看两张图:
用一条直线是可以将图1正常分割开,而无法将第二张图分割,第一张图在编程实现时用到的是简单的逻辑电路(与门、与非门、或门),但是第二张图这种异或门只能通过多层感知机,也就是神经网络才能够实现。
感知机的几何解释:模型公式:$f(x)=sign(w\cdot x+b)$$w$叫作权值向量,$b$叫做 ...
NLP入门实战之——基于词频和TF-IDF,利用朴素贝叶斯机器学习方法新闻分类
本人是零基础的小白,现在从零开始学习NLP,这是学习的一些简单的笔记,如有错误请指正。编译环境:Jupyter NotebookWindows x64本文数据处理主要分为两个板块:一 是数据预处理(Data Preparation)从而获得所需要的特征(feature),如将数据层层处理(分词、停用词过滤、向量化),本文向量化内容由于使用sklearn库,放置第二板块讲解。二 是利用模型(Modeling)解决具体的问题,本文主要采用朴素贝叶斯经典机器学习方法对文本进行分类。
TOC
一、理论基础下面简单回顾一下理论部分(可以直接跳过到实战部分)
1.1 词频(TF)词频(term frequency) 指的是某一个给定的词语在该文件中出现的频率。对于在某一文件里的词语$t_i$来说,它的重要性可表示为:$$ tf_{ij}=\frac{n_{i,j}}{\sum_kn_{k,j}} $$其中,$n_{i,j}$是该词在文件$d_j$中出现次数,而分母是文件$d_j$中所有字词出现的次数总和。
1.2 逆向文本频率(IDF)逆向文件频率(inverse document frequen ...









