EricKun

发表于2020-04-08|技巧报错

mac安装cnpm报错错误如图：报错原因：npm WARN checkPermissions Missing write access to /usr/local/lib/node_modules此报错原因是由于没有权限，加上sudo即可解决！sudo npm install -g cnpm –registry=https://registry.npm.taobao.org大功告成：

keras模型可视化利器

置顶|发表于2020-04-08|深度学习模型可视化

安装graphviz使用Mac的brew安装即可，命令行： 1brew install graphviz 查看graphviz安装到的路径1brew list graphviz 出现下图：添加环境变量到路径12import osos.environ["PATH"] += os.pathsep + '/usr/local/Cellar/graphviz' 运行代码运行绘制模型plot_model代码之前，预先定义好一个model，例如： 12345678910111213141516171819from keras.models import Sequentialfrom tensorflow import * from keras.layers.embeddings import Embedding from keras.layers import Conv1D, MaxPooling1D, Flatten, Dropout, Dense, Input, Lambda,BatchNormalization from keras.models import Modelmodel = ...

文本处理中常见的Str/list转换

发表于2020-04-08|技巧文本处理

归纳在文本处理的nlp领域，经常需要将大量文本格式进行不断的转换进而达到模型输入的需求，每次转换我总在尝试，也觉得很费时间，但其实每次用到的函数大同小异，不希望经常做重复的工作，遂总结一些常见类型转换，方便以后随时调用。常用的函数: 123456789split: str.split(str="", num=string.count(str)) split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串replace: replace(rgExp, replaceText, max)：可以替换任意指定的字符join: "str".join(),连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串strip(str)：可以去除头尾指定字符，参数为空时，默认去除字符串中头尾的空格字符（常用来去掉读取txt后的换行符） 1.形式1：脱去一层list) 1234all_words2 = []for sentence in all_words: ...

朴素贝叶斯理论

置顶|发表于2020-04-08|机器学习朴素贝叶斯

（三）朴素贝叶斯定义：朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。首先学习输入/输出的联合概率分布,然后基于此模型,对给定的输入$x$,利用贝叶斯定理求出后验概率最大的输出$y$。模型:首先学习先验概率分布：$P(Y=c_k),k=1,2,…,K$ , $c_k$代表某一类，也就是计算该类别的概率（在样本中我们已知）然后学习条件概率分布：$P(X=x|Y=c_k)=P(X^{1}=x^{1},…,X^{n}=x^{n}|Y=c_k)$，给定一个类别$c_k$，计算该样本各个特征的概率,比如该样本第一个特征为朴素贝叶斯法对条件概率分布作了条件独立性的假设：$$P(X^{(1)}=x^{(1)}|Y=c_k)P(X^{(2)}=x^{(2)}|Y=c_k)…P(X^{(j)}=x^{(j)}|Y=c_k)$$上式变成:$$\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)$$在分类时,通过学习到的模型计算后验概率分布,由贝叶斯定理得到:$$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X= ...

React

发表于2020-04-07|技术栈React

我的第一篇博客文章

发表于2020-04-07|技术栈Python

提升效率集锦

置顶|发表于2020-02-08|技巧提升效率

Mac提升效率软件1.Alfred无论在mac上还是win上，在提升效率这一领域，永远是不断的追寻制高点，从win转mac也有将近半年之久了，谈起”如何提高效率“，无疑是我平时休闲之余最爱的关注点，例如像win上的everything：它将我的电脑中的所有文件存为字典以便秒速访问，类似于Mac上的Alfred，设定快捷方式：option+空格来唤醒，找文件：find+文件名；使用搜索功能可以用默认，也可以自定义：比如我自定义了：zh+内容（跳转知乎搜索）；db+内容（豆瓣搜索）…，大大提升了切换页面浏览器的效率！这还不是最强的，work flow功能可以嵌入自定义脚本，脚本可以去github上找，我最喜欢用的是：OCR功能，工作流：先截图（存到了剪切板）—》调出Alfred，输出OCR，将图片转化为文字返回到剪切板，速度大概在2秒左右：（教程直接百度有，但是其中要去百度OCR申请key，不麻烦）当然，还可以当做计算器，偶尔用一下： 2.Paste强推这个复制粘贴板，简单来说就是将近期复制粘贴的内容存在一块板上，可以访问历史，我平时用的非常多！command+shift+v调出剪切板 3 ...

利用TextCNN对IMDB做文本分类任务

置顶|发表于2020-02-01|深度学习TextCNN

参考博客： imdb预处理 TextCNN模型 1.下载kaggle数据集,并进行文本预处理：123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778# 导入相应的包import pandas as pdimport warningsimport reimport matplotlib.pyplot as pltfrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import stopwordsfrom keras.preprocessing.text import Tokenizerfrom keras.preprocessing.sequence import pad_sequencesfrom keras.layers import Dense, LSTM, Embedding, Dro ...

Mactex写论文

置顶|发表于2019-12-22|技巧论文排版

前言这两个下载mactex花了不少时间，参考了不少文章，有的推荐texstudio、texpad等等，最终还是比较喜欢mactex+sublime text3+skim，环境配置方面并不算麻烦，只要一步一步来就ok！本文主要分为如下几个部分，帮助大家迅速安装Mac版的latex，成为论文高产者！安装Mactex如果在官网下载mactex，速度非常慢，这里推荐使用mac的必备终端插件homebrew，不用担心学习成本，很简单几步就可以完成可以参考网站：打开mac终端(在实用工具里面) 输入： 1/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 更改为国内中科大镜像资源：在访达中搜索： brew_install,用文本编辑器打开：将下方内容用#注释: 1BREW_REPO = “https:// ...

文本抽取算法Textrank

置顶|发表于2019-12-20|机器学习文本抽取

理论基础Textrank实际上，TextRank就是PageRank在文本上的应用。PageRank是一种用于排序网页的随机算法，它的工作原理是将互联网看作有向图，互联网上的网页视作节点，节点$V_i$到节点$V_j$，的超链接视作有向边，初始化时每个节点的权重$S(V_i)$都是1，以迭代的方式更新每个节点的权重。每次迭代权重的更新表达式如下：$$S(V_i)=(1-d)+d\times{\sum_{V_j\in{In(V_j)}}\frac{1}{|Out(V_j)|}}$$ 其中$d$是一个介于$(0，1)$之间的常数因子，在PageRank中模拟用户点击链接从而跳出当前网站的概率. $In(V_j)$表示链接到的节点集合. $Out(V_j)$表示从$V_j$出发链接到的节点集合可见，并不是外链越多，网站的PageRank就越高。网站给别的网站做外链越多，每条外链的权重就越低（如垃圾网站之间相互链接）。因为根据式中的分式$\frac{1}{|Out(V_j)|}$，外链权重跟外链总数成反比，与提供外链的网站权重成正比。如果一个网站的外链都是这种权重很低的外链，那么在迭代中它的P ...