山不过来,我就过去
这里没有什么东西,你就随便看看。
小记BertTokenizer中英文分词 小记BertTokenizer中英文分词
使用Hugging Face提供的pytorch接口来使用bert,这篇主要记录下BertTokenizer中英文分词情况。 1、准备pip install pytorch-pretrained-bert 2、分词思路BertToken
利用sklearn实现文本多分类实验demo 利用sklearn实现文本多分类实验demo
常见的文本分类中,二分类问题居多,多分类问题其实也挺常见的,这里简单给出一个多分类的实验demo。 1 引入相应的库# 引入必要的库 import numpy as np import matplotlib.pyplot as plt fr
Bag of Words Meets Bags of Popcorn(3)-Word2Voc Bag of Words Meets Bags of Popcorn(3)-Word2Voc
词带模型:Bag of Words Meets Bags of Popcorn(1)-Bag of WordsTfidf模型:Bag of Words Meets Bags of Popcorn(2)-tfidf这一节采用词向量 1、读取数
Bag of Words Meets Bags of Popcorn(2)-tfidf Bag of Words Meets Bags of Popcorn(2)-tfidf
本篇是kaggle之电影评论文本情感分类(Bag of Words Meets Bags of Popcorn)实现的第二篇,语言模型选择的是TFIDF主要参考:https://www.kaggle.com/rajathmc/bag-of-
Bag of Words Meets Bags of Popcorn(1)-Bag of Words Bag of Words Meets Bags of Popcorn(1)-Bag of Words
本篇是kaggle之电影评论文本情感分类(Bag of Words Meets Bags of Popcorn)的实现,主要参照Rajath Chidananda的《Bag of Words Meets Bags of Popcorn》,整
【文本相似度】利用余弦相似性计算句子的相似度 【文本相似度】利用余弦相似性计算句子的相似度
好吧,在处理文本的过程中有陷入了一个胡同,不知道接下来该做啥了。于是又在网上找相关的资料,无意间发现了两篇写得超级超级好的博客,是讲文本相似度,之前也学过,但是这两篇博文写得非常棒,深入浅出。然后也按照博文进行了代码实现,在此记录下,也作为
【NLTK基础教程】02  何为文本歧义 【NLTK基础教程】02 何为文本歧义
文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。好吧,书中将文本歧义定义为数
【NLTK基础教程】01-02 利用nltk统计词频 【NLTK基础教程】01-02 利用nltk统计词频
在上篇中,简单的介绍了三种获取有效文本的方法,那么接下来就利用nltk来统计这些文本中出现的次数。我们首先来看下传统统计词频的方法: import operator freq_dis={} for tok in tokens: if
【NLTK基础教程】01-1 三种获取网页中有效文本的方法 【NLTK基础教程】01-1 三种获取网页中有效文本的方法
本篇是《NLTK基础教程》第一章的第三节,向NLTK迈进中的一个例子,获取网页中的文本的三种方法。 1 抓取网页这里主要是用了urllib库中的函数来抓取指定网页,代码如下: import urllib.request response=u
【自然语言处理入门】03:利用线性回归对数据集进行分析预测(下) 【自然语言处理入门】03:利用线性回归对数据集进行分析预测(下)
上一篇中我们简单的介绍了利用线性回归分析并预测波士顿房价数据集,那么在这一篇中,将使用相同的模型来对红酒数据集进行分析。 1 基本要求利用线性回归,对红酒数据集进行分析。数据集下载地址。 2 完整代码#-*- coding: UTF-8
【自然语言处理入门】03:利用线性回归对数据集进行分析预测(上) 【自然语言处理入门】03:利用线性回归对数据集进行分析预测(上)
本篇笔记是《从自然语言处理到机器学习入门》课程第三次作业的上篇,主要是复现了老大课上讲的利用线性回归对波士顿房价进行预测的实验。在下篇中,将利用该模型对红酒数据集进行线性回归分析。 1 基本要求利用提供的波士顿房价数据,对其进行分析。数据
【自然语言处理入门】02:Kenlm语料库的制作与模型的训练 【自然语言处理入门】02:Kenlm语料库的制作与模型的训练
本文是《从自然语言处理到机器学习入门》系列课程的第二次作业,由于我的作业环境没有配好(配了n次了还是不行T_T),但是为了保证这一系列作业的完整性,于是经罗曜强律师同意,人工智能A7论坛授权,转载他的作业笔记。 1 基本要求通过自己训练的
1 / 2