category

New post

自然语言

使用pycurl获取html内容进行文本处理

自然语言处理中,第一步通常是获取各种文本数据,而当前获取各种html网页是最基本的方式,在python中通常使用urllib2或者urllib3进行获取,但是这些python模块会...
自然语言

Python读取文本行时需处理末尾换行符\n

从数据源读取文本时,通常我们是从包含字符串的文本中一行一行读取数据,此时有个问题需要我们注意:python中一行一行读取数据,最后的换行符(\n)是否被读取了,从实验的结果来看,p...
自然语言

Python导入自定义模块进行文本处理

通常我们会将自己定义文本处理类、函数等放在其他的python文件中,从而实现代码的复用,此时就会遇到如何将这些自定义的模块导入到主程序源代码中的问题 根据模块和主程序所在的位置的不...
自然语言

培养使用数学方法来处理文本的思维

1.为什么要培养使用数学思维和方法来处理文本 文本通常由一个个字符构成,按照处理单元大小的不同它可以是字母、笔画、单词、词组等等,想到文本处理我们常常想到的是程序开发中的字符串操作...
自然语言

自然语言处理中训练集、开发集、测试集划分原则和使用方法

自然语言监督学习中,当我们选择了一个数据集后,通常需要将该数据集划分为训练集、开发集和测试集。 训练集:用于训练模型,从而使我们设计的模型中的参数得到更新 测试集:用于测试我们的模...
自然语言

机器学习和自然语言处理领域论文阅读和思考

自然语言: ACL: 国际计算语言学协会(ACL,The Association for Computational Linguistics),ACL是世界上影响力最大、最具活力的...
自然语言

词形还原(lemmatization)与词干提取(stemming)的区别

词形还原和词干提取均是自然语言处理过程中的预处理阶段,它们通常在英文语系中使用,而在中文中一般不用这两种处理。 使用词形还原和词干提取的目的通常是为了减少词语因为时态,单复数和变形...