玉林社区   玉林天天茶座   明白:1网页文本预处理方法有几种-
返回列表
查看: 420|回复: 0

明白:1网页文本预处理方法有几种-

[复制链接]

1771

主题

1771

帖子

6446

积分

论坛元老

Rank: 8Rank: 8

积分
6446
发表于 2022-4-27 21:59:50 | 显示全部楼层 |阅读模式

马上注册玉林红豆网会员,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

分词算法概述[url=http:///www.u8y.com/]常州建站[/url]的相关问题可以到网站了解下,我们是业内领域专业的平台,您如果有需要可以咨询,相信可以帮到您,值得您的信赖![align=center]

                               
登录/注册后可看大图
[/align]
分词方法根据语种连续性特点的不同而不同:英文分词、英文文本相邻两词之间是由空格或标点符号间隔的,是一种天然的分词。
英文分词
是指通过策略还原英文单词原型,或者说,是将很多基于某个单词的变种变为同一个原型。根据语法需要,英文文本单词的变换形式多种多样,通过英文分词算法处理得到单词原型。虽然英文不涉及分词,但可以通过划分短语来取得更好的效果,目前英国剑桥大学计算机验室的算法是比较好的英文分词算法。




中文分词
中文分词技术属于自然语言处理技术的范畴,是信息检索、信息挖掘的研究基础。由于中文文本与西方语言文本不同,是一串间隔的连续的攻字字符文本语言,即一个句子里的词与词之间没有空格或分隔符。同时,由于中文语法复杂,句式灵活,同义词繁多,所以中文文本语句的切分方法也很灵活大多数分词算法是为中文文本设计的。文本分词过程是计算机通过程序在中文文本的词与词之间自动加入空格,将间隔的字序列按照一定的规则切割成单独的词的过程,它是中文文本的特征选择和量化的基础,分词精度会影响到后面的文本分类算法。目前,比较成熟的分词算法有种:基于词典的分词方法,基于理解的分词方法和基于统计的分词。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

收藏:1 | 帖子:8万



侵权举报:本页面所涉内容均为用户发表并上传,岭南都会网仅提供存储服务,岭南都会网不承担相应的法律责任;如存在侵权问题,请权利人与岭南都会网联系删除!