关于ZAKER 融媒体解决方案 合作 加入

nlp- 如何在 svm.net 中使用 reuters-21578 数据集进行文本分类?

CocoaChina 11-14

我刚刚启动了文本分类应用程序 , 并且阅读了很多有关此主题的论文 , 但是直到现在我还不知道如何开始 , 我觉得自己还没有完整的图像 . 我已经有了训练数据集并阅读了它的描述 , 并获得了 SVM 算法 ( SVM.Net ) 的出色实现 , 但是我不知道如何在该实现中使用该数据集 . 我知道我应该从数据集的文本中提取特征并将这些特征用作 SVM 的输入 , 所以任何机构都可以告诉我有关如何提取文本特征并将其用作 SVM 算法输入的详细教程 , 然后使用该算法对新文本进行分类?

而且 , 如果有关于使用 SVM 进行文本分类的完整示例 , 那就太好了 .

任何帮助 , 将不胜感激 .

提前致谢 .

最佳答案

创建用于文本分类的功能可以像您想要的那样复杂 .

一种简单的方法是将每个不同的术语映射到特征索引 . 然后 , 您将每个文档表示为每个术语频率的向量 . ( 您可以删除停用词 , 加权词等 ) . 对于文本分类 , 您还将为每个向量分配标签 .

例如 , 如果文档是句子:

John loves Mary

标签为 " 垃圾邮件 ".

然后 , 您可能具有以下映射:

John : 1loves: 2Mary: 3

您的向量将变为:

1 1 2 1 3 1

( 我假设每个要素的权重为一 )

我不了解 SVM.NET, 但是大多数受监督的机器学习方法将接受基于向量的输入 .

以上内容由"CocoaChina"上传发布 查看原文
相关标签 数据

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容