背景:从提供的金融文本中识别出未出现的未知金融实体
一、简单的熟悉数据
使用数据:
部分数据如下:
二、清理数据
(1)找出所有的非中文、非英文、非数字符号
(2)一些要保留的符号
(3)找出他们之间的差异
(4)过滤掉一些停止词其噪声
(5)对数据进行处理:我们将title和text的数据一起考虑
可视化train_df:
三、探索数据
(1) 原始数据中可能存在一些错误的标签我们需要将其找出来
(2)修复错误标签
(3)将处理后的数据重新存储
(4)看一下句子长度的分布
重新加载初步处理好的数据:
统计一下每个区间的长度的个数:
看下总体描述:
最大长度是32212,最小长度是4,75%的数据长度在1357以下。
句子还是比较长的,我们需进分句处理:
删除掉为Unname的那一列:
同样的我们要对测试集也进行相应的划分,这里的测试集是没有标签的:
五折划分数据(可选)
验证切分是否正确:
四、保存数据
参考:https://github.com/ChileWang0228/Deep-Learning-With-Python/
免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052