命名实体识别数据预处理

志霖 餐饮美食 2024-12-20 4 0

背景:从提供的金融文本中识别出未出现的未知金融实体

一、简单的熟悉数据

使用数据:

部分数据如下:

二、清理数据

(1)找出所有的非中文、非英文、非数字符号

(2)一些要保留的符号

(3)找出他们之间的差异

(4)过滤掉一些停止词其噪声

命名实体识别数据预处理

(5)对数据进行处理:我们将title和text的数据一起考虑

可视化train_df:

三、探索数据

(1) 原始数据中可能存在一些错误的标签我们需要将其找出来

(2)修复错误标签

(3)将处理后的数据重新存储

(4)看一下句子长度的分布

重新加载初步处理好的数据:

统计一下每个区间的长度的个数:

看下总体描述:

命名实体识别数据预处理

最大长度是32212,最小长度是4,75%的数据长度在1357以下。

句子还是比较长的,我们需进分句处理:

删除掉为Unname的那一列:

同样的我们要对测试集也进行相应的划分,这里的测试集是没有标签的:

五折划分数据(可选)

验证切分是否正确:

四、保存数据

参考:https://github.com/ChileWang0228/Deep-Learning-With-Python/

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文

志霖

这家伙太懒。。。

  • 暂无未发布任何投稿。