BERT模型实战之多文本分类(附源码)--688IT编程网

BERT模型实战之多⽂本分类（附源码）

BERT模型也出来很久了，之前看了论⽂学习过它的⼤致模型（可以参考前些⽇⼦写的笔记），但是⼀直有杂七杂⼋的事拖着没有具体去实现过真实效果如何。今天就趁机来动⼿写⼀写实战，顺便复现⼀下之前的内容。这篇⽂章的内容还是以⽐较简单⽂本分类任务⼊⼿，数据集选取的是新浪新闻cnews，包括了[‘体育’, ‘财经’, ‘房产’, ‘家居’, ‘教育’, ‘科技’, ‘时尚’, ‘时政’, ‘游戏’, ‘娱乐’]总共⼗个主题的新闻数据。那么我们就开始吧！

Transformer模型

BERT模型就是以Transformer基础上训练出来的嘛，所以在开始之前我们⾸先复习⼀下⽬前NLP领域可以说是最⾼效的‘变形⾦

刚’Transformer。由于⽹上Transformer介绍解读⽂章满天飞了都，这⾥就不浪费太多时间了。

本质上来说，Transformer就是⼀个只由attention机制形成的encoder-decoder结构。关于attention的具体介绍可以参考之前这篇。理解Transformer模型可以将其进⾏解剖，分成⼏个组成部分：

1. Embedding （word + position）

2. Attention mechanism （scaled dot-product + multi-head）

3. Feed-Forward network

4. ADD（类似于Resnet⾥的残差操作）

5. Norm（加快收敛）

6. Softmax

7. Fine-tuning

前期准备

1.下载BERT

我们要使⽤BERT模型的话，⾸先要去github上下载相关源码：

git clone github/google-research/bert.git

下载成功以后我们现在的⽂件⼤概就是这样的

2.下载bert预训练模型

Google提供了多种预训练好的bert模型，有针对不同语⾔的和不同模型⼤⼩的。Uncased参数指的是将数据全都转成⼩写的（⼤多数任务使⽤Uncased模型效果会⽐较好，当然对于⼀些⼤⼩写影响严重的任务⽐如NER等就可以选择Cased）

对于中⽂模型，我们使⽤。下载后的⽂件包括五个⽂件：

bert_model.ckpt：有三个，包含预训练的参数

<：词表

bert_config.json：保存模型超参数的⽂件

3. 数据集准备

前⾯有提到过数据使⽤的是新浪新闻分类数据集，每⼀⾏组成是【标签+ TAB + ⽂本内容】

Start Working

BERT⾮常友好的⼀点就是对于NLP任务，我们只需要对最后⼀层进⾏微调便可以⽤于我们的项⽬需求。我们只需要将我们的数据输⼊处理成标准的结构进⾏输⼊就可以了。

DataProcessor基类

⾸先在run_classifier.py⽂件中有⼀个基类DataProcessor类：

class DataProcessor(object):

"""Base class for data converters for sequence classification data sets."""

def get_train_examples(self, data_dir):

"""Gets a collection of `InputExample`s for the train set."""

raise NotImplementedError()

def get_dev_examples(self, data_dir):

"""Gets a collection of `InputExample`s for the dev set."""

raise NotImplementedError()

def get_test_examples(self, data_dir):

"""Gets a collection of `InputExample`s for prediction."""

raise NotImplementedError()

def get_labels(self):

"""Gets the list of labels for this data set."""

raise NotImplementedError()

@classmethod

def_read_tsv(cls, input_file, quotechar=None):

"""Reads a tab separated value file."""

with tf.gfile.Open(input_file,"r")as f:

reader = ader(f, delimiter="\t", quotechar=quotechar)

lines =[]

for line in reader:

lines.append(line)

return lines

在这个基类中定义了⼀个读取⽂件的静态⽅法_read_tsv，四个分别获取训练集，验证集，测试集和标签的⽅法。接下来我们要定义⾃⼰的数据处理的类，我们将我们的类命名为MyTaskProcessor

编写MyTaskProcessorpython怎么读取py文件

MyTaskProcessor继承DataProcessor，⽤于定义我们⾃⼰的任务

class MyTaskProcessor(DataProcessor):

"""Processor for my task-news classification """

def__init__(self):

self.labels =['体育','财经','房产','家居','教育','科技','时尚','时政','游戏','娱乐']

def get_train_examples(self, data_dir):

return self._create_examples(

self._read_tsv(os.path.join(data_dir,'')),'train')

def get_dev_examples(self, data_dir):

return self._create_examples(

self._read_tsv(os.path.join(data_dir,'')),'val')

def get_test_examples(self, data_dir):

return self._create_examples(

self._read_tsv(os.path.join(data_dir,'')),'test')

def get_labels(self):

return self.labels

def_create_examples(self, lines, set_type):

"""create examples for the training and val sets"""

examples =[]

for(i, line)in enumerate(lines):

guid ='%s-%s'%(set_type, i)

text_a = vert_to_unicode(line[1])

label = vert_to_unicode(line[0])

examples.append(InputExample(guid=guid, text_a=text_a, label=label))

return examples

注意这⾥有⼀个self._read_tsv（）⽅法，规定读取的数据是使⽤TAB分割的，如果你的数据集不是这种形式组织的，需要重写⼀个读取数据的⽅法，更改“_create_examples()”的实现。

编写main以及训练

⾄此我们就完成了对我们的数据加⼯成BERT所需要的格式，就可以进⾏模型训练了。

def main(_):

tf.logging.set_verbosity(tf.logging.INFO)

processors ={

"cola": ColaProcessor,

"mnli": MnliProcessor,

"mrpc": MrpcProcessor,

"xnli": XnliProcessor,

"mytask": MyTaskProcessor,

}

python run_classifier.py \

--task_name=mytask \

--do_train=true \

-do_eval=true \

--data_dir=$DATA_DIR/ \

--vocab_file=$BERT_BASE_ \

--bert_config_file=$BERT_BASE_DIR/bert_config.json \

--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \

--max_seq_length=128 \

--train_batch_size=32 \

--learning_rate=2e-5 \

--num_train_epochs=3.0 \

--output_dir=mytask_output

其中DATA_DIR是你的要训练的⽂本的数据所在的⽂件夹，BERT_BASE_DIR是你的bert预训练模型存

放的地址。task_name要求和你的DataProcessor类中的名称⼀致。下⾯的⼏个参数，do_train代表是否进⾏fine tune，do_eval代表是否进⾏evaluation，还有未出现的参数do_predict代表是否进⾏预测。如果不需要进⾏fine tune，或者显卡配置太低的话，可以将do_trian去掉。max_seq_length代表了句⼦的最长长度，当显存不⾜时，可以适当降低max_seq_length。

BERT prediction

上⾯⼀节主要就是介绍了怎么去根据我们实际的任务（多⽂本分类）去fine-tune bert模型，那么训练好适⽤于我们特定的任务的模型后，接下来就是使⽤这个模型去做相应地预测任务。预测阶段唯⼀需要做的就是修改 – do_predict=true。你需要将测试样本命名为

test.csv，输出会保存在输出⽂件夹的test_result.csv，其中每⼀⾏代表⼀个测试样本对应的预测输出，每⼀列代表对应于不同类别的概率。

688IT编程网

BERT模型实战之多文本分类(附源码)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

BERT模型实战之多文本分类(附源码)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式