您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页一种企业风险评估方法[发明专利]

一种企业风险评估方法[发明专利]

来源:华佗小知识
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 108197178 A(43)申请公布日 2018.06.22

(21)申请号 201711400594.5(22)申请日 2017.12.22

(71)申请人 国云科技股份有限公司

地址 523808 广东省东莞市松山湖科技产

业园区松科苑14号楼(72)发明人 侯朋 李勇波 季统凯 

(74)专利代理机构 北京科亿知识产权代理事务

所(普通合伙) 11350

代理人 汤东凤(51)Int.Cl.

G06F 17/30(2006.01)G06Q 10/06(2012.01)

权利要求书2页 说明书4页 附图3页

(54)发明名称

一种企业风险评估方法(57)摘要

本发明涉及大数据技术领域,尤其是一种企业风险评估方法。本发明所述的方法包括数据采集、风险评分和风险评分校正;所述的数据采集是在互联网上采集企业相关的文本数据;所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。本发明实现了对企业风险的全面分析、评估。CN 108197178 ACN 108197178 A

权 利 要 求 书

1/2页

1.一种企业风险评估方法,其特征在于:所述的方法包括数据采集、风险评分和风险评分校正;

所述的数据采集是在互联网上采集企业相关的文本数据;

所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;

所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。

2.根据权利要求1所述的方法,其特征在于:所述的文本数据的采集流程是:第一步,获取待采集的URL;第二步,解析DNS找到服务器的IP;第三步,抓取网页数据获取网页html代码;第四步,解析页面html代码获取文本内容;第五步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL队列;第六步,进行文本特征提取,生成网页指纹;第七步,判断内容是否重复;第八步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第九步,使用crf命名识别找出文章相关联的企业;第十步,把文章文本内容以及相关的企业存储数据库。3.根据权利要求1所述的方法,其特征在于:所述的文本倾向性识别流程是:第一步,人工标注训练样本集;第二步,对训练样本进行自动分词;第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;第八步,利用逻辑分类器对文本进行分类;第九步,得到文本的倾向性分类结果;第十步,取企业相关所有文本的情感分析结果的均值作为最后结果。4.根据权利要求2所述的方法,其特征在于:所述的文本倾向性识别流程是:第一步,人工标注训练样本集;第二步,对训练样本进行自动分词;第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;第八步,利用逻辑分类器对文本进行分类;

2

CN 108197178 A

权 利 要 求 书

2/2页

第九步,得到文本的倾向性分类结果;第十步,取企业相关所有文本的情感分析结果的均值作为最后结果。5.根据权利要求1至4任一项所述的方法,其特征在于:所述的做线性回归模型得到初始分数是:

第一步,抽取各类数据一级特征,数据抽取有无刑事案件以及案件个数作为特征,人力资源数据抽取连续6个月员工人数,社保、供水、供电、国税、地税数据抽取连续6个月缴费数据,把是否欠费、欠费月数作为特征,司法数据抽取有无诉讼以及诉讼个数作为特征,外资数据抽取最近6个月有无外资撤资作为特征;

第二步,抽取二级特征,人力资源、社保、供水、供电、国税、地税连续6个月的环比数、环比率;

第三步,特征处理,对布尔型特征采取{0,1}表示,数值型特征进行归一化;第四步,人工标注一批数据集作为训练集;第五步,模型训练,使用Lasso回归,采用梯度下降法进行模型训练;第六步,根据训练得到的参数对企业进行评分。6.根据权利要求1至4任一项所述的方法,其特征在于:所述的对企业进行分数校正流程是:

第一步,构建企业投资关系图;第二步,采用广度优先搜索方法搜索父节点f、父节点的父节点ff、子节点s、子节点的子节点ss;

第三步,计算最终分数,公式如下:

其中nf、nff、ns、nss分别为父节点、父父节点、子节点、子子节点个数,λλλλfi、ffi、si、ssi为第i个父节点、父父节点、子节点、子子节点的投资比例,αααα父fi、ffi、si、ssi为第i个父节点、父节点、子节点、子子节点的参数,设置为1/10;Rfi、Rffi、Rsi、Rssi为第i个父节点、父父节点、子节点、子子节点的初始分数,R为当前节点的初始分数。

7.根据权利要求5所述的方法,其特征在于:所述的对企业进行分数校正流程是:第一步,构建企业投资关系图;第二步,采用广度优先搜索方法搜索父节点f、父节点的父节点ff、子节点s、子节点的子节点ss;

第三步,计算最终分数,公式如下:

其中nf、nff、ns、nss分别为父节点、父父节点、子节点、子子节点个数,λλλλfi、ffi、si、ssi为第i个父节点、父父节点、子节点、子子节点的投资比例,αααα父fi、ffi、si、ssi为第i个父节点、父节点、子节点、子子节点的参数,设置为1/10;Rfi、Rffi、Rsi、Rssi为第i个父节点、父父节点、子节点、子子节点的初始分数,R为当前节点的初始分数。

3

CN 108197178 A

说 明 书一种企业风险评估方法

1/4页

技术领域

[0001]本发明涉及大数据技术领域,尤其是一种企业风险评估方法。

背景技术

[0002]随着信息技术的飞速发展尤其是互联网大数据的发展以及普及,人类进入了瞬息万变的信息时代。任何企业都处在一个信息庞大的环境中,企业周围充斥着互联网数据、数据、内部系统数据等各种各样的数据。在企业发展过程中欠薪、倒闭等问题时有发生,这对企业的生产经营以及社会环境造成不良影响。

发明内容

[0003]本发明解决的技术问题在于一种基于多模型融合的企业风险评估方法;实现对企业存在风险进行全面的分析、评估。

[0004]本发明解决上述技术问题的技术方案是:[0005]所述的方法包括数据采集、风险评分和风险评分校正;[0006]所述的数据采集是在互联网上采集企业相关的文本数据;

[0007]所述的风险评分是先根据企业网络数据进行文本倾向性识别,然后根据企业、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;

[0008]所述的评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正;根据获得的评分判断企业的风险。[0009]所述的文本数据的采集流程是:[0010]第一步,获取待采集的URL;[0011]第二步,解析DNS找到服务器的IP;[0012]第三步,抓取网页数据获取网页html代码;[0013]第四步,解析页面html代码获取文本内容;[0014]第五步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL队列;

[0015]第六步,进行文本特征提取,生成网页指纹;[0016]第七步,判断内容是否重复;[0017]第八步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;

[0018]第九步,使用crf命名识别找出文章相关联的企业;[0019]第十步,把文章文本内容以及相关的企业存储数据库。[0020]所述的文本倾向性识别流程是:[0021]第一步,人工标注训练样本集;[0022]第二步,对训练样本进行自动分词;

4

CN 108197178 A[0023][0024][0025][0026][0027]

说 明 书

2/4页

第三步,利用情感词表标识文本中的情感特征词;第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;第五步,根据文本情感特征和权重得到文档情感向量的特征空间;第六步,根据企业名称查找相关的文本;第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征

空间;

[0028]

第八步,利用逻辑分类器对文本进行分类;

[0029]第九步,得到文本的倾向性分类结果;[0030]第十步,取企业相关所有文本的情感分析结果的均值作为最后结果。[0031]所述的做线性回归模型得到初始分数是:[0032]第一步,抽取各类数据一级特征,数据抽取有无刑事案件以及案件个数作为特征,人力资源数据抽取连续6个月员工人数,社保、供水、供电、国税、地税数据抽取连续6个月缴费数据,把是否欠费、欠费月数作为特征,司法数据抽取有无诉讼以及诉讼个数作为特征,外资数据抽取最近6个月有无外资撤资作为特征;[0033]第二步,抽取二级特征,人力资源、社保、供水、供电、国税、地税连续6个月的环比数、环比率;[0034]第三步,特征处理,对布尔型特征采取{0,1}表示,数值型特征进行归一化;[0035]第四步,人工标注一批数据集作为训练集;[0036]第五步,模型训练,使用Lasso回归,采用梯度下降法进行模型训练;[0037]第六步,根据训练得到的参数对企业进行评分。[0038]所述的对企业进行分数校正流程是:[0039]第一步,构建企业投资关系图;[0040]第二步,采用广度优先搜索方法搜索父节点f、父节点的父节点ff、子节点s、子节点的子节点ss;[0041]第三步,计算最终分数,公式如下:

[0042]

其中nf、nff、ns、nss分别为父节点、父父节点、子节点、子子节点个数,λλλfi、ffi、si、λ父父节点、子节点、子子节点的投资比例,ααααssi为第i个父节点、fi、ffi、si、ssi为第i个父节点、父父节点、子节点、子子节点的参数,设置为1/10;Rfi、Rffi、Rsi、Rssi为第i个父节点、父父节点、子节点、子子节点的初始分数,R为当前节点的初始分数。

[0044]本发明使用文本分类模型先对企业相关的互联网数据进行情感倾向分析,再利用企业的数据以及互联网数据结果多个维度对企业进行Lasso回归分析得出初始分数,最后考虑到企业之间的关联性对企业评分进行纠正得到最终的评分。经过多个模型融合后提高了企业评测的准确度。

[0045]本发明充分利用了互联网数据、数据,首先对企业资讯数据做情感倾向性分析,然后使用企业各维度数据做Lasso回归,最后又充分考虑企业之间的关系做最终的分数校正,提高了企业风险评测的准确性。

[0043]

5

CN 108197178 A

说 明 书

3/4页

附图说明

[0046]下面结合附图对本发明进一步说明:[0047]图1是本发明分析逻辑流程框图;[0048]图2是本发明数据采集流程图;[0049]图3是本发明风险评分流程图;[0050]图4是本发明企业关系图。

具体实施方式

[0051]如图1-4所示,本发明包括数据采集、风险评分、风险评分校正。数据采集负责在互联网上采集企业相关的文本数据;风险评分先根据企业网络数据进行文本倾向性识别,然后根据企业、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数;评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正。[0052]如图2所示:所述的数据采集负责在互联网上采集企业相关的文本数据,包括如下步骤:[0053]第一步,在URL待采集队列中获取待采集的URL;[0054]第二步,解析DNS找到服务器的IP;[0055]第三步,通过java中URLConnection获取网页数据的html文本内容;[0056]第四步,通过自动或者模板的方式解析页面html代码获取文本内容;[0057]第五步,对抓取的数据进行文本抽取,链接抽取,把本链接加入到已采集列表Visited表,把抽取的链接加入待采集URL队列;[0058]第六步,自动文本特征提取,生成网页SimpleHash指纹;[0059]第七步,计算网页指纹的余弦距离d,如果d>0.9则表示内容重复否则不重复;[0060]第八步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;

[0061]第九步,使用crf命名实体识别找出文章相关联的企业;[0062]第十步,把文章文本内容以及相关的企业存储数据库。[0063]如图3所示:所述的风险评分先根据企业网络数据进行文本倾向性识别,其特征在于:

[00]第一步,人工标注训练样本集;[0065]第二步,对训练样本进行自动分词;[0066]第三步,利用情感词表标识文本中的情感特征词;[0067]第四步,利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算;[0068]第五步,根据文本情感特征和权重得到文档情感向量的特征空间;[0069]第六步,根据企业名称查找相关的文本;[0070]第七步,遍历所有文本进行分词以及特征权重计算,得到文本的情感向量的特征空间;[0071]第八步,利用逻辑分类器对文本进行分类;

6

CN 108197178 A[0072]

说 明 书

4/4页

第九步,得到文本的倾向性分类结果;

[0073]第十步,取企业相关所有文本的情感分析结果的均值做为最后结果。[0074]所述的根据企业、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做线性回归模型得到初始分数,包括如下步骤:[0075]第一步,抽取各类数据一级特征,数据抽取有无刑事案件以及案件个数作为特征,人力资源数据抽取连续6个月员工人数,社保、供水、供电、国税、地税数据抽取连续6个月缴费数据,把是否欠费、欠费月数作为特征,司法数据抽取有无诉讼以及诉讼个数作为特征,外资数据抽取最近6个月有无外资撤资作为特征;[0076]第二步,抽取二级特征,人力资源、社保、供水、供电、国税、地税连续6个月的环比数、环比率;[0077]第三步,特征处理,对布尔型特征采取{0,1}表示,数值型特征进行归一化;[0078]第四步,人工标注一批数据集作为训练集;[0079]第五步,模型训练,使用Lasso回归,采用梯度下降法进行模型训练;[0080]第六步,根据训练得到的参数对企业进行评分。[0081]如图4所示,评分校正充分考虑到企业之间的关系,根据相关企业的初步评分以及企业关系对该企业进行分数校正,包括如下步骤:[0082]第一步,构建企业投资关系图;[0083]第二步,采用广度优先搜索方法搜索父节点f、父节点的父节点ff、子节点s、子节点的子节点ss;[0084]第三步,计算最终分数,公式如下

其中nf、nff、

ns、nss分别为父节点、父父节点、子节点、子子节点个数,λλλλ父fi、ffi、si、ssj为第i个父节点、父节点、子节点、子子节点的投资比例,αααα父父节点、子节点、fi、ffi、si、ssj为第i个父节点、子子节点的超参数设置为1/10,Rfi、Rffi、Rsi、Rssj为第i个父节点、父父节点、子节点、子子节点的初始分数,R为当前节点的初始分数。

7

CN 108197178 A

说 明 书 附 图

1/3页

图1

8

CN 108197178 A

说 明 书 附 图

2/3页

图2

图3

9

CN 108197178 A

说 明 书 附 图

3/3页

图4

10

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务