SoReL-20M:2000万恶意软件样本数据集开源

12月14日,网络安全公司Sophos和 ReversingLabs联发布史上最大规模恶意软件研究数据集——SoReL-20M,旨在构建有效的防御能力,增强安全检测和响应的能力。

成都创新互联长期为数千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为永济企业提供专业的成都网站制作、成都网站设计,永济网站改版等技术服务。拥有10年丰富建站经验和众多成功案例,为您定制开发。

SoReL-20M是一个含有2000万Windows PE文件元数据、标签和特征的数据集,其中包含1000万去除恶意软件功能的恶意软件样本,目标是为设计检测恶意软件的机器学习方法提供足够的数据集。同时开源的还有在这些数据上预训练的基于PyTorch 和 LightGBM的机器学习模型作为基准。

自然语言处理和图像处理领域都有很多公开的数据集,比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。与自然语言处理和图像处理领域不同的是,标准化的、标记的数据集对网络安全来说是非常具有挑战性的,因为有很多个人识别的信息、敏感的网络基础设施数据、个人知识产权数据等,更何况要把恶意软件提供给未知的第三方。

2018年发布的EMBER(Endgame Malware BEnchmark for Research)是一个开源的恶意软件分类器,其中只有110万恶意样本,其功能只是单一的标记数据集(恶意软件或非恶意软件),也就是说会限制试验的范围。

SoReL-20M的目标是通过2000万的PE 恶意软件样本来解决这一问题,其中含有1000万去除恶意软件功能的恶意软件样本(无法执行),以及1000万非恶意软件中提取的特征和元数据。

此外,该方法使用基于机器学习的标记模型来生成指定恶意软件样本重要特征的人类可理解的语义描述。

SoReL-20M 的发布与近期业界动向是一致的。20年10月,微软发布了对抗机器学习威胁矩阵来帮助安全分析人员检测、响应和修复针对机器学习系统的对抗攻击。

ReversingLabs研究人员称,安全领域威胁情报共享的思想并不新鲜,但是是非常关键的。人工智能和机器学习已经成为检测新的恶意软件和定向攻击软件的关键,而且应用也越来越广泛。

Github 页面:https://github.com/sophos-ai/SOREL-20M

关于SOREL-20M的论文SOREL-20M:A Large Scale Benchmark Dataset for Malicious PE Detection 下载地址:https://arxiv.org/abs/2012.07634

更多参见:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/

本文翻译自:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如若转载,请注明原文地址。

网站栏目:SoReL-20M:2000万恶意软件样本数据集开源
浏览路径:http://www.hantingmc.com/qtweb/news45/67395.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联