深度探索:LLaMa-3网络安全能力全解析
创始人
2024-11-05 13:34:38

随着人工智能技术的迅速发展,大模型在处理各种复杂任务中展示出了卓越的能力。特别是在网络安全领域,大模型的应用潜力巨大,它们可以帮助自动化处理大量数据、识别潜在威胁和提供安全建议。然而,新型大模型层出不穷,要有效利用这些模型,首先必须验证它们在理解和处理网络安全相关问题上的能力。

4月19日凌晨,Meta开源了新一代 LLaMa-3模型。作为当前最受瞩目的大语言模型之一, LLaMa-3在网络安全领域的表现到底怎样?如何将 LLaMa-3这样的新型大模型快速应用到网络安全问题解决中?腾讯朱雀实验室和腾讯安全科恩实验室基于自研的网络安全大模型评测平台SecBench,对 LLaMa-3在网络安全领域的能力表现进行了全面评测。

SecBench——评测网络安全大模型的新基准

SecBench积累了行业独有的安全评测数据集,覆盖多题型、多任务,支持从能力、语言、领域、安全证书模拟考试等多个维度对大模型的网络安全能力进行评估。同时,SecBench构建了方便快捷的评测框架,支持不同数据、不同模型快速接入评测,输出评测结果。

 https://secbench.org/

 

LLaMa-3 网络安全能力评测结果分析

SecBench对LLaMa-3小参数量模型进行了全面评测,同时与上一代LLaMa-2进行了对比。综合来看, LLaMa-3的网络安全能力相较于上一版本有显著提升。

1. 能力维度

能力维度主要从大模型通用能力的视角,评估大模型对网络安全知识的记忆能力、逻辑推理能力和理解表达能力。在网络安全综合能力上, LLaMa-3相较于LLaMa-2有较大提升(相对提升>44%);从各个细分能力维度上看,如对网络安全知识的记忆能力、逻辑推理能力、理解表达能力等,LLaMa-3也有较明显的提升。特别是在对网络安全知识的理解表达能力上,Llama-3-8B-Instruct模型提升最为明显。

2. 语言维度

语言维度主要评估大模型对不同语言的网络安全知识的学习理解能力,目前覆盖中文和英文两种主流语言。在语言维度的测试中,LLaMa-3相较于LLaMa-2同样有较大提升。同时,可以看出,前后两个版本的模型在英文上的能力表现都优于中文。

3. 领域维度

领域维度从垂类安全视角,评估大模型对网络安全九个子领域问题的解决能力。细分到网络安全各个领域,Llama-3-8B和Llama-3-8B-Instruct综合能力表现相当,在“云安全”和“应用安全”两个子领域表现最佳。

4. 安全证书考试模拟评估

安全证书考试模拟评估是SecBench的特色能力,支持使用信息系统审计、云安全认证、云计算安全管理等经典证书考试模拟试题,评测大模型通过安全证书考试的能力。从安全证书模拟评估上来看,LLaMa-3已经可以通过渗透测试信息系统审计两类模拟评估测试,相对于LLaMa-2的全部不及格也有明显改善。虽然LLaMa-3仍然有部分安全证书模拟考试不及格,但从分数上看,LLaMa-3相较于LLaMa-2还是有很大程度上的提升。

Llama-3-8B-Instruct安全证书模拟评估结果:

Llama-3-8B安全证书模拟评估结果:

Llama-2-7B-Chat安全证书模拟评估结果:

Llama-2-7B安全证书模拟评估结果:

 

问题示例:

综合来看,LLaMa-3 小参数量模型的网络安全能力相较于上一版本有明显提升,但对比Claude-3-Opus、GPT-4等行业头部大模型还有较大差距。Claude-3-Opus与GPT-4在网络安全上的综合得分分别高达0.816和0.7984(更多排名请参考:secbench.org),对于几类安全证书模拟评估也可以高分通过,LLaMa-3的网络安全能力还有较大提升空间。

结束语

SecBench是腾讯朱雀实验室和腾讯安全科恩实验室联合腾讯混元大模型团队、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队以及上海人工智能实验室OpenCompass团队,共同建设的业界首个网络安全大模型评测平台,致力于为大模型在安全领域的应用提供坚实的基座,加速技术落地。未来SecBench将持续构建高质量的网络安全评测数据,紧跟最新大模型的步伐,推动相应的网络安全能力评测。期待能够与学术界、工业界相关从业者携手共创,共同推动网络安全大模型的发展。

相关内容

热门资讯

裸辞做“一人公司”,我后悔了 去年这个时候,一位以色列程序员正在东南亚旅行。他顺手把一个在脑子里转了很久的想法做成了产品,一个让任...
南京建成国内首个Pre-6G试... 4月21日,2026全球6G技术与产业生态大会在南京开幕。全息互动技术展台前,一名远在北京的工作人员...
超梵求职受邀参加“2025抖音... 超梵求职受邀参加“2025抖音巨量引擎成人教育行业生态大会”,探讨分享优质内容传播,服务万千学员。 ...
摩托罗拉Razr 2026(R... IT之家 4 月 22 日消息,摩托罗拉宣布新一代 Razr 折叠手机将于 4 月 29 日在美国发...
库克卸任,特纳斯领航:苹果新纪... 苹果首席执行官蒂姆·库克将卸任,硬件工程主管约翰·特纳斯将接任,苹果公司今天宣布此事。 库克将在夏季...