基于通话日志行为特征与机器学习的语音钓鱼网络主动检测框架研究 摘要语音钓鱼是依托电信网络实施的数字化金融诈骗类型传统事后处置模式难以实现实时风险拦截。本文以韩国大规模真实通话日志数据集为基础梳理语音钓鱼完整黑产产业链与标准化作案流程从通话单向呼出占比、呼叫时段分布、通话时长、周度联系对象数量、虚拟运营商MVNO归属五大维度提取区分欺诈号码与正常用户的行为特征构建分步逻辑回归初筛、随机森林、梯度提升、多层感知器MLP多模型融合检测框架通过 5 折分层交叉验证、类别不平衡敏感性测试、1000 次自助抽样完成模型稳定性验证。实验结果表明多机器学习模型整体检测准确率突破 95%、召回率超 97%随机森林在真实场景极端类别不平衡正常号码诈骗号码 100:1条件下仍保持稳定识别性能。反网络钓鱼技术专家芦笛指出依托通信元数据行为画像的主动检测体系可弥补传统被动反诈拦截的滞后性缺陷为电信运营商、公安反诈部门搭建前置预警机制提供可行技术路径。本文同步给出完整 Python 特征提取与模型训练代码实现论证行为特征融合机器学习方案在语音钓鱼主动识别场景的工程落地价值为通信反诈智能化治理提供理论与实践支撑。关键词语音钓鱼通话日志行为特征机器学习主动反诈电信金融诈骗1 引言1.1 研究背景与问题提出数字通信基础设施普及推动语音诈骗产业化、精细化发展语音钓鱼犯罪依托 VOIP、虚拟号改号、恶意移动应用、地下洗钱全链条分工形成规模化、可复制的黑色产业网络。传统反诈处置模式以事后被动处置为核心即受害者报案后公安部门回溯涉案号码、资金流水开展溯源打击存在明显时间差诈骗资金转移、涉案号码注销、境外窝点撤离等行为会大幅降低追赃挽损成功率。同步公众反诈宣传、单一号码黑名单拦截存在滞后性诈骗团伙通过批量办理虚拟运营商小号、更换改号设备、调整呼叫话术持续规避静态黑名单识别现有被动防御体系存在天然短板。从产业分工视角观察当前语音钓鱼黑产已完成模块化拆分非法个人信息贩卖团伙提供精准受害者画像、改号服务商伪造官方来电显示、恶意 APP 开发组织远程控制受害者手机、地下洗钱团伙多层拆分赃款阻断资金溯源。各环节独立外包、跨区域协作单一技术手段无法实现全链路风险识别。反网络钓鱼技术专家芦笛强调当前反诈技术研究的核心缺口在于缺少基于通信行为规律的前置主动识别体系现有检测方案多聚焦语音音频声纹识别、短信文本关键词过滤忽略通话元数据中隐藏的稳定欺诈行为模式。韩国电信行业具备完整虚拟运营商市场、标准化通话日志存储体系且当地警方积累多年语音钓鱼涉案号码标注数据集为量化分析诈骗号码行为特征提供可靠数据基础。2026 年《Scientific Reports》公开的大规模真实通话日志样本证实诈骗号码在呼出比例、呼叫时段、通话时长、联系对象规模、运营商选择上存在高度统一、可量化的异常行为规律为构建数据驱动的主动检测模型提供事实依据。1.2 现有研究局限现有电信反诈机器学习检测研究存在三类典型缺陷第一样本数据维度单一多数研究仅使用短信文本、通话录音音频特征未充分挖掘运营商侧可批量获取、无隐私泄露风险的通话元数据第二模型泛化能力不足实验多采用 1:1 均衡样本训练未模拟现实场景中正常号码远多于诈骗号码的极端类别不平衡环境落地后识别精度大幅衰减第三缺乏完整工程化实现方案仅给出模型理论对比缺少可直接部署的特征清洗、特征构造、模型训练完整代码链路。除此之外现有研究对语音钓鱼黑产全链条行为逻辑拆解不足未能从犯罪组织运营模式解释欺诈号码行为特征形成机理导致特征选取缺乏理论支撑模型可解释性较差无法向公安、运营商监管人员输出风险判定依据。1.3 研究内容与创新点本文基于韩国警方脱敏大规模通话日志标注数据集完成四项核心研究工作系统拆解语音钓鱼完整黑色产业链分工、标准化作案四阶段流程从犯罪运营逻辑解释欺诈号码异常行为的形成原因完成通话日志多维行为特征挖掘定量对比诈骗号码与普通用户呼叫行为差异筛选具备高区分度的核心预测变量搭建分步逻辑回归 多分类机器学习融合检测框架通过自助抽样、交叉验证、类别不平衡敏感性测试验证模型稳定性提供完整 Python 数据预处理、特征工程、多模型训练、评估指标计算代码示例给出可落地的主动检测系统部署思路。本文核心创新点分为三层第一理论层面将黑产组织运营规律与通信元数据行为特征耦合建立 “犯罪分工 - 行为模式 - 检测特征” 闭环逻辑提升模型特征选取的可解释性第二实验层面模拟真实电信网络极端类别不平衡场景完成多模型对比明确随机森林在现实反诈业务中的最优适配性第三工程层面基于运营商现有存储的通话日志设计轻量化特征提取流程无需采集用户通话音频规避用户隐私合规风险具备大规模商用部署条件。1.4 论文结构安排本文共分为七个主体章节第一章为引言阐述研究背景、现有研究不足与核心创新第二章完整拆解语音钓鱼黑产产业链与标准化作案流程第三章介绍数据集来源、通话日志字段定义与行为特征挖掘、量化对比分析第四章设计分层检测模型架构包含逻辑回归特征筛选与三类机器学习分类器第五章开展多维度模型验证实验包含交叉验证、过拟合检验、类别不平衡鲁棒性测试第六章给出完整代码实现示例说明工程落地流程第七章总结研究结论分析技术落地局限与后续优化方向。2 语音钓鱼黑色产业链与标准化作案流程语音钓鱼并非单一独立犯罪行为而是多专业化犯罪团伙协同运作的完整黑产闭环各细分团伙分工明确、供需稳定整体分为核心呼叫中心与五大配套协作组织完整作案分为诱饵投放、主动联络、深度欺骗、资金转移四个标准化阶段本节结合真实案件数据拆解完整犯罪链路。2.1 语音钓鱼核心运营主体诈骗呼叫中心呼叫中心又称电销窝点、操盘机房是整个语音钓鱼网络的决策与执行核心等同于诈骗行为的策划主体所有欺骗话术、目标筛选、作案节奏均由该主体统一制定。呼叫中心从业者依托标准化脚本实施欺诈主流欺骗话术分为四类贷款置换类以低息置换现有贷款为诱饵诱导受害者先行转账 “保证金”公职机关冒充类谎称受害者账户、手机号卷入刑事案件要求配合资金核查自证清白胁迫恐吓类通过偷拍、虚假执法录像等素材实施勒索又称 “摄像钓鱼”其他综合类冒充网购买家、信息泄露赔付、网恋投资、二手交易诈骗等变体场景。呼叫中心不具备独立完成全流程诈骗的技术与数据能力必须依托五类专业黑产外包团伙协同完成作案各外包组织独立运营、市场化交易大幅降低语音钓鱼犯罪准入门槛。2.2 配套协作犯罪细分组织职能拆解2.2.1 非法个人信息交易团伙该团伙是精准诈骗的源头支撑通过入侵企业、金融机构服务器、爬虫采集社交平台数据、线下倒卖表单等方式批量获取公民手机号、负债情况、年龄、职业、消费记录等敏感信息。反网络钓鱼技术专家芦笛强调精准画像大幅提升诈骗转化率负债人群定向推送贷款置换骗局、在校青年定向推送冒充公检法话术实现 “千人千面” 式精准欺诈大幅减少无效呼叫形成诈骗号码高呼出、低接通仍能稳定获利的运营模式。呼叫中心采购用户画像数据后批量筛选高风险目标集中工作日外呼形成欺诈号码区别于普通用户的时间、呼叫对象特征。2.2.2 来电号码篡改改号团伙普通用户普遍警惕境外、网络虚拟来电改号团伙通过境内非法信号中继设备、远程 VOIP 控制工具篡改呼出号码将境外 IP 来电伪装成本地运营商官方号码、银行客服、公安座机。该技术专门针对老年、数字信息接触较少人群利用用户依赖来电显示判断身份的心理漏洞建立信任。改号服务主要供给境外诈骗窝点导致大量诈骗号码表面归属本地运营商传统基于号段黑名单的拦截方案完全失效必须依靠通话行为特征识别。2.2.3 恶意 APP 开发分发团伙改号仅能完成初次信任建立深度资金操控依赖恶意 APP。该团伙仿冒银行、政务、生活服务类应用通过短信、社交链接推送至受害者手机用户安装后获取设备最高权限可篡改通话记录、窃取通讯录、相册、实时定位实现手机全远程控制。恶意 APP 的核心作用是延迟受害者察觉诈骗的时间在资金转账完成后屏蔽银行预警短信、拦截反诈劝阻来电单次诈骗涉案金额显著提升。该环节不直接改变通话行为但会放大诈骗团伙集中外呼、短通话、批量触达目标的运营特征。2.2.4 赃款洗钱团伙资金洗白机房洗钱团伙负责解决诈骗资金溯源难题是黑产闭环的收尾环节。团伙通过诱导经济困难人群出售、租借银行卡、手机账户搭建多层收款账户池受害者转账资金进入多层账户后通过四类渠道洗白地下跨境汇兑、礼品卡代买、虚拟货币混币、ATM 现金拆分跨境转账。多层资金流转完全割裂受害者与诈骗核心窝点的资金链路大幅提升公安追赃难度。洗钱组织不直接参与呼叫行为但决定呼叫中心批量、高频、低成本运营的商业模式间接塑造诈骗号码统一的通信行为特征。2.3 语音钓鱼标准化四阶段作案流程完整诈骗流程形成闭环每个阶段对应不同黑产组织协作同步产生可采集的通话日志行为数据2.3.1 诱饵投放阶段依托非法信息交易团伙提供的用户画像定制差异化诈骗短信、邮件诱饵内容包含低息贷款、账户核查、赔付通知等诱导信息附带联络电话或恶意 APP 下载链接。该阶段筛选主动回复的潜在受害者将联系方式批量出售给呼叫中心完成诈骗目标池构建。此阶段无大规模呼出行为但为后续集中外呼奠定基础。2.3.2 主动联络阶段呼叫中心结合改号团伙服务发起批量外呼篡改来电显示伪装官方机构集中工作日白天批量拨打前期筛选的目标用户。该阶段产生最典型的欺诈通话行为特征极高呼出占比、工作日集中呼叫、短时长通话、每周大量陌生联系人是模型核心识别依据。2.3.3 深度欺骗阶段建立初步信任后呼叫中心通过社交软件发送伪造官方文书诱导受害者下载恶意 APP设备权限完全受控后持续施加心理压力、制造恐慌推动受害者产生转账意愿。通话行为仍维持短时长、单向呼出特征持续高频联络目标直至资金转出。2.3.4 欺诈转账与资金洗白阶段受害者完成转账后洗钱团伙立刻拆分、转移赃款同步呼叫中心终止对该受害者的联络转向下一批目标。诈骗号码持续循环批量外呼陌生用户保持稳定异常行为模式直至号码被运营商风控关停。3 数据集与语音钓鱼行为特征量化分析3.1 数据集基础说明本文实验数据集源自韩国警方脱敏真实通话日志由韩国科学财团资助课题配套采集数据集包含两类标注样本标注语音钓鱼欺诈号码通话日志、普通公民正常通话日志所有用户身份、精确地理位置做脱敏处理仅保留通信元数据不存在音频、用户隐私文本等敏感信息符合数据伦理规范。单条通话日志基础字段包含呼出号码、接收号码、呼叫起止时间戳、通话持续时长、号码所属运营商、通话接入基站标识。衍生构造特征基于原始字段批量计算得到所有样本完成分层标注诈骗号码标记为 1正常用户号码标记为 0。3.2 核心行为特征提取与量化对比基于诈骗呼叫中心流水线式批量外呼运营模式从六大维度构造区分特征定量对比欺诈号码与普通用户行为差异全部特征均可依托运营商现有日志批量计算无需新增采集设备。3.2.1 呼出通话占比特征正常用户通信为双向交互模式呼出、呼入通话量分布均衡语音钓鱼号码为单向主动外呼获客不存在被动呼入需求。量化统计显示欺诈号码总通话中呼出占比达到 82.0%呼入仅 18.0%普通用户呼出占比 57.7%呼入 42.3%。极高单向呼出比例是欺诈号码第一类高区分度特征可作为逻辑回归初筛核心变量。反网络钓鱼技术专家芦笛指出该特征区分逻辑具备极强业务解释性正规个人通信存在亲友、客服、外卖等多方主动来电而诈骗机房仅主动拨打目标几乎不存在外部来电行为模式存在本质差异。3.2.2 呼叫星期分布特征诈骗呼叫中心模仿银行、政务机构办公时段运营96% 诈骗通话集中于周一至周五工作日周二、周三、周四呼叫量达到峰值周末呼叫量断崖式下跌普通用户通话均匀分布全周周五小幅提升周末维持稳定通话规模无极端集中趋势。该时间特征可用于构建时段风险打分对工作日白天高频外呼号码提升预警权重作为辅助识别变量。3.2.3 呼叫昼夜时段分布特征92.2% 语音钓鱼通话集中在日间工作时段夜间呼叫占比极低普通用户日间、夜间通话分布均衡晚间亲友联络、休闲通话占比稳定。诈骗分子刻意避开夜间时段避免引起受害者强烈警惕进一步强化时段行为异常特征。3.2.4 单次通话时长分布特征诈骗通话存在标准化脚本流程若受害者快速产生怀疑挂断诈骗人员会立刻结束通话切换下一个目标不会长时间沟通。数据显示诈骗通话时长密度峰值仅 22 秒34% 通话 10 秒内挂断55.3% 通话 30 秒内结束普通通话时长峰值 39 秒长时长双向沟通占比显著更高。短时长批量呼叫是欺诈号码关键行为标识。3.2.5 周度唯一联系对象数量特征诈骗机房流水线批量触达陌生潜在受害者单诈骗号码每周平均联络 89.6 个独立联系人普通个人用户社交圈固定每周仅联络 14.8 个独立联系人二者数值差距巨大。该特征对批量外呼诈骗小号识别灵敏度极高是模型重要预测变量。3.2.6 运营商归属特征韩国主流运营商分为 SKT、KT、LGU 三大传统运营商与 MVNO 虚拟移动运营商。政府公开统计数据显示普通用户 MVNO 市场占比仅 14%但 93.3% 诈骗号码注册于 MVNO 虚拟运营商。核心原因为虚拟运营商办卡门槛低、资费低廉、实名认证审核宽松便于诈骗团伙批量办理小号、用完即弃、规避溯源。运营商类型作为分类特征纳入模型提升对虚拟号诈骗的识别能力。3.3 特征有效性初步论证上述六类行为特征均具备统一规律欺诈号码呈现高度同质化、流水线式批量外呼行为普通用户行为具备个性化、双向均衡、时间分散特征二者行为分布存在显著断层不存在大范围重叠区间。逻辑回归自助抽样系数分布结果证实MVNO 运营商、日间呼叫占比、工作日呼叫得分、周度呼叫总量、呼出占比变量回归系数稳定正向显著可有效预测号码欺诈风险为后续多机器学习模型提供可靠输入特征集。4 主动检测模型整体架构设计本文采用两阶段分层检测架构第一阶段使用分步逻辑回归完成特征筛选与初筛预警输出风险打分第二阶段搭建随机森林、梯度提升树、多层感知器MLP三类监督学习分类器融合多模型输出完成精准识别整体架构兼顾可解释性与分类精度适配运营商实时预警、公安批量筛查两类业务场景。4.1 第一阶段分步逻辑回归特征筛选与风险初判逻辑回归模型优势在于输出特征系数可直观解释各行为特征对欺诈判定的贡献权重便于监管人员理解风险判定依据适合反诈业务落地。模型训练采用分步回归策略逐步纳入呼出占比、时段特征、通话时长、周联系人数量、运营商类别变量剔除无统计学显著性的弱区分特征保留六大核心行为变量作为后续机器学习模型输入。通过 1000 次自助重复抽样验证系数稳定性MVNO 虚拟运营商、工作日集中呼叫、高呼出比例三类变量系数稳定正向代表该指标数值越高号码属于语音钓鱼的风险越高长通话时长、周末通话占比变量系数稳定负向符合前文量化行为分析结论实现特征与业务逻辑闭环对应。为验证特征交互作用是否提升识别效果本文构建特征交互项逻辑回归模型对比基础主效应模型实验结果显示交互项引入后对数似然仅小幅提升赤池信息准则 AIC 下降幅度不足 0.74似然比检验 p 值大于 0.05不存在统计学显著性能提升。工程落地层面交互特征会大幅增加计算开销因此最终模型舍弃交互项仅采用基础主效应特征集平衡精度与实时计算效率。4.2 第二阶段多机器学习分类模型设计以逻辑回归筛选后的六大核心行为特征为输入搭建三类主流监督学习分类模型分别适配不同业务算力场景4.2.1 随机森林Random Forest集成树类模型通过多棵决策树独立训练、投票输出分类结果对异常值、特征量纲不敏感无需复杂标准化预处理对极端类别不平衡数据鲁棒性最优。反网络钓鱼技术专家芦笛提出运营商实时反诈拦截系统算力资源有限随机森林轻量化推理特性更适合 7×24 小时在线实时号码风险筛查。4.2.2 梯度提升树Gradient Boosting串行集成树模型迭代修正前一轮分类误差均衡样本下分类精度最优但样本比例失衡时性能衰减幅度高于随机森林适合后台批量离线号码复盘筛查场景。4.2.3 多层感知器 MLPMulti-Layer Perceptron基础浅层神经网络搭建输入层 - 隐藏层 - 输出层三层结构需对特征做标准化预处理数据均衡时识别精度良好但极端类别不平衡场景下精确率、F1 分数下降明显仅适用于诈骗样本充足的专项复盘数据集。4.3 模型训练通用流程规范统一采用分层抽样方案保证训练集、验证集诈骗 / 正常号码样本比例与原始数据集一致完整训练流程标准化步骤数据集划分分层拆分 70% 训练集、30% 验证集分层抽样保留类别分布特征预处理连续特征标准化、离散运营商特征独热编码模型初始化与训练逻辑回归设置 L2 正则防止过拟合树模型限制单树深度、设置最小样本分割阈值MLP 添加 dropout 正则多维度指标评估统计准确率、召回率、精确率、F1 分数综合衡量模型性能反诈场景优先保障召回率避免漏判诈骗号码。5 模型实验验证与结果分析5.1 实验评估方案本文设计三组递进式验证实验完整覆盖真实业务场景实验一5 折分层交叉验证均衡样本下测试三类机器学习模型基础性能验证整体泛化能力实验二学习曲线过拟合检验随训练样本量递增观测训练、验证集指标收敛情况实验三类别不平衡敏感性测试模拟 1:1、10:1、100:1正常号码诈骗号码三类样本比例匹配现实电信网络海量正常号码、少量诈骗号码的真实分布检验模型落地鲁棒性。所有实验重复 1000 次自助抽样输出指标均值与标准差消除单次随机划分带来的结果波动。5.2 5 折分层交叉验证结果分层 5 折交叉验证保证每一折训练、验证集类别比例统一实验数据显示随机森林、梯度提升、MLP 三类模型整体准确率均超过 95%召回率全部高于 97%满足反诈主动检测的精度要求。梯度提升树在均衡样本下准确率小幅领先随机森林指标标准差最低结果稳定性最优MLP 隐藏层拟合能力较强但指标波动更大对数据扰动敏感。综合业务需求反诈场景首要目标是降低诈骗号码漏判高召回率三类模型均达到业务阈值随机森林兼顾精度与稳定性为线上实时预警最优选择。5.3 学习曲线过拟合检验学习曲线随训练样本数量提升训练集、验证集准确率持续收敛二者差距持续缩小不存在训练集指标极高、验证集指标断崖下跌的过拟合现象。树类模型收敛速度快于 MLP 神经网络仅需少量标注样本即可达到稳定识别效果适合标注诈骗样本稀缺的业务初期场景。5.4 极端类别不平衡敏感性测试现实运营商通话数据中诈骗号码占比不足 1%对应 100:1 极端不平衡样本比例该场景下三类模型性能分化明显随机森林准确率、召回率、F1 分数衰减幅度极小跨所有样本比例保持稳定识别能力适配线上全量号码实时筛查梯度提升树随正常样本比例提升指标出现中等幅度下滑仅适合均衡样本专项复盘MLP 多层感知器100:1 极端不平衡场景下精确率、F1 分数显著下降大量正常号码被误判为诈骗易引发运营商用户投诉不适合线上实时拦截。反网络钓鱼技术专家芦笛针对该实验结果补充说明多数现有反诈机器学习研究仅采用 1:1 均衡样本训练实验数据虚高未模拟真实业务数据分布落地后误拦截、漏判问题突出本文设置 100:1 不平衡测试组实验结论更贴合运营商实际风控业务需求。5.5 实验综合结论依托通话日志六大行为特征搭建的两阶段检测框架整体性能达标全模型准确率 95%、召回率 97%可实现语音钓鱼号码主动前置识别随机森林在均衡、极端不平衡场景下均具备稳定性能是电信反诈线上实时预警系统最优模型梯度提升树适合离线批量复盘MLP 仅适用于诈骗样本充足的专项分析特征交互项无法显著提升模型精度反而增加计算开销工程部署仅采用基础主效应特征即可平衡效率与精度MVNO 虚拟运营商、高呼出占比、工作日集中短时长呼叫、周度海量陌生联系人是欺诈号码四大核心风险标识可单独配置简易规则引擎作为兜底预警。6 系统工程实现代码示例本节给出完整 Python 代码实现包含通话日志数据预处理、行为特征批量构造、逻辑回归特征筛选、随机森林模型训练、多指标评估模块基于 sklearn 开源机器学习库开发适配运营商结构化日志离线批量处理与实时流数据特征计算场景无第三方闭源依赖可直接部署于大数据计算平台。6.1 环境依赖与基础数据预处理代码# 导入所需工具库import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScaler, OneHotEncoderfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifierfrom sklearn.neural_network import MLPClassifierfrom sklearn.model_selection import StratifiedKFold, train_test_splitfrom sklearn.metrics import accuracy_score, recall_score, precision_score, f1_scorefrom sklearn.compose import ColumnTransformerfrom sklearn.pipeline import Pipeline# 读取脱敏通话日志数据集# 原始日志字段call_out, call_in, call_start_time, duration, carrier, cell_tower, labeldf pd.read_csv(call_log_dataset.csv)# 基础时间字段转换提取星期、昼夜标识df[call_start_time] pd.to_datetime(df[call_start_time])df[weekday] df[call_start_time].dt.weekday # 0周一6周日df[is_daytime] np.where((df[call_start_time].dt.hour 8) (df[call_start_time].dt.hour 18), 1, 0)# 单号码分组批量构造行为特征def build_behavior_feature(group_df):total_call len(group_df)out_call len(group_df[group_df[call_out] 1])out_ratio out_call / total_call if total_call 0 else 0day_ratio group_df[is_daytime].mean()weekday_call len(group_df[group_df[weekday] 5]) / total_call if total_call 0 else 0avg_duration group_df[duration].mean()unique_contact group_df[call_in].nunique()carrier group_df[carrier].iloc[0]label group_df[label].iloc[0]return pd.Series([out_ratio, day_ratio, weekday_call, avg_duration, unique_contact, carrier, label],index[out_ratio, day_ratio, weekday_ratio, avg_duration, unique_contact, carrier, label])# 按呼出号码分组生成特征数据集feature_df df.groupby(call_out).apply(build_behavior_feature).reset_index()# 划分特征与标签X_raw feature_df[[out_ratio, day_ratio, weekday_ratio, avg_duration, unique_contact, carrier]]y feature_df[label]# 划分连续特征、分类特征做预处理num_cols [out_ratio, day_ratio, weekday_ratio, avg_duration, unique_contact]cat_cols [carrier]preprocessor ColumnTransformer(transformers[(num, StandardScaler(), num_cols),(cat, OneHotEncoder(sparse_outputFalse), cat_cols)])6.2 分步逻辑回归特征筛选代码python运行# 搭建逻辑回归流水线L2正则防止过拟合lr_pipeline Pipeline(steps[(preprocess, preprocessor),(logistic, LogisticRegression(penaltyl2, max_iter1000))])# 分层划分训练验证集X_train, X_val, y_train, y_val train_test_split(X_raw, y, test_size0.3, stratifyy, random_state42)lr_pipeline.fit(X_train, y_train)# 输出特征系数用于特征解释lr_model lr_pipeline.named_steps[logistic]print(逻辑回归特征系数, lr_model.coef_)# 验证集评估y_lr_pred lr_pipeline.predict(X_val)print(逻辑回归 准确率, accuracy_score(y_val, y_lr_pred))print(逻辑回归 召回率, recall_score(y_val, y_lr_pred))6.3 随机森林、梯度提升、MLP 模型训练与评估代码# 初始化三类机器学习模型models {RandomForest: RandomForestClassifier(n_estimators100, max_depth8, random_state42),GBDT: GradientBoostingClassifier(n_estimators100, max_depth6, random_state42),MLP: MLPClassifier(hidden_layer_sizes(32,16), dropout0.2, max_iter800, random_state42)}# 分层5折交叉验证函数def stratified_cv_evaluate(model, X, y, cv5):skf StratifiedKFold(n_splitscv, shuffleTrue, random_state42)acc_list, rec_list, pre_list, f1_list [], [], [], []for train_idx, val_idx in skf.split(X, y):X_tr, X_vl X.iloc[train_idx], X.iloc[val_idx]y_tr, y_vl y.iloc[train_idx], y.iloc[val_idx]# 预处理转换X_tr_trans preprocessor.fit_transform(X_tr)X_vl_trans preprocessor.transform(X_vl)model.fit(X_tr_trans, y_tr)y_pred model.predict(X_vl_trans)acc_list.append(accuracy_score(y_vl, y_pred))rec_list.append(recall_score(y_vl, y_pred))pre_list.append(precision_score(y_vl, y_pred))f1_list.append(f1_score(y_vl, y_pred))# 输出均值指标res {avg_acc: np.mean(acc_list),avg_recall: np.mean(rec_list),avg_precision: np.mean(pre_list),avg_f1: np.mean(f1_list)}return res# 循环训练评估所有模型for name, model in models.items():result stratified_cv_evaluate(model, X_raw, y, cv5)print(f\n{name} 5折交叉验证结果)print(f平均准确率{result[avg_acc]:.4f})print(f平均召回率{result[avg_recall]:.4f})print(f平均精确率{result[avg_precision]:.4f})print(f平均F1分数{result[avg_f1]:.4f})6.4 极端类别不平衡样本模拟测试代码# 构造100:1正常:诈骗不平衡数据集模拟真实场景def build_imbalance_data(X, y, ratio100):fraud_idx y[y 1].indexnormal_idx y[y 0].indexfraud_sample X.loc[fraud_idx]normal_sample X.loc[normal_idx].sample(nlen(fraud_idx)*ratio, random_state42)X_imbal pd.concat([fraud_sample, normal_sample])y_imbal pd.concat([y.loc[fraud_idx], y.loc[normal_sample]])return X_imbal, y_imbalX_100_1, y_100_1 build_imbalance_data(X_raw, y, ratio100)# 使用最优随机森林模型做不平衡测试rf_model models[RandomForest]imbal_result stratified_cv_evaluate(rf_model, X_100_1, y_100_1, cv5)print(\n100:1极端不平衡数据集随机森林性能)print(f准确率{imbal_result[avg_acc]:.4f} 召回率{imbal_result[avg_recall]:.4f})6.5 代码工程落地说明数据层面代码仅使用运营商脱敏通信元数据不采集通话音频、用户文本信息满足个人信息保护合规要求算力适配随机森林推理轻量化可部署于实时流计算引擎实现来电实时风险打分拦截逻辑回归可单独提取特征风险权重输出可视化风险解释报告供反诈办案人员使用迭代优化系统可定期接入公安新增标注诈骗号码完成增量训练持续更新模型适配诈骗团伙不断迭代的呼叫行为模式兜底规则可基于六大核心特征配置阈值规则引擎作为机器学习模型离线更新期间的兜底预警机制避免系统空档期诈骗漏判。7 研究总结与展望7.1 研究整体结论本文基于韩国大规模真实通话日志标注数据集系统拆解语音钓鱼完整黑色产业链分工与标准化作案四阶段流程从犯罪组织流水线运营逻辑解释欺诈号码区别于普通用户的六大核心通信行为特征构建分步逻辑回归初筛 随机森林、梯度提升、MLP 多模型融合的主动检测框架通过多维度对照实验验证模型有效性配套完整可落地 Python 代码实现形成 “犯罪机理 - 特征挖掘 - 模型设计 - 实验验证 - 工程实现” 完整闭环研究体系。量化实验结果证实诈骗号码具备高单向呼出占比、工作日日间集中呼叫、短单次通话时长、周度海量陌生联系人、偏好虚拟运营商 MVNO 号段五大稳定异常行为标识两阶段检测框架综合准确率突破 95%、召回率高于 97%满足电信反诈主动前置拦截业务需求。针对现实电信网络海量正常号码、少量诈骗号码的极端类别不平衡场景随机森林模型鲁棒性最优适合运营商 7×24 小时实时风控系统部署梯度提升树、MLP 仅适用于诈骗样本充足的离线专项复盘场景。反网络钓鱼技术专家芦笛总结基于通话元数据行为画像的主动检测方案突破传统被动反诈黑名单滞后、静态、易规避的短板为通信行业智能化反诈提供低成本、合规可行的技术路径。7.2 现有技术方案落地局限本研究框架仍存在两处现实落地约束第一针对 AI 语音克隆、AI 智能外呼新型语音诈骗变种当前仅依托通话元数据行为特征识别未融合语音声纹、对话文本语义特征针对少量精准 AI 定制诈骗话术的识别灵敏度存在提升空间第二方案依赖运营商全量通话日志存储与计算资源小型虚拟运营商、小众通信服务商日志存储能力有限难以完整部署全量行为特征实时计算模块需配套轻量化简化特征子集适配轻量化算力场景。7.3 后续优化研究方向基于本文研究基础后续可从三个维度拓展深化多模态特征融合融合通话元数据行为特征、语音音频声纹特征、通话对话文本语义特征搭建多输入神经网络模型提升 AI 合成语音诈骗变种识别能力轻量化特征压缩算法筛选最小有效特征子集构建轻量化规则 小型树模型适配中小虚拟运营商低算力设备部署跨域协同预警体系打通运营商、公安反诈平台、银行资金风控接口实现号码行为风险、资金流转风险、个人信息泄露风险多维度联动预警构建全链路反诈主动防护网络动态对抗自适应模型针对诈骗团伙持续调整呼叫行为规避检测的对抗场景设计在线增量学习框架实时更新模型特征权重动态适配诈骗行为迭代变化。7.4 治理层面实践启示技术检测体系仅为反诈治理其中一环结合本文黑产产业链拆解结论同步配套三层治理优化路径源头管控层面强化虚拟运营商 MVNO 开卡实名认证、批量号码办理审核机制压缩诈骗团伙低成本小号获取渠道技术管控层面强制落地通信侧主动行为风险监测系统实现高危号码实时限流、呼叫拦截执法打击层面依托模型输出的高危号码集群溯源呼叫中心、改号、洗钱团伙实现黑产全链条溯源打击形成技术预警、运营商管控、公安刑事打击协同治理闭环。编辑芦笛公共互联网反网络钓鱼工作组