基于数据挖掘的比特币庞氏骗局检测方法

引用： bartoletti m , pes b , serusi s . [ieee 2018 crypto valley conference on blockchain technology (cvcbt) - zug, switzerland (2018.6.20-2018.6.22)] 2018 crypto valley conference on blockchain technology (cvcbt) - data mining for detecting bitcoin ponzi schemes[j]. 2018:75-84.
摘要：
在2009年推出后不久，比特币（bitcoin）就被网络犯罪分子所采用，网络犯罪分子通过匿名实施难以追踪的诈骗。使用比特币的典型骗局之一就是庞氏骗局（ponzi schemes）。这些都是欺诈性投资，用新用户投资的资金偿还老用户，当无法再找到新的投资时，这些账户就会终止。尽管庞氏骗局在许多国家是非法的，但现在比特币上的庞氏骗局正在激增，并且不断吸引新的受害者，截至目前比特币上的庞氏骗局已敛财数百万美元。我们应用数据挖掘技术检测与庞氏骗局相关的比特币地址。我们的实验对象是一个真实世界庞氏骗局特征数据集，通过分析比特币区块链上用于执行骗局的交易来构建特征数据集。我们针对此数据集应用各种机器学习算法进行实验，并通过标准验证协议（standard validation protocols）和性能指标（performance metrics）评估它们的有效性。我们已经试验过的最好的分类模型可以识别数据集中的大多数庞氏方案，假阳性（false positive）的数量很少。
贡献：
我们研究数据挖掘（data mining）技术，通过监督学习（supervised learning）方法自动检测和量化比特币庞氏骗局。
通过庞氏骗局收集比特币地址：
在缺乏公开可用数据集的情况下，我们的第一步是从网络上检索与庞氏骗局相关的比特币地址集合。我们在reddit和bitcointtalk.org（比特币的主要讨论论坛）上执行人工搜索。其中，我们专注于其子论坛bitcointalk.org上的gambling: investor-based games游戏，欺诈者被通常宣传庞氏骗局为“高收益投资计划”（hyip），或赌博游戏。除此以外，我们还通过考虑blockchain.info/tags（该网站允许用户标记比特币地址）上列出的所有被标记为庞氏骗局的地址来扩展搜索。
我们共发现了32个庞氏骗局的存款地址，显示于表一中。请注意，虽然一些ponzi方案在其整个生命周期中使用一个存款地址，但其他一些方案使用多个地址，可能会为每个用户（或一组用户）生成一个新的地址。下面讨论的地址聚类分析使得我们可以恢复其中一些地址。
地址聚类分析：
我们对搜集到的地址进行聚类分析，获得结果如表二。
特征提取：
然后，我们设计了一组有助于描述庞氏骗局的特征。这些特征包括从交易事物的简单统计到聚类分析（例如，全部转移值（overall transferred value）、转入转出交易之间的比率等）到更复杂的特征，例如转移值的不平等度量（例如，基尼系数（gini coefficients）），以及方案活动的度量（例如，生命周期，转入转出交易之间的延迟，每日交易的最大数目等）。
构建分类模型：
我们使用获取的数据集对各种监督学习算法（包括ripper，bayes network， random forest）类问题，任务是对于数据集中“ponzi”和“non-ponzi”进行分类。
样本不平衡问题：
我们必须面对的最关键的挑战之一是样本不平衡问题，这在欺诈检测系统中很常见。在欺诈检测系统中，与许多具有不平衡类分布的领域一样，对稀有分类样本（即我们问题中的“ponzi”类）的正确分类远比对大多数类（即“non-ponzi”类）的正确分类更为重要。在这项工作中，我们对文献中提出的两种主要方法进行了实验，即基于抽样（sampling-based）的方法和成本敏感（cost-sensitive）的方法。
我们在不同的环境下进行了大量的实验，得到了一个性能良好的检测模型，并最终应用于一组独立的数据，取得了良好的效果。随机森林（random forest）监督方法是最有效、最通用的方法。在我们的数据集中，包含6432个地址聚类（cluster）的特征（比例为一个旁氏骗局到200个非庞氏骗局的比例），随机森林对庞氏骗局检测的召回率（recall）为0.969，32个庞氏骗局中31个都被正确分类。
实验结果度量：
为了检验构建的分类模型的效果，我们采用了以下评价指标。
accuracy：(tp + tn)/(tp + tn + fp + fn)
是分类预测正确的测试实例的分数；
specificity：tn/(tn+fp)
是正确分类的阴性实例的分数；
sensitivity：tp/(tp+fn)
也称为recall，是正确分类的阳性实例的分数；
precision ：tp/(tp+fp)
是模型预测为正的组中实际为正的实例的分数；
f-measure ：2·precision·recall / (precision+recall)
是精确与召回之间的调和平均数；
g-mean： (recall·specificity)(0.5)
是特异性与回忆之间的几何均值；
auc
是接收器工作特性（roc）曲线下的面积，它显示了真阳性率和假阳性率之间的权衡（模型越好，面积越接近1）。
实验结果：
首先，我们在不应用基于抽样和成本敏感方法的情况下评估它们的性能。结果以混淆矩阵的形式显示在图2中，其中行索引指的是实际类，列索引指的是预测类。由此可见，由于大量的庞氏骗局未被识别，分类性能不理想。bayes net正确地分类了最大数量的庞氏骗局（32个实例中的23个），但假阳性（即非ponzi分类为ponzi）的数量也是最高的。这些结果证实，从高度不平衡的数据集中学习是一项非常困难的任务。
下一步，我们探讨了随机欠采样方法（random undersampling approach）的有效性，该方法已被证明对处理欺诈率与此处考虑的数据集相当的数据集非常有用。具体地说，在交叉验证过程的每次迭代中，我们操纵训练集以减少类不平衡的程度：每200个非庞氏实例（1:200）中1个庞氏骗局的原始比例减少到每40个非庞氏骗局（1:40）中1个庞氏骗局，每20个非庞氏骗局（1:20）中1个庞氏骗局，每10个非庞氏骗局（1:10）中1个庞氏骗局，每1个庞氏骗局每5个非庞氏骗局（1:5）。
图3中的结果表明，采样不足会导致真阳性率提高。特别是，在1:5的设置中，随机森林识别出与贝叶斯网络相同数量的庞氏骗局（32个中的25个），但假阳性的数量显著减少。事实上，贝叶斯网络产生了太多的误报（266），甚至超过了ripper（226）。因此，在提高真阳性率（以及召回指标）的同时，对于假阳性（影响精度指标）而言，欠抽样方法并不十分令人满意。在召回和精确性之间实现最佳权衡的困难是欺诈检测文献中公认的问题。
下一步，我们研究了成本敏感（cost-sensitive）方法的有效性。在学习检测模型时，我们使用图4所示的成本矩阵。在矩阵cm5中，犯假负误差的成本是犯假阳性误差成本的5倍；在cm10中是犯假阴性误差成本的10倍，在cm20中是犯假阴性误差成本的20倍，在cm40中是犯假阴性误差成本的40倍。
成本敏感分类模型的结果如图5所示。正如我们从混淆矩阵中看到的，ripper获得的结果与原始设置中的结果相同（图2）。这并不奇怪，因为该算法设计用于处理罕见（即，正）类，结果证明对进一步惩罚对正实例的错误分类不敏感。反过来，贝叶斯网络似乎没有充分利用成本敏感的方法，这导致了24个真阳性（比原始设置多出一个），但假阳性的数量增加了。
用随机森林分类方法得到了最佳结果。使用cm5矩阵，它识别25个庞氏方案，作为1:5欠采样设置下的贝叶斯网络，但具有很强的假阳性减少（只有13个）。当惩罚更多的假阴性时，真阳性数量增加（使用cm10时29个，使用cm20时31个），假阳性数量依次增加，但达到可接受的程度（分别为26 e 77）。进一步增加成本（cm40）是没有好处的，因为真阳性的数量保持不变，但假阳性增加到132。
在图6中，我们进一步详细描述了成本敏感的随机森林分类模型的性能，这表明它优于本文探讨的其他方法。
构建分类模型的应用：
我们构建一个替代数据集，包括新集合中ponzi方案集群的特性，以及不在原始数据集中的4000个随机选择比特币地址的特性。通过将带有cm20的随机森林分类模型应用于替代数据集，我们得到以下混淆矩阵：
值得注意的是，分类模型识别出20个庞氏骗局中的18个，产生81个假阳性。分类模型未识别的2个庞氏骗局在表 4 中用标记。
本文总结：
本文提出了一种基于监督学习算法的比特币庞氏骗局自动分析方法。该方法可应用与其他加密货币（如以太坊（ethereum））上的旁氏骗局监测。
未来研究方向：为比特币交易设置风险评分。
致谢本文由南京大学软件学院2016级本科生高毓彬翻译转述

基于数据挖掘的比特币庞氏骗局检测方法

推荐信息