0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

看图“猜车祸”,用谷歌街景数据建立车祸预测新模型

电子工程师 来源:YXQ 2019-05-14 09:40 次阅读

预测是机器学习算法最重要的一个研究方向。众多保险公司利用机器学习算法为他们的客户建立预测模型。其中,车祸预测模型是众多模型里面最难建立的。

车祸发生的影响因素多种多样,变化多端,着实让人摸不着头脑。

与其他商品不同的是,车祸保单的最终成本在初始销售时是未知的。因此,建立一个合理的定价机制是非常具有挑战的。有些保险公司尝试使用统计方法来解决这一问题:预测每个客户的未来风险。

例如,非常经典的汽车保险。大部分的保险公司确定的保险风险因素有司机的年龄、他的汽车配置相关以及汽车发生事故的历史情况。这也是为什么保险公司会在成交汽车保险之前需要客户提供的详细信息的原因。

下载地址:

https://arxiv.org/abs/1904.05270

波兰华沙大学经济科学系的Kinga Kita-Wojciechowska和斯坦福大学生物工程系的Łukasz Kidziński利用谷歌Google街景收集相对应的房屋图像,通过标释房屋的特征:例如年龄、类型以及其它条件。然后与目前最先进的保险风险模型相比,最后发现用谷歌街景数据建立的模型,能够有效地改进了汽车事故风险预测。

作者通过对谷歌街景数据的研究,发现下列结论☟

房子的特征与居民的发生车祸风险相关,

与谷歌街景的其他研究用途相比,此模型数据特征来自于地址,并不是按照邮政编码或地区进行汇总,可能存在更为精细的划分;

从地址中提取的数据(房屋的图像)可用于保险和其他行业;

现代数据收集和科技技术允许对个人数据进行前所未有的利用,可能会超过立法的发展速度,并增加个人隐私威胁。

建模数据收集方法与特点

保险公司之前进行的风险建模和定价,通常只使用邮政编码这一特征。然而汇总到邮政编码的索赔数据仍然太不稳定,所以还需要进一步地调整。

另一方面,对于一些“外人”来说,保险公司客户的信息数据很难获得。本文使用的谷歌街景数据可以从来自Google街景的公开图像信息中提取出来。

图1.位于同一邮政编码中不同房屋的示例,根据当前保险公司的模型,这些房屋的居民具有相同的预期索赔频率。

此数据集包含20,000条记录的汽车保险数据集,数据来源于2012年1月至2015年12月期间收集到在波兰的保险投资组合的随机样本。

其中每项记录均涵盖汽车发动机第三方责任(MTPL)保险单的特点,包括投保人的地址、风险敞口(定义为一小部分有效年份在2013-2015年期间的保单)以及2013-2015年间发生的财产损坏索赔的统计数量。保险公司还提供了这些保单的财产损失索赔的预期频率,是根据他们目前最好的风险模型进行估计的,是根据客户的邮政编码进行分区的。

图2.使用注释功能将为数据库中提供的地址,匹配收集谷歌卫星视图和谷歌街景图像。

对图像中可见的房屋中以下特征作了说明:居民的年龄、状况、财富以及邻近地区其他建筑物的类型。根据Fleiss’kappa(属性型测量分析)统计数据结果表明,它们之间大多数是一致稳健的。

继续注释剩余的19,371个地址(还从本研究的范围中删除了129个地址,因为它们要么是另外区域的,要么是Google地图找不到的),剩余的都将得到了一组单独的、随机选择的地址。

研究者比较了收集到的注释的分布情况,并在最后对四个注释器进行了小的修正,以匹配平均值和标准差。

表1。在进行了必要的简化后,风险模型中对7个新创建的变量进行了统计

建模过程

接下来,估计一个广义线性模型(GLM)来研究新创建的变量对于风险预测的重要性。

假设索赔的概率模型如下:

频率为f,定义为索赔次数除以风险敞口:

其中,MTPL保险中的一些财产损失索赔是服从泊松分布的,X是自变量的向量,也是系数的向量。

为了对方法所带来的增加值进行评价,引入了三个模型:

模型A(空模型),其中向量为

模型B(一流保险商模型):其中向量为

模型C(研究者使用的模型):其中向量为

保险人为数据集中的每条记录提供了模型B的实现。

该模型是在一个更大的未对外披露数据集上进行估计的,包含j个预测变量(驾驶员特征、车辆特征、索赔历史、地理区域等)。

利用GLMs的特性,可以将模型C分解为两个部分:一个对应于模型B,另一个则包含新变量。

因此,模型C为:

这些系数的值是否为非零,将表明研究者构造的变量为模型提供了额外的预测能力。在本研究中新创建的七个变量中,有五个对于预测财产损坏MTPL索赔频率模型具有重要意义,而在最好的保险公司模型中使用的许多其它评级变量都是重要的(表1)。

通过观察a、B、C模型的基尼系数的显著变异性,特别是对于模型A(只包含截距且没有选择其他变量的空模型)在20次重采样试验中,其变化范围为20 ~ 38%。将其解释为证据,即所提供的数据集非常小(20,000条记录),用于构建MTPL保险中的罕见事件,如财产损失索赔(平均频率为5%)。

图3.在20个自举试验中获得的20%的检验样本上的基尼系数(A),从零模型(A)到最好的保险公司的模型(B)和研究者新建立的变量模型(C)。

尽管数据的波动性很大,但将五个简单变量加入到保险公司的模型中,在20次重新采样试验中的18次中尝试,提高了它的性能,并提高了基尼系数的平均水平。提高系数接近2个百分点(从38.2%到40.1%)。

通常保险公司的模型会运用更大的数据集,并包含了广泛的变量选择(例如驾驶员特征、汽车特征、索赔历史和基于客户邮政编码的地理区域),将基尼系数与空模型从0~30%提高到0~38%,提高了8个百分点(见图3)。

创新之处

通常保险公司的预测模型都是以常规的特征进行预测的,比如驾驶车辆习惯,索赔历史和客户财富级别等特征。

但是文中的模型使用了全新的谷歌街景地图的特征,比如街景地图中房屋所在周围环境,所在区域的密度,街景的质量和房屋类型年限等特征,评测结果也是比较令人欣慰,三个模型的基尼系数变动范围在20%—38%之间,我们能从图3中看见,经过20次的重采样实验得到的结果:具有街景新特征的模型比使用原有的优秀传统模型还要高出接近2个百分点。

当然由于数据样本量比较少,大概只有2万条左右,所以这也在一定程度上影响了基尼系数的提升。但是这在预测模型的研究方向中,给了我们一个新的思路,原来街景地图的特征会比传统的特征更加有效。当然未来肯定还会有更加有效的特征出现,来帮助我们提升预测准确度。

译者注:

基尼系数通常判定超过60%就是一个好模型,但是文章中的数据量有点少,所以这个系数可能没有60%,但是肯定不能说这个思路错的,希望大家可以尝试自己更换数据集来做复现。

总结

从一张房子的图像中可见的特征预测发生车祸的风险,而且独立于经常使用的变量,如年龄或邮政编码。

这一发现迈出了一大步。它不仅提供了更为精确的风险预测模型,而且还说明了社会科学的一种新方法。

在这种方法中,真实世界中的细粒度数据可以经过大规模收集后进行分析。从保险公司的实际情况来看,给出的实验结果是显著的。研究者使用的模型中的5个变量包含了来自不完全注释的一些偏差,与保险公司在其最佳风险模型中已经使用的众多变量带来的8个百分点的改进相比,基尼系数提高了近2个百分点。

保险行业可能很快就会被银行效仿,因为保险风险模型与信用风险之间存在着已被证明的相关性。从谷歌街景(GoogleStreetView)中提取有价值信息的方法本身,不仅为金融业提供了各种机会。

此方法和深层次的学习技术可以使它在一个大规模自动化的模型中进行。同时,这种做法引起了人们对存储在公开可用的Google街景、Microsoft Bing Streetside、Mapillary或类似的私有数据集中的数据隐私的担忧。

客户同意公司存放其地址信息并不一定意味着同意储存有关其房屋外观的信息。特别是房屋的特征可以是种族、宗教或与一个人的社会地位有关的其他特征的代名词,法律上也禁止将这些特征用于任何歧视,例如某些区域的价格歧视。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6126

    浏览量

    104900
  • 机器学习
    +关注

    关注

    66

    文章

    8340

    浏览量

    132278

原文标题:[机器人频道|物联网]斯坦福最新研究:看图“猜车祸”,用谷歌街景数据建立车祸预测新模型

文章出处:【微信号:robovideo,微信公众号:机器人频道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌发布革命性AI天气预测模型NeuralGCM

    在科技与自然科学的交汇点上,谷歌公司于7月23日宣布了一项重大突破——全新的人工智能天气预测模型NeuralGCM。这一创新成果不仅融合了机器学习的前沿技术,还巧妙结合了传统气象学的精髓,其研究成果已在国际权威科学期刊《Natu
    的头像 发表于 07-23 14:24 431次阅读

    matlab预测模型怎么

    MATLAB预测模型是一种基于统计和数学方法的预测工具,广泛应用于各种领域,如金融、气象、生物医学等。本文将介绍MATLAB预测模型的使用方
    的头像 发表于 07-11 14:33 462次阅读

    MATLAB预测模型哪个好

    在MATLAB中,预测模型的选择取决于数据类型、问题复杂度和预测目标。以下是一些常见的预测模型
    的头像 发表于 07-11 14:31 355次阅读

    arimagarch模型怎么预测

    GARCH模型则用于捕捉时间序列的波动性。 以下是使用ARIMA-GARCH模型进行预测的一般步骤: 数据准备:首先需要收集和整理预测所需的
    的头像 发表于 07-09 10:22 353次阅读

    谷歌模型框架是什么软件?谷歌模型框架怎么

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架,由谷歌的机器学习团队开发,用于构建和
    的头像 发表于 03-01 16:25 760次阅读

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 783次阅读

    谷歌模型怎么用手机打开

    要使用手机打开谷歌模型,首先需要明确一点:谷歌模型本身是在计算机上运行的程序或算法,而不是可以直接在手机上打开的应用程序。然而,你可以通过手机访问
    的头像 发表于 03-01 16:23 543次阅读

    谷歌模型软件有哪些功能

    谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌
    的头像 发表于 03-01 16:20 562次阅读

    谷歌模型怎么PS打开文件和图片

    谷歌模型本身并不是Adobe Photoshop(简称PS)打开的文件和图片格式。谷歌模型通常是用于机器学习和深度学习的
    的头像 发表于 02-29 18:25 1327次阅读

    谷歌模型合成软件有哪些

    谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前,谷歌推出的模型合成
    的头像 发表于 02-29 18:20 1297次阅读

    谷歌模型软件有哪些好用的

    谷歌模型软件的好用程度可能因个人需求和技能水平而异,但以下是一些广受欢迎的谷歌模型软件,它们在各自的领域内有着出色的表现。
    的头像 发表于 02-29 18:17 955次阅读

    谷歌模型合成工具怎么

    谷歌模型合成工具主要是指Dreamfusion,这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演变,Dream Fields是
    的头像 发表于 02-29 17:33 723次阅读

    谷歌交互世界模型重磅发布

    谷歌模型
    北京中科同志科技股份有限公司
    发布于 :2024年02月28日 09:13:06

    LabVIEW进行癌症预测模型研究

    LabVIEW进行癌症预测模型研究 癌症是一种细胞异常增生的疾病。随着年龄的增长,细胞分裂速度放缓,但癌细胞会失去控制地不断分裂,形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示,新发癌症
    发表于 12-13 19:04

    街景图守卫建筑:深度学习为提高建筑安全铺平道路

    佛罗里达大学研究人员使用 AI 和街景图像实现自动化建筑安全分析。 在佛罗里达大学人工智能助理教授 Chaofeng Wang 的努力下,图像将发挥新的用途,例如谷歌街景中的图像。 Wang 的项目
    的头像 发表于 11-09 10:45 313次阅读
    <b class='flag-5'>用</b><b class='flag-5'>街景</b>图守卫建筑:深度学习为提高建筑安全铺平道路