在6月的1400多篇机器学习相关的文章/项目中,Mybridge甄选了10篇最热文章(入选率0.7%)。主题包括:Google Duplex,网格单元,神经网络,TensorFlow,Keras,第一名解决方案,CVPR 2018等。
在 5 月的1400多篇机器学习相关的文章/项目中,Mybridge甄选了10篇最热文章(入选率0.7%)。
此列表中的主题:Google Duplex,网格单元,神经网络,TensorFlow,Keras,第一名解决方案,CVPR 2018等。
Top 10文章由Mybridge AI选出,综合考虑文章分享数量、阅读时间等,并使用机器学习算法对文章进行排序。相信这些文章分享的机器学习经验和技巧是有用的。
1. Google Duplex:一个通过电话完成真实世界任务的AI系统
5月份最受关注的是谷歌在I/O大会演示的Google Assistant的新功能——Duplex双工技术。
利用Duplex双工技术,谷歌的智能助理能用非常类似人声的角色完成真实世界的任务。在demo中,谷歌CEO Pichai告诉听众,“你将要听到的是,谷歌的助理实际地打电话给一家真实的美容院,为你安排一个预约。”当然,智能助理几乎毫无破绽地完成了任务。虽然后来这个演示是否真实受到一些质疑,但这一技术引发了业界热议。
在这篇文章中,谷歌首席工程师Yaniv Leviathan和工程副总裁Yossi Matias详细介绍了Google Duplex使用到的技术,包括:
Duplex的核心是一个循环神经网络(RNN),使用TensorFlow Extended(TFX)构建。
使用谷歌自己的自动语音识别(ASR)技术来处理语音,将语音转换为文本。
使用连续文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)的组合,根据情况控制语调。
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
2. “换脸术”Deep Video Portraits
Deep Video Portraits是斯坦福大学、慕尼黑技术大学等的研究人员提交给今年8月SIGGRAPH大会的一篇论文,描述了一种经过改进的“换脸”技术,可以在视频中用一个人的脸再现另一人脸部的动作、面部表情和说话口型。
例如,将普通人的脸换成奥巴马的脸。Deep Video Portraits可以通过一段目标人物的视频(在这里就是奥巴马),来学习构成脸部、眉毛、嘴角和背景等的要素以及它们的运动形式。
论文地址:https://arxiv.org/abs/1805.11714
3.在人工智能体中使用网格表示进行导航
虽然AI在围棋等许多任务超过了人类,空间导航能力对于人工智能体来说仍然是一个巨大的挑战。DeepMind在Nature上发表的一篇论文引起AI领域和神经科学领域的极大震撼:AI展现出与人脑“网格细胞”高度一致的空间导航能力。
通过一系列实验操作,研究人员发现网格单元对于基于矢量的导航至关重要。例如,当网络中的网格单元被掐断时,agent的导航能力就会受损,而且对目标的距离和方向的判断等关键指标的表示变得不那么准确。这项发现有助于AI可解释性的研究。
地址:https://deepmind.com/blog/grid-cells
4.如何用Python从头开始构建一个神经网络
这是一个入门教程,初学者可以从这个教程开始,了解深度学习的内部运作。
神经网络是什么呢?许多介绍性文章会将其与大脑进行类比,但如果抛开神经网络和人脑的类比,将其描述为一个给定的输入和一个期望的输出之间的映射的数学函数,会更好理解。
神经网络包含以下元素:
一个输入层x
任意数量的隐藏层
一个输出层ŷ
每一层之间的一组权重W和偏差b
每个隐藏层的激活函数σ。在这个教程中,使用Sigmoid激活函数。
图:一个2层神经网络的架构
地址:https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6
5.对Airbnb上的照片进行分类
Airbnb为数百万的民宿提供了一个平台,也因此获得了一大批民宿的房间细节照片和用户数据。在这个任务中,Airbnb的数据团队利用计算机视觉和深度学习对民宿房屋照片进行分类。
其目的一方面是将具有相似风格的房源聚集到一起,方便用户浏览。另一方面,分类也可以帮助验证房间数量和房屋信息的准确性。该团队表示,利用这些图片数据,还将发掘出更多潜在的信息。
地址:https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3
6. Loc2Vec:用triplet-loss网络学习位置嵌入
这是一个以智能手机的传感器数据作为输入,例如加速度计、陀螺仪和位置信息,并从中提取行为洞察的平台,用于了解用户的模式,并能够预测和解释事情发生的原因。
这个平台的一个重要组成部分是场地映射算法(venue mapping algorithm)。venue mapper的目标是弄清楚你要访问的地点。
地址:http://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks/
7.在浏览器中使用TensorFlow.js进行实时人体姿态估计
这是来自TensorFlow博客的教程,与谷歌创意实验室合作,发布了TensorFlow.js版本的PoseNet。PoseNet是一个机器学习模型,可以在浏览器中实时估计人体姿态。
PoseNet可以利用单姿态或多姿态算法检测图像和视频中的人物,所有这些都可以在浏览器中实现。
PoseNet的姿态估计分两个阶段进行:
将一个RGB图像作为输入,输入给卷积神经网络。
利用单姿态或多姿态解码算法解码来解码模型输出中的姿态、姿态置信度分数、关键点位置和关键点置信度分数。
PoseNet返回检测到的每个人的置信度值以及检测到的每个姿势关键点。
https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5
8.用Keras进行多标签分类
这是一个关于多标签分类的Keras教程,包括以下4个部分:
讨论多标签分类数据集(以及如何快速构建自己的分类数据集)。
简要讨论SmallerVGGNet,这是将用来实现多标签分类的Keras神经网络架构。
实现SmallerVGGNet,并使用多标签分类数据集对其进行训练。
最后,在示例图像上测试网络,并讨论一些注意事项
https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras
9.谷歌地标检索挑战赛:第一名解决方案解读
四个月前,谷歌在Kaggle发布了一项地标检索挑战赛(Google Landmark Retrieval Challenge),参赛者被要求在所有图像数据集中检索到含有给定图像中地标的图片。
这篇文章是第一名团队的解决方案总结,包括两个主要部分:
首先,创建一个高性能的全局描述符(global descriptor),它可以将数据集中的图像表示为奇异向量(singular vector);
然后,创建一个高效框架,将这些向量和最可能的图像匹配,最后提交到积分榜上。
以下是一个流程图,每一步都标记LB分数。
https://www.kaggle.com/c/landmark-retrieval-challenge/discussion/57855
10.学会“夜视”
这是伊利诺伊大学香槟分校(UIUC)和Intel Labs合作的论文,提出一个基于端到端训练的用全卷积网络进行低照度图像处理的模型。这个网络直接处理原始传感器数据,并且基本不使用传统的图像处理流程。
两个大型新数据集
伯克利大学发布大型驾驶视频数据集BDD100K
伯克利大学发布了BDD100K,这是目前为止最大规模也是最多样化的驾驶视频数据集。这些数据具有四个主要特征:大规模,多样化,在真实的街道采集,并带有时间信息。利用这个数据集,你还可以参加伯克利在CVPR 2018举办的自动驾驶竞赛。
地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/
骨骼X-ray数据集
Andrew Ng带领的斯坦福大学ML团队发布了一个目前为止最大规模的医学影像数据集MURA(musculoskeletal radiographs),这个数据集包含4万多张多角度射线检测图像,来自对12173名病人的14863项研究,X光影像包含人体上肢的7个部分:肘、指、小臂、手、肱、肩、腕。最近,该团队推出了基于此数据集的识别挑战赛:MURA骨骼X-ray深度学习竞赛。
-
Google
+关注
关注
5文章
1762浏览量
57505 -
神经网络
+关注
关注
42文章
4771浏览量
100714 -
机器学习
+关注
关注
66文章
8406浏览量
132563
原文标题:5月机器学习TOP 10热文: Google Duplex,“换脸术”、网格单元(附文章地址)
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论