发布日期:2021.07.13
2021 年世界人工智能大会(waic)于 7 月 8 日 在上海世博中心拉开帷幕。九章云极datacanvas董事长方磊受邀参加由世界人工智能大会组委会主办、机器之心承办的“2021 waic·ai开发者论坛”,并发表“hypernets:自动化机器学习的基础框架”主题演讲。
本次论坛以「后深度学习的 ai 时代」为主题,作为本届 waic 开发者单元的主力军,waic· ai开发者论坛与 waic·开发者日一脉相承,连续三年始终专注 ai 技术人员与开发者。本次论坛邀请了15位学术界和产业界重磅嘉宾,覆盖多模态机器学习及大规模自动生成技术、automl框架、智能社区的多模态数据融合、智能制造中的算法平台以及下一代 ai 基础软件能力等话题,共同探讨ai前沿技术。九章云极datacanvas董事长方磊围绕automl框架的重要性和基本抽象、hypernets的概念模型和重要特性、hypernets的具体示例三部分向广大开发者奉献了一场干货满满的技术福利。
automl框架的本质是空间搜索
automl技术的研发与应用是一个持之以恒的课题,随着对其研发的深入,很多automl工具的各部分高度耦合,只能针对特定问题,难以扩展。方磊表示,automl框架的本质就是空间搜索,在这里面很重要的思想就是抽象性和层级的必要。
automl框架是对automl领域面对的问题解构和抽象后形成的基础性支撑,无论是超参数优化、full-pipeline搜索还是神经网络架构搜索(nas)问题,主要围绕3个基本部分:搜索空间(search space)、搜索策略(search strategy)和评估策略(estimationstrategy)。automl框架应对各部分高度解耦以实现各部分自由扩展,开发者可以在此之上不断丰富搜索算法,设计多样搜索空间,避免共性问题重复开发,针对非共性问题实现灵活扩展,加速迭代效率,大幅低于降低自动机器学习的准入门槛,能够让开发者快速实现自动机器学习的搜索。
hypernets——开发者的朋友
一款优秀的automl框架应当在上述三个部分具有:富有表现力的搜索空间描述语言、支持高维空间的高效搜索算法和高性能的评估策略。hypernets作为一个自动机器学习的底层通用框架,满足单节点及分布式高性能的模型训练需求,可以在不同的空间进行搜索与训练,结合各种机器学习和深度学习框架开发专用自动机器学习工具,帮助用户快速开发专用领域的automl工具。同时,hypernets支持最新的神经网络架构搜索(nas)算法,可以实现深度学习的网络架构设计自动化。
方磊表示,hypernets与目前众多的机器学习、深度学习框架相结合更快更好的生成自动机器学习工具。用5-10行代码完全可以搜索模型,因此hyperents一个定位就非常清晰,不管开发一个训练框架还是开发应用模型,都是开发者的朋友。开发训练框架可以让框架使用hypernets很容易结合出框架本身的自动机器学习能力;如果是开发应用模型,可以组合不同学习训练框架的同时,在上面使用hypernets,端到端整个pipeline上进行自动机器学习的参数搜索,就会得到非常较好的模型。经过大量在行业上的应用,在特征丰富情况下,hypernets在搜索能力包括分布式计算能力体现出来很多优势,搜索时间短,算力仅需普通训练的20-30倍,就能够得到一个性能大大提升的模型。
简单快速精准的自动机器学习开发过程
开发者通过hypernets设计不同的模块空间(module space)和相应的参数空间(parameter space),通过不同的连接方式(connection space)将各个模块空间组合成为一个高维的丰富动态搜索空间(search space)。遗传算法作为搜索策略的一个例子,是一种非常有效的寻找局部最优的方法,也可以与其他各类算法组合使用,实现更为强大的策略,例如在空间切分搜索的时候,使用遗传算法加速子空间中的迭代。评估策略的核心在于高效:在评估不精确的情况下,通过指导搜索方向、节省预处理时间、防止过拟合三种方式,减少计算量,高效地利用自动机器学习找到更好的模型。作为hypernets的一个具体实例,hypergbm在多个公开数据集上和真实业务场景上,超过或达到了人类专家和其他automl工具的水平。
强大的自动机器学习开源框架:hypernets家族
gartner在2020年十大科技趋势中,将以automl为代表的ai普及化作为数据与分析领域的重要战略技术之一。作为帮助用户快速开发专用领域的automl工具,hypernets于2019年在github进行开源,结合各种机器学习和深度学习框架开发专用自动机器学习工具,率先突破了机器学习建模过程中不均衡数据、概念漂移、模型泛化能力和大规模数据等诸多挑战,提供开放的训练服务框架,降低了automl工具的开发门槛,实现深度学习的网络架构设计自动化。
方磊提到,automl的核心内容是降低门槛构建模型。基于hypernets框架,九章云极datacanvas自主研发的hypergbm不仅能够解决生产化困扰,同时实现了数据预处理、特征衍生、特征筛选、模型超参数优化、模型选择、模型融合全过程的全自动机器学习,仅需5行代码就可以实现高质量的模型,拥有开箱即用、简单易用等特点,解决企业在结构化数据建模的需求。
为避免共性问题重复开发,其研发的hyperkeras支持神经网络架构搜索和超参数优,专注非共性问题,实现灵活高效扩展。此外,九章云极datacanvas对automl技术不断探索,开源项目deeptables荣获全球知名国际性竞赛第一名,全新定义了深度学习技术在结构化数据分析领域的价值。
hypernets家族开源地址
hypernets
hypergbm
hyperkeras
随着人工智能时代对于automl需求的增加,九章云极datacanvas将运用hypernets框架融合更多的深度学习框架,推动神经网络架构搜索的前沿发展,助力实际应用场景中的深度学习模型落地,并且通过在automl、autodl领域不断的技术创新,为金融、通信、政府等众多行业实现数智化升级提供新动能。
咨询