新闻 news
您现在的位置:首页 > 新闻 > 可行的大数据:如何弥合数据科学家与工程师之间的鸿沟

新闻

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

财经

杭州商务局总经济师武长虹:未来5年培育10家独角兽企业 杭州商务局总经济师武长虹:未来5年培育10家独角兽...

【亿邦原创】4月27日消息,在2023中国(杭州)新电商大会开幕式上,杭州市商务局总经济师武长虹发表了题...

  • 伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...

      民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...

  • 看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...

      今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...

  • 英国科技产业组建Code4COVID.org以抗击冠状病毒危机

      由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

可行的大数据:如何弥合数据科学家与工程师之间的鸿沟

发布时间:2020/03/03 新闻 浏览:762

 
关于大数据的嗡嗡声引起了广泛的误解:仅仅存在就可以为公司提供可行的见解和积极的业务成果。
现实有点复杂。为了从大数据中获取价值,您需要一个有能力的数据科学家团队对其进行筛选。在大多数情况下,企业都理解这一点,从2016年到2019年数据科学家职位的增长是15倍至20倍就证明了这一点。但是,即使手头有一支强大的数据科学家团队,您仍然需要清除主要障碍。将这些想法付诸实践。为了实现真正的业务价值,您必须确保您的工程师和数据科学家能够彼此协同工作。
差距
数据科学家的核心是创新者,他们每天从贵公司提取的数据中提取新的想法和思想,而工程师则根据这些想法并创建可持续的视角来查看我们的数据。
数据科学家的任务是解密,处理和销售数据,以取得积极的业务成果。为了完成这一壮举,他们执行从数据挖掘到统计分析的各种任务。收集,组织和解释数据都是为了识别重大趋势和相关信息。
尽管工程师当然可以与数据科学家一起工作,但是这两个角色之间存在一些明显的区别。根本差异之一是工程师对系统的“生产就绪”给予了绝对更高的重视。从数据科学家生成的模型的弹性和安全性到实际的格式和可伸缩性,工程师都希望他们的系统具有快速可靠的功能。
换句话说:数据科学家和工程团队每天都有不同的关注点。
这就引出了一个问题,您如何才能定位成功的两个角色并最终从数据中提取出最有意义的见解?
答案在于将时间和资源用于完善数据和工程关系。减少数据集的混乱或“杂讯”很重要,同时也要消除这两个对您的业务成功至关重要的团队之间的所有摩擦。这是实现这一目标的三个关键步骤。
1.交叉训练
仅将几个科学家和几个工程师放在一个房间里,并要求他们解决世界的问题是不够的。您首先需要让他们了解彼此的术语并开始讲相同的语言。
一种方法是对团队进行交叉培训。通过将科学家和工程师配对成两半,您可以鼓励共同学习并打破障碍。对于数据科学家来说,这意味着学习编码模式,以更有条理的方式编写代码,也许最重要的是,了解将模型引入生产过程中的技术堆栈和基础架构的取舍。
通过双方彼此的目标和工作流程同步,我们可以促进更有效的软件开发过程。在快节奏的技术世界中,通过持续的教育和跨数据科学与工程学的清晰沟通可以实现效率提升,这对任何公司都是一个巨大的胜利。
2.将较高的值放在干净的代码上
数据和工程团队使用相同的语言,您可以专注于更多的战术方面,例如简洁,易于实现的代码。
当数据科学家处于项目开发的早期阶段时,其工作流程的迭代和实验风格对于在生产系统上工作的工程师而言似乎很混乱。内部和外部输入的混搭在开始训练模型时就受到了操纵。在这样一个不稳定的环境中进行操作对于数据科学家来说是司空见惯的,但对工程师而言却可能是个问题。如果将实验或原型阶段的代码传递给工程师,您将很快遇到障碍。这体现在模型在稳定性,可扩展性或整体速度方面均不足。
为了解决这一障碍,我的团队投入了时间和资源进行标准化。最终结果是我们的数据科学家和工程师在各种参数上保持一致,这些参数包括编码标准,数据访问模式(例如,将S3用于文件IO并避免使用本地文件)和安全标准。该框架为我们的数据科学家提供了编写在我们的生态系统中性能卓越的代码的方法,同时使他们能够专注于克服其专业领域特定的挑战。
3.创建功能存储
从干净代码中获得最大价值的最佳方法之一是在内部“生产”它,从而创造一个环境,工程师和数据科学家都可以依靠他们的优势。我们称其为“功能存储”,它实际上是存储文档化和精选功能(独立变量)的集中位置。
该数据管理层的目的是将策展的数据馈送到我们的机器学习算法中。除了标准化和易用性之外,我们团队的主要好处是,我们的功能存储可确保模型之间的一致性。它大大提高了我们算法的稳定性,并提高了数据团队的整体效率。数据科学家和工程师知道,当他们将某个功能停产时,该功能已经过可靠性测试,并且在投入生产时不会中断。
大数据和机器学习在组织级别的激增在此过程中创造了新的机遇和新的挑战。第一阶段是认识到大数据本身并不会提高效率-您需要创新的思想家来理解它。第二阶段是帮助那些优秀的人,他们是难以发现价值的数据科学家,将他们的想法付诸实践,以满足大规模运行的工程团队的严苛要求,成千上万的客户依赖该产品。