开源 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Thu, 02 Jan 2025 12:27:08 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 Linux内核项目组:2024年度Linux内核代码提交量降至75314次创十年新低 新增代码量达369万行 //www.otias-ub.com/archives/1735051.html Thu, 02 Jan 2025 12:27:08 +0000 //www.otias-ub.com/?p=1735051 在近日的年终探讨中,最令人惊讶的是 Linux 内核今年的新提交数量创下了十年来的新低。 但也并非所有情况都很糟糕,因为按行计数的年度指标与最近几年相当。

截至1日早上,在  Linux Git 源代码树上运行 GitStats 发现,Git 树上有来自约 29380 位不同作者的 1324647 次提交……  今年内核的提交次数为 75314 次,而去年为 87993 次,前年为 86790 次。

自 2017 年以来,每年的提交量通常在 8~9 万次,但今年下降到了 7.5 万次。 在 2014~2016 年期间,每年的提交量是 7 万次左右。 起初我在想,也许合并窗口/内核发布节奏与日历年的一致起到了一定作用,但在比较每年的内核发布数量时似乎并没有,而且十年的活动也不会发生变化。

但提交次数只是一个指标,今年新增了 3694098 行代码,删除了 1490601 行代码。 这与前几年的情况相当,去年新增了 330 万行,删除了 159 万行… 虽然低于 2022 年的 530 万行,但 2021 年的新增行数也在 320 万行左右。 因此,就代码活动而言,2024 年的 Linux 内核活动与前几年大致相同,只是提交次数少了很多。

林纳斯-托瓦尔兹(Linus Torvalds)管理着主线内核的所有合并工作,同时还打了自己的许多补丁,今年他仍以 2877 次提交位居榜首…… 其中大部分还是来自合并。 紧随其后的是 Krzysztof Kozlowski(Linaro)、Jakub Kicinski(Meta)、Kent Overstreet( Bcachefs)、Arnd Bergmann(Linaro)和 Andy Shevchenko(英特尔),他们是今年提交次数最多的开发者。

在 2024 年, Linux 内核的作者人数约为 4807 人。

Linux内核源代码树中的行数继续增长,预计在2025年,内核树中的代码、文档和其他包含的文本源的行数将超过4000万行。

自 中文业界资讯站

]]>
工信部:2024年中国软件开发者超940万 全球第二 //www.otias-ub.com/archives/1733525.html Sun, 22 Dec 2024 14:08:04 +0000 //www.otias-ub.com/?p=1733525 据央视报道,2024开放原子开发者大会于20日至21日在武汉圆满举行。会上,工业和信息化部负责人宣布了一项重要数据:我国软件开发者群体规模已历史性突破940万大关。

随后,工业和信息化部总工程师谢少锋在大会中透露,我国已经成为全球开源参与者数量排名第二,增长速度最快的国家,开源鸿蒙生态设备超过了10亿台。谢少锋还宣布了一个好 消息,我国自主研发的开源协作平台已经上线试运营,注册用户数量接近150万。由开放原子开源基金会孵化及运营的开源鸿蒙5.0也在会上正式发布。开源鸿蒙5.0将更好实现 AI技术与物联网设备的结合,促进万物智联。

开放原子开源基金会理事王成录进一步分享了开源鸿蒙在商业化应用方面的成果。他表示,开源鸿蒙已在智慧家居、智慧康养、智慧交通、智慧能源等多个领域实现了商业化应用,成果斐然。


截至目前,已有超过70家单位加入开源鸿蒙生态,超过8100名开发者为该项目贡献了超过1.2亿行代码。开源正逐步成为引领新一代信息技术创新发展的关键力量,为产业竞争开辟了全新的赛道。

此外,大会还展示了基于开源技术自主研发的国内首个电力物联操作系统“电鸿”。该系统在广州已成功上线,实现了不同类型电力设备的数据互联互通。

通过这一系统,管理者能够实时掌握各地电力设施的数量、建设及运行情况,促进了设备间的智能互联与协同,显著提升了能源利用效率。南方电网数字电网科技(广东)有限公司总经理徐键介绍,通过统一数据标准,“电鸿”系统使成本降低了60%至70%,效率提升了五至十倍。

此外,电桩和电网之间的信息交互,能大幅降低接入和运维成本,提高电能使用效率。用户通过这个系统可以方便地选择在电价低的时候充电,未来还能让消费者参与到电网的调峰调频工作。目前,已经有350家产业链厂商加入“电鸿”生态,超过800款终端开展了适配工作。这一生态系统的快速发展,将进一步推动我国电力行业的智能化和数字化转型。

开源,即开放软件的源代码,作为软件开发的一种重要模式,已经全面渗透至软件开发的各个领域。全球97%的软件开发者和99%的企业都在使用开源软件,这充分展示了开源的强大生命力和广泛影响力。未来,随着开源技术的不断发展和 应用领域的不断拓展,相信开源将在推动信息技术创新、促进产业发展方面发挥更加重要的作用。

自 快科技

]]>
哈佛商学院:2024年全球96%代码库包含开源组件 Rust采用率增长500% //www.otias-ub.com/archives/1731283.html Fri, 06 Dec 2024 14:47:55 +0000 //www.otias-ub.com/?p=1731283 日前哈佛商学院、哈佛创新科学实验室、Linux 基金会、OpenSSF (开源安全基金会) 联合研究撰写的《免费和开源软件普查 III》发布,此次研究以前两次研究为基础,研究构成现代软件基石的应用程序级组件。

此次研究分析了 10000 家公司使用的超过 1200 万条开源软件使用情况数据,研究团队与业界合作收集了来自多个平台的匿名数据,分析包括对生产代码库的自动扫描和对软件组合的全面人工审查,从而深入了解开源软件的使用情况及其在整个软件供应链中的间接依赖情况。

本次研究发现的特点包括:

  1. 96% 的代码库中都存在开源组件
  2. 云服务相关的专用包 (也就是非开源) 使用量正在急剧增加
  3. 业界继续依赖过时的 Python 2 导致面临安全风险
  4. 自第二次调查以来 Rust 采用率激增 500%,标志着向内存安全编程的转变
  5. 软件组件缺乏标准化命名增加了安全风险
  6. 一小部分贡献者推动了主要的开源软件,带来了可持续性方面的担忧

这份报告目前在 Linux 基金会官方网站提供免费下载,有兴趣的网友可以查看报告全文:https://www.linuxfoundation.org/research/census-iii?hsLang=en

单一维护者项目的风险暴露:

研究报告指出,40% 的顶级项目只有 1~2 名开发者并且贡献了超过 80% 以上的代码,贡献者 / 维护者的高度集中模式代表着潜在的安全隐患。

案例是今年的 XZ Utils 供应链投毒事件,黑客通过频繁为该项目提交代码获得主要维护者的好感和信任,之后成为维护者后开始在项目中投毒,然后感染了大量的下游项目。

OpenSSF 基金会正在努力解决这类挑战:确保审查的源代码就是人们正在运行的代码。开源软件的一大优势就是可以进行广泛审查,从而寻找有意或无意中包含的漏洞。

然而如果审查的内容不是用于构建最终产品的内容那审查就会变得没有意义,所以现在 OpenSSF 的工作就包括强化构建和分发流程,确保现实中运行的代码就是已经经过审查的代码。

Python 2 属于老生常谈的问题:

Python 基金会在 2000 年发布 Python 2,在 2008 年发布 Python 3 系列,目前 Python 主要在 Python 3.x 系列上进行更迭。

比较头疼的是一些行业的 Python 2 使用率为 20%~30%,使用过时版本的 Python 意味着存在安全隐患,但业界暂时也没有更好的办法能够完成新版本更迭。

OpenSSL 认为如果让新版本升级变得极其容易或许能够推动开源软件的新版本采用率,例如在几乎所有情况下,新版本都应该完全向后兼容旧版本,尤其是以前的老版本,尽管这需要开发者付出额外的努力,但这应该是正确的方法。

]]>
CNCF:中国已成为全球第二大开源贡献国 CNCF项目的代码贡献接近100万 //www.otias-ub.com/archives/1715389.html Sat, 24 Aug 2024 01:29:43 +0000 //www.otias-ub.com/?p=1715389

在8月21日至23日于香港举办的KubeCon China 2024大会上,云原生计算基金会(CNCF)首席技术官Chris Aniszczyk表示,中国已经成为全球第二大开源贡献国,对CNCF项目的代码总贡献量接近100万。

自2015年以来,中国在CNCF核心项目Kubernetes的贡献排名中始终位居前四,拥有近2600名贡献者,仅次于美国、印度和德国。

根据《2024中国开源发展现状》报告,中国开发者(含香港)在GitHub全球用户数量规模排名第三,且当前活跃率居全球第一,预计2026年规模达到1800至2000万。

GitHub社区副总裁Stormy Peters在演讲中指出,中国拥有一个充满活力的开源软件社区,汇聚了1100万软件开发者,他们站在开源和人工智能领域的前沿。

据了解,在GitHub上,中国在生成式AI项目的社区规模方面位居全球前十,展示了中国开发者在全球开源软件领域的重要影响。

CNCF托管了191个开源项目,包括Kubernetes、Prometheus和Envoy等知名项目,这些项目累计有超过24万名贡献者,分布在全球190多个国家。

实际来自中国地区的会员占CNCF会员总数的8%到10%,KubeEdge Harbor、Dragonfly等项目均诞生于中国。

自 快科技

]]>
CentOS Stream:最终真正实现完全意义上的开源模式 //www.otias-ub.com/archives/1471161.html Fri, 29 Jul 2022 04:08:45 +0000 //www.otias-ub.com/?p=1471161 2021年12月31日,CentOS 8被停止维护和更新。CentOS Stream替代了CentOS。这在开源界掀起了不少的讨论。近期,红帽公司组织的线上沟通会,Linux中国创始人王兴宇与开源布道师,社区和开发者业务策略师Brian Exelbierd、 CentOS社区委员会成员Thomas Oulevey一道,详细了解其中的来龙去脉及CentOS社区未来如何加速创新发展。

红帽与CentOS始终保持一臂距离


开源布道师,社区和开发者业务策略师Brian Exelbierd

Brian Exelbierd回顾CentOS与红帽的历史渊源要从7年前开始。当时红帽收购了CentO品牌,雇佣了CentOS项目的工程师。目的是提供一个平台给某些特定的高级开发比如虚拟化、其他工具等运行于操作系统之上的组件开发。红帽希望借此鼓励这些项目(虚拟化、其他工具)能够以开源项目的方式健康发展。

在发展过程中,红帽逐渐意识到上层项目越来越依赖于底层操作系统的变化趋势。而CentOS正好可以作为这个底层操作系统,是一个很好的地方可以孵化其他项目,借此可以在做RHEL(Red Hat Enterprise Linux)开发的同时,也去做RHEL之上其他组件(虚拟化、工具等)的开发,与广大社区开发者一起,每个人都可以促进底层操作系统与上层组件的协调发展。这就是红帽发展CentOS项目,2019年提出CentOS Stream的原因。

Brian Exelbierd表示,红帽与CentOS始终保持着一臂的距离,这就意味着,红帽不去控制CentOS所做的事情,除非遇到一些挑战比如法律相关的风险。“我们只是为CentOS提供更多的资源,我们也不认为CentOS应该做的事情就是红帽产品线的一部分。从红帽产品线的视角来看,CentOS不是红帽的产品,红帽不提供对CentOS的支持,我们不对CentOS提供保证,我们也不对CentOS使能。也就是说,CentOS确实对红帽的产品很重要,是因为我们所做的所有工作都是基于开源的代码库,所以我们需要这个项目作为我们的工作地来产品化这部分代码。所以你可以看到在虚拟化领域,我们的RHEL就是基于CentOS Stream而制作出来的。”

CentOS Stream目的是改善社区的参与度

CentOS社区治理模式和很多其他开源项目的运作模式有所不同。CentOS有一个治理委员会(董事会),董事会需要每个人都对一个新的决策达成共识才可以,只是大多数人同意,有少部分人反对,是不行的。这个决议必须是董事会一致的共识。

CentOS社区委员会成员Thomas Oulevey

Thomas Oulevey三年前加入CentOS 董事会,当时CentOS董事会成员在讨论如何提高对CentOS社区的参与度问题,如何给用户更好的使用体验提出了大量的提议。“最后大家认为CentOS Stream是我们在未来的一个正确的努力方向,通过这种模式可以提高CentOS的社区参与度。CentOS Stream的模式对社区版的企业级操作系统发展(CentOS:Community Ent erprise OS)也至关重要,总体来讲之所以会做出这样一个决定,就是想要改善社区的参与度。”

Thomas Oulevey认为从长期的角度来看,希望CentOS Stream代替CentOS Linux以后,在未来可以让所有人都能够感到满意,真正实现完全意义上的开源模式。

CentOS如何在中国创新发展

Linux中国创始人王兴宇

Linux中国创始人王兴宇认为,CentOS如何在国内发展,存在一些问题:

首先,CentOS在中国有非常多的受众和很高的认知度。几乎在国内传播Linux的文章,都会拿CentOS作为蓝本。而国外拿Ubuntu作为蓝本比较多一些。

其次,国内无论是社区文化还有语言,造成中国的CentOS的爱好者,或者贡献者,很难跟国际的CentOS社区直接对接起来,这种情况下,确实存在一定的阻碍。

王兴宇建议可以从几个方面入手。

  • 建议CentOS国际社区可以支持中国的CentOS本地化的社区的支持,包括本地化的翻译。
  • 线下的社区型的(partner)也可以得到国际社区的支持。
  • 社区的动态、倡议、决策及时的传达给本地的社区。国内的沟通工具与国外不一样,可以做适应本地化的改造。

王兴宇认为。可以发掘出来中国的一些开源爱好者和贡献者,参与到整个国际社区之中。这样的话,无论是对中国的CentOS的社区建设,还是对整个国际化的社区建设都是有好处的。

Fedora, CentOS Stream, RHEL的未来发展计划

关于Fedora, CentOS Stream, RHEL未来的发展计划,Brian Exelbierd从两个维度来阐述。一个是社交组织的维度,另一个是代码的维度。

从社会组织的维度:

1)Fedora: 主题是如何提高对Fedora的贡献,如何使得社区更多样化;

2) CentOS Stream: 和Fedora差不多,提高社区贡献和是社区更多样化,另外就是发展SIG(特殊兴趣小组),充分发挥SIG的作用;

3) RHEL: 进一步繁荣包括社区、合作伙伴、客户的RHEL生态

从代码的维度:

1)Fedora:

  • 集成上游社区最新最好的代码,功能最丰富,做业界的引领者;
  • 面向特定的场景,做特色的发行版,如Fedora IoT, 就是面向物联网场景的Fedora操作系统。

2) CentOS Stream:

  • RHEL稳定可靠的持续交付版,用户可以提前看到即将发布的RHEL版本;
  • 基于稳定的代码基础,通过社区发展SIG,在特定领域创新。

 

]]>
AWS张侠:TensorFlow全球85%负载都在AWS平台上 开发成本可降低54% //www.otias-ub.com/archives/1048701.html Wed, 13 May 2020 09:08:25 +0000 //www.otias-ub.com/?p=1048701 199IT讯 随着5月12日AWS宣布Amazon SageMake 在宁夏区和北京区正式上线,中国机器学习产业链迎来重要一极。

其重要程度如果要用数据来衡量,AWS首席云计算企业战略顾问张侠博士披露的一个数据足以让同行不可小觑。张侠博士表示,全球使用最主流TensorFlow框架做机器学习,大概85%的负载都在AWS平台上。

(图:AWS首席云计算企业战略顾问张侠博士)

作为全球机器学习最主流框架,TensorFlow由谷歌人工智能团队谷歌大脑(Google Brain)开发和维护,自2015年11月9日起,TensorFlow依据阿帕奇授权协议(Apache 2.0 open source license)开放源代码。据2019年9月TensorFlow 产品总监Kemal El Moujahid 披露的数据,TensorFlow在全球的下载量已经超过了 4000 万次。

同样让人惊艳的数据是,在AWS平台上有一个使用SageMaker+TensorFlow的具体案例,可以把效率从65%提高到90%,训练时间从30分钟缩短到14分钟。另一个角度,从全球目前看到的统计数字,整套Amazon SageMaker把总体拥有成本降低54%,开发效率提升10倍。而在中国AWS也在评估一些类似的数据。

为什么选择AWS的机器学习呢?张侠博士认为,AWS提供了非常广泛、深入的机器学习服务,其中它的一个重要产品就是Amazon SageMaker。它使得企业能够加速对机器学习的整个学习、建模、发展、实验的整个过程。AWS云平台其他所有的手段,包括数据存储、数据仓库,物联网和机器学习一起形成所谓的AIoT,智能的物联网。再包括使用一些容器的方法,快速的来部署,把机器学习的应用做成一个容器化的服务,在容器里可以快速部署。所以云计算和机器学习在一体化之后,AWS可以提供最广泛、最深入的解决方案。

而大宇无限机器学习技术总监苏映滨则认为性能、成本、算法、丰富度、便捷性都是企业决定使用Amazon SageMaker的考量范围,除此之外,还有一个重点是服务能力,或者说用户体验,就是可用率以及能够提供支持包括额外提供一些AI的支持。

十分重视中国市场  将改变企业服务、金融、教育、健康、卫生等创新场景

从2019年12月re:Invent上发布的Amazon SageMaker Studio等六大主要的功能开始,不到5个月时间,AWS在中国发布Amazon SageMake,包括SageMakerStudio等最新的功能。北京区、宁夏区作为AWS全球24个大区的第五个区和第六个区对产品的上线,表明了AWS对中国市场的重视程度。张侠博士表示,“我们非常清醒地意识到随着中国的经济发展,这个市场无疑是经济发展的最重要的市场之一,也是我们最重要的市场之一。”

而对于Amazon SageMaker的落地场景,张侠博士认为,中国是一个接受创新非常快的地方,如使用的人脸识别、使用汽车的牌照识别进入停车场等等类似的大量场景,不光开始的快,并把它落实变成一个真正的应用,在全球范围内很多还是处在非常领先的地位的。因为中国的文化现在是非常开放,也非常愿意去接受这些创新的东西的阶段。

“场景其实也是非常多方面的。比如说客户服务,这是一个比较独特的场景,这个场景里面现在很多进展,包括Amazon Connect的Contact Lens,在客服里面通过机器学习的方法、语义的理解,去强化这方面的内容。在金融里面,比如说交易里面越来越自动化,包括最近一些新的客户投资的产品,智能投顾,一直是比较热门的话题,很多券商、投资公司都在这方面去做一些事情。这个方面如果要建一些模型,然后再推荐一些股票、基金什么的,可能可以摆脱一些人为的因素,相对有一些比较独立的效果。从教育、健康、卫生等场景非常多。几乎想象力就是边界,我们在很多地方随着时间都能够往前推进。”

AWS机器学习方案包括SageMaker在内的三层服务堆栈

实际上,Amazon SageMaker只是AWS机器学习解决方案的一个层面。AWS提供的机器学习解决方案是一个包括三层的服务堆栈。如下图所示,Amazon SageMaker是其中间层。在这一层,主要通过Amazon SageMaker这一完全托管的服务,完全消除了机器学习过程中的繁重工作,让开发高质量模型变得更加轻松。

AWS也根据不同类型客户的需求,提供了全面的机器学习解决方案。三层服务堆栈的底层,为想要自己构建算法或开发新框架的客户提供灵活选择,客户可以选择使用TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod 和 Keras等机器学习框架和基础架构。在这一层,AWS 专注于性能、灵活性,降低成本,以便任何用户都可以使用最新的基础设施,对多种框架进行试验。借助AWS,客户可以访问针对机器学习的、最强大的 GPU 实例,应对最苛刻的应用场景。

在三层服务堆栈的顶层,AWS提供了训练好的人工智能服务,这些服务主要解决与人类认知相关的典型问题。例如,计算机视觉方面的服务,可以识别图像或视频中的对象、人员、文本、场景、活动和不安全或不适宜的内容。个性化推荐服务可以从库存中向消费者推荐多种产品和服务。客户可以直接在其应用中调用AWS提供的这些人工智能服务,而无需关注服务背后的机器学习模型。

开源产品随时推出 融合全球主流开源内容

AWS对开源比较重视,早在2019年1月25日,亚马逊AWS发布开源服务Amazon SageMaker Neo,它可以帮助使用者在多个操作环境中运行机器学习训练模型。

Amazon SageMaker Neo 让客户只需训练一次模型,即可以高达 2 倍的性能在任意场景运行。在连接的端点设备上运行的应用程序对于机器学习模型的性能尤其敏感。它们需要低延迟决策,通常部署在多种不同的硬件平台上。Amazon SageMaker Neo 针对特定硬件平台编译模型,自动优化模型性能,使它们能够以高达两倍的性能运行,而又确保精确性丝毫不打折扣。因此,开发者不再需要花费时间,根据每一个硬件平台手动调整他们已经训练过的模型(节约时间和成本)。SageMaker Neo 支持英伟达、英特尔、Xilinx、Cadence 和 Arm 硬件平台以及一些主流框架,如 Tensorflow、Apache MXNet 和 PyTorch。

对于未来AWS在开源方面的考量,张侠博士回答199IT提问时表示“实际上我们在整个Amazon SageMaker人工智能平台里面,多个方位、多个角度,从框架到算法,都经常会融进一些开源的内容。两周之前,在PyTorch方面,我们刚宣布了一个Torch Serve的开源模型,是PyTorch框架下的,所以开源产品是随时都会推出的。”

中国各行业如何Amazon SageMaker应用机器学习

据张侠博士了解,中国有各种各样的企业都有在使用Amazon SageMaker,一些大的传统企业,比如做家用电器的企业,智能冰箱是可以用语音对话的。

创新类的,比如在线教育、做自动驾驶的公司,还有一些新创的公司,集中在一些新的领域,像叽里呱啦、流利说,还有其他很多的教育相关的应用,比如判卷子、判分等等,所以在线教育有很多案例。

在医疗卫生行业,从基因到一些智能的新的应用技术,比如说用机器学习的方法来读一些脑部供血的状况、癌症发展的状况,有很多公司在做类似的内容,也是一个比较典型的应用场景。

张侠博士强调,“企业可以说从大到小,几乎各种各样行业都会有一些突破。他们真正的共同点是这些企业都处在一个创新的很好的状态,是一个在走上坡、积极努力进取状态,去找一些新的市场、新的服务和突破点,更好的提供更新的价值,我觉得这是他们真正的共同点。”

对数据分析行业和数字化的影响

Amazon SageMaker对未来数据分析行业有何影响,张侠博士认为,SageMaker对数据分析行业影响较大,云时代更多的海量的实时的数据,需要的不是像以前传统批量的分析,而更多是前瞻性的、预测性的、实时的分析。使用人工智能机器学习的这些方法做数据分析,无疑是一个大数据发展的非常重要的趋势。在这里如果能够使用SageMaker来加速数据分析模型、建模的过程,是能够很有效的推进这个工作的。“在实际工作中,我们也看到确实是这么个情况,比如今天我在准备一些材料,跟我们客户要分享,这个材料里面其中就有关于零售类客户的一些数据分析,数据怎么样通过SageMaker做一些机器学习类的分析,能更好的进行预测的内容。所以这个事情是真实发生的。”

随着疫情的过去,很多企业准备在数字化转型过程当中重新大显身手,通过这次疫情,整个企业的发展加速了。因为在疫情当中好的数字化的原生企业,在疫情过程中表现都非常优秀。张侠博士坦言道:“数字化转型实际上包括很多方面,从客户体验、整个运营、决策、创新、竞争多个方面都是下一步经济发展、企业发展的关键,而这里面大数据分析和机器学习可以说是其中的两个重要的支撑点。一个企业如果抓好这些,可以更好的准备好,在下一阶段的发展中处在一个非常有利的地位。”(Ralf)

 

]]>
值得关注的12大开源大数据分析应用软件 //www.otias-ub.com/archives/545070.html Sun, 11 Dec 2016 09:40:01 +0000 //www.otias-ub.com/?p=545070 对于许多大企业来说,开源大数据分析已经成为日常业务中一个必不可少的组成部分。据New Vantage Partners公司对《财富》1000强公司的高层主管开展的调查显示,如今62.5%的企业在生产环境中至少运行一种大数据工具或应用软件。这比2013年给出同样回复的企业数量高出近一倍,只有5.4%的受访企业没有大数据计划。

1481449122-3771-KhnicrkKBLDJ6ibNiaTcACgMd4xQ

说到大数据分析,开源软件是常态,而不是异数。许多企业使用的一些领先工具由Apache基金会管理,许多商业工具至少一部分基于这些开源解决方案。

我们在本文中介绍了市面上12款顶尖的开源数据分析解决方案,其中一些为大数据分析提供了全面的端到端平台,另一些要与其他技术结合起来。它们都适合大企业使用,都是市面上领先的数据分析工具。

1. Hadoop

谈到开源数据分析技术,就不可能不提到Hadoop。Apache基金会的这个项目已经几乎成为大数据的同义词,它让企业能够大规模分布式处理极其庞大的数据集。TDWI和SAS联合开展的一项调查发现,近60%的企业预计在2016年年底之前会在生产环境中拥有Hadoop集群。

1481449122-7427-FkhQ613icYMmUric4DibmUbALFJA

然而值得一提的是,Hadoop本身无法实现数据分析。它通常是从大数据获取洞察力的整个更庞大解决方案的一部分。

2. Spark

Spark也是Apache旗下的一个项目,它承诺可以迅速处理大数据。实际上,它声称“在内存中运行程序的速度比Hadoop MapReduce快100倍,在磁盘上运行程度的速度快10倍”。

1481449122-1287-VicVuXBYbAmHaBxhA7ZQUCaXED2Q

由于这种出色性能,它常常用于分析流式数据或用于需要交互式分析功能的应用软件中。许多公司经常把它与Hadoop或Mesos一起使用,不过它也能独立运行。最近,它的人气得到了急剧提升,Syncsort在2016年开展的一项调查发现,受访的企业大数据工作人员中近70%对Spark有兴趣。

3. Talend

不像前面两个项目,Talend由一家营利公司管理,而不是由基金会管理。因而,提供收费支付服务。Talend既提供免费产品,又提供收费产品。它免费的开源解决方案名为Talend Open Studio,下载量已超过了200万人次。

1481449122-3301-6LbyRwn5DtTFibeSEPzT2gRWibCg

市场研究公司Gartner最近将Talend评为数据集成领域的“领导者”。这家公司声称,相比与之竞争的解决方案,它帮助企业分析大数据的速度快五倍,而成本却只有五分之一。

4. Jaspersoft

与Talend一样,Jaspersoft也有多个版本,有的版本免费,有的版本收费。社区版是免费、开源的,而Reporting版、AWS版、专业版和企业版需要收费,不过随带支持服务。

1481449122-2379-ECQEJOG2Qfkt9VnQ1ibjXRfDdz6A

Jaspersoft是一款开源商业智能工具,旨在让企业用户可以借助自助服务,满足自己的要求。该公司声称,它的技术支持130000多款应用软件,提供嵌入式商业智能功能。

5. Pentaho

Pentaho自诩为“全面的数据集成和商业智能平台。”该公司主要大力推销它的商业版软件,该软件基于开源社区版。

1481449122-7592-gl0wWa9VGlQicP2icU6ib7IW7Bug

许多公司将它与Hadoop和Spark之类的工具一起使用,以便能够报告和显示大数据。该软件声称拥有一大批的知名客户,包括英国电信(BT)、卡特皮勒、纳斯达克、美国国土安全部、美国国家海洋和大气局(NOAA)、《纽约时报》、EMC及其他许多企业组织。

6. RapidMiner

RapidMiner声称是“头号开源数据科学平台”,Gartner将它评为高级分析魔力象限报告中的领导者。它能够实现自助式预测分析,承诺有望提升速度飞快的性能。

1481449123-9313-ibwTRBhtDXYO4nibSdjtkULudb6w

用户包括宝马、汉莎航空、达美乐比萨公司、索尼、福特、Salesforce、国际特赦组织和通用电气公司。整个RadiMiner平台包括三个独立的组件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。这三个组件都采用开源许可证或商业许可证,商业版价格取决于用户数量。

7. Storm

Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之类的公司所使用,它是一种实时大数据处理引擎。

1481449123-1249-cFg4gyExnNxuIwX2WIb6fLNUqVIQ

它的官方网站解释:“Storm让用户很容易可靠地处理无限制的数据流,它在实时处理方面的功能好比Hadoop在批处理方面的功能。”客户可以将它与任何数据库或任何编程语言一起使用。它具有可扩展、容错、易于部分使用的优点。然而用户要注意的是,Storm还没有进入到1.0版本这个阶段。

8. H2O

H2O被60000多个数据科学家和7000多家企业组织所使用,声称是“世界上领先的开源机器学习平台。”由于它的内存技术,它提供了极其出色的性能。它还与Hadoop和Spark之类的其他许多开源数据分析工具整合起来,支持所有主要的流行数据库,提供收费的支持服务。

1481449123-5886-mo2jM9SegT3icnEgQUg8vcFyianQ

除了标准版的H2O外,该公司还提供Sparkling Water,这个版本整合了Spark和Steam,后者是一种端到端人工智能应用引擎。

9. Lumify

Lumify由一家名为Altamira 科技的公司开发,自称是“开源大数据分析和可视化平台”。

1481449123-7334-m0CRtmIoVSV7fb0MlLgm6IlohkZw

它让用户易于创建二维或三维图形,可显示实体之间的关系,或在地图上覆盖数据。对于有兴趣深入了解它的工作原理的那些人来说,官方网站提供了几个视频,显示了Lumify的实际运行,上面还有一个演示网站,让用户可以上传自己的数据,并试用软件。

10. Drill

Apache Drill让用户得以使用SQL查询用于非关系型数据存储系统。它支持一系列NoSQL和基于云的数据存储系统。

1481449123-9405-P0Q1gZAQML1eJWWKGORAkQEFGZVQ

Apache Drill包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。它还让用户可以使用单一查询,即可搜索用不同技术存储起来的多个数据集。此外,它支持许多流行的商业智能工具。

11. MongoDB

作为最知名的NoSQL数据库之一,MongoDB是一种开源非关系型数据存储解决方案。客户包括大都会人寿(MetLife)、芝加哥市、Expedia、谷歌、气象频道、BuzzFeed和Facebook。

1481449123-1763-NicBujSTKicWy9jdZYfRDfV76WZg

除了免费开源版外,该公司还提供一款收费的企业版和云托管的版本MongoDB Atlas。知名市场研究机构弗雷斯特研究公司将MongoDB评为大数据NoSQL领域的“领导者”。

12. SpagoBI

SpagoBI是一款开源商业智能和大数据分析平台。

1481449124-6641-kZjqwMntzFoHLjta9JC0gMciaEvw

该软件完全免费,但还提供收费的用户支持、维护、咨询和培训等服务。它包括了用于报告、多维分析(OLAP)、图表、位置情报、数据挖掘、ETL(抽取转换和加载)及更多其他方面的工具。它还与流行的内存处理引擎整合起来,能够实现实时处理。

]]>
15款开源人工智能软件 //www.otias-ub.com/archives/517949.html Fri, 16 Sep 2016 12:30:41 +0000 //www.otias-ub.com/?p=517949 人工智能是目前最热门的科研领域之一。诸如IBM、谷歌、微软、脸书和亚马逊这类大型公司不仅加大了对旗下发展研究部门的资金投入,同时也开始并购一些在机器学习、神经网络、自然语言与图像处理领域小有所成的初创公司。鉴于目前人工智能研究领域的火爆程度,斯坦福大学的教授们不久前作出了这样一份报告:“人工智能软件的作用越来越强大,而对人类社会、经济有强大影响力的人工智能软件将于2030年前面世”。

国外网站Datamation今日整理了目前热门的15款开源人工智能软件:

1.Caffe

1474028979-3453-57d8a3cc9aa8e

Caffe软件由加州大学伯克利分校的一名博士生开发,是一个基于表达构架与可扩展编码的深度学习框架。因其出色的处理速度而广受研究人员与企业的喜爱。根据其主页的介绍,只使用一颗NVIDIA K40 GPU,该软件一天就可处理超过6000万张图片。Caffe软件项目由BVLC运作,由NVIDIA和亚马逊等公司资助其发展研究。

 2.CNTK

1474028979-9988-57d8a3ce25d09

CNTK是Computational Network Toolkit(计算网络工具包)的缩写,是微软旗下开源人工智能软件之一。它的过人之处在于:无论是只有CPU工作,还是单科GPU,或是或多颗GPU,亦或是多台机器配备多颗GPU工作,它的性能都十分优秀。虽然微软主要用它进行语音识别的研究,但它还可以进行机器翻译、图像识别、图像抓取、文本处理、语言识别与语言建模等工作。

 3.Deeplearning4j

1474028979-1968-57d8a3cef25b4

Deeplearning4j是一款JVM开源深度学习库软件。它能在分布式环境中运行,并整合Hadoop与Apache Spark。而这使得它可以配置深度神经网络,还可运行Java、Scala等其他JVM语言。

Deeplearning4j软件项目由Skymind商业公司运作,由Skymind负责项目的资金支持、人员培训与产品推广。

 4.DMTK

1474028979-7774-57d8a3d0e344d

与CNTK一样,DMTK是Distributed Machine Learning Toolkit的缩写(分布式机器学习工具),是微软旗下的另一款开源人工智能软件。为大数据研究而设计,旨在缩短人工智能系统的训练时间。DMTK包括三大主要部分:DMTK框架、LightLDA模型算法与分布式(多感)字嵌入算法。为了说明DMTK的处理速度,微软声称其可通过一台8节点计算机集群,在有着超过1000亿个标记的文档合集中处理出一个包含100万主题与1000万文字(总计10万亿个参数)的主题模型,而这是同类软件无法匹敌的。

 5.H2O

1474028979-9501-57d8a3d1b15ae

更专注于企业使用体验而不是科学研究的H2O收获了如Capital One、思科、Nielsen Catalina、PayPal和Transamerica等大型企业的订单。Oxdata称所有人都可使用H2O机器学习与预测分析能力解决商业问题。H2O还可用于预测建模、欺诈与风险分析、保险分析、广告工艺、医疗保健与客户智能等方面。

H2O有两个开源版本:标准版H2O和Sparkling Water版H2O,两个版本都整合在Apache Spark中,Oxdata将为付费企业提供技术支持。

 6.Mahout 

1474028979-8980-57d8a3d2961c9

Mahout 是 ASF(Apache软件基金会)旗下的一个开源项目,提供开源机器学习框架。据其官方主页描述,Mahout有三大主要特点:可扩展算法编程环境、事先写有如Spark和H2O等工具的算法、内置名为“Samsara”的矢量运算环境。Mahout用户的包括Adobe、Accenture、Foursquare、英特尔、领英、Twitter和雅虎等公司。

 7.MLlib

1474028980-7581-57d8a3d366cdc

以处理速度而闻名的Apache Spark已成为大数据处理中最常用的软件之一。MLlib算法是一个Spark的可扩展机器学习库。它与Hadoop融为一体,可与NumPy和NumPy.R跨平台操作。它囊括了大量机器学习算法类型,包括:分类、回归、决策树、建议、聚集、主题建模、特点转换、模型评价、ML pipeline构建、ML持久性、生存分析、频繁集、序列模式挖掘、离散线性代数和数据统计分析。

 8.NuPIC

1474028980-1194-57d8a57e4c201

NuPIC由Numenta公司运作,是一个基于HTM(分层时间记忆)理论的开源人工智能项目。实际上,HTM理论是想根据人大脑新皮质结构设计一个电脑系统,旨在打造一台“在处理认知型任务上,接近或超过人类能力的电脑。”

Numenta不仅拥有NuPic的开放源代码许可,还有其商业授权与专利证书。

 9.OpenNN

1474028980-7489-57d8a3d5150d0

OpenNN是一款为研究人员和开发者打造的高级人工智能软件,提供可运行神经网络的C++编程库。其主要特点在于深度框架与高效的性能。OpenNN官网有关于神经网络运作的详细介绍。为OpenNN客户提供技术支持是来自西班牙的Artelnics公司(主攻预测分析研究)。

10.OpenCyc

1474028980-3349-57d8a3d5d1227

由Cycorp公司开发的OpenCyc软件内置Cyc知识库与常识推理引擎,含括了23.9万条术语,约209.3万条三元组,约6.9万条网络本体语言,就好比外接了一个语义数据库。它在富领域建模、语义数据融合、文本理解、特定领域专家系统和游戏人工智能等方面十分有效。OpenCyc一共有两个版本:一个是对研究员免费不开源版本,另一个是对企业收费的版本。

 11.Oryx 2

1474028980-8783-57d8a3d6bb22b

Oryx 2基于Apache Spark和Kafka构建,是一款专攻大型机器学习的发展框架软件。它使用的是独特的三层λ构架。开发者可使用Oryx 2开发新软件,其内置了一些通用大型数据任务的程序,如协同过滤、分类、归化和集群等。大数据工具提供商Cloudera开发了初代Oryx 1项目,现仍在继续研究发展。

 12.PredictionIO

1474028980-4599-57d8a3d791cf4

早在今年二月份,Salesforce公司买下了PredictionIO软件项目。PredictionIO软件项目作为一个孵化项目为ASF提供了新的平台和商标。虽然Salesforce公司通过PredictionIO软件项目来发展自己的机器学习技术,但其仍是开源。它可以利用机器学习来部署相关网络服务,通过对页面动态请求实时回应帮助用户建立一个预测引擎。

 13.SystemML

1474028981-9404-57d8a3d879dc1

SystemML最初由IBM开发,后被ASF收购,成为其大数据项目。SystemML是一个可高度扩展的平台,可进行高级数学运算,执行R或类Python语句。SystemML基于Spark或Hadoop运行,可用于4S店车辆维护的客户回访、机场领空管制以及银行客户社交媒体数据的收集。

 14.TensorFlow

1474028981-9176-57d8a3d958caf

TensorFlow是谷歌旗下的开源人工智能软件之一,提供一个使用数据流图的数值计算库,可在单/多颗CPU或GPU系统甚至移动设备上运行。谷歌称TensorFlow十分灵活、真正的可移植,拥有自动鉴别能力且支持Python和C++平台。

15.Torch

1474028981-2123-57d8a3da4e084

Torch这样描述自己:“拥有科学的计算框架,支持可优先使用GPU的机器学习算法”。Torch的特点在于其出色的灵活性与杰出的处理速度,在处理机器学习、计算机视觉、信号处理、并行处理、图像、视频、音频和计算机网络等方面十分得心应手。它采用的是LuaJIT语言编写,一种基于Lua语言的脚本语言。

来自:雷锋网

]]>