2025 年的揭示调查结果确认了一个清晰的转变:AI 不再是未来,它已经成为现在。炒作已结束。AI 已经成为运营必需品,但大多数公司在使其运作起来上遇到了困难。今天企业面临最大的风险是什么?落后于那些掌握 AI 执行、安全和劳动力策略的竞争对手。如果组织无法适应,他们不仅会挣扎,还可能走向无用之地。
去年技术整合的挑战和有限资源导致,科技领袖们将数字信任视为软件开发在 2025 年的关键挑战,根据 Revea调查,安全性(51%)、AI 代码可靠性(45%)和数据隐私(41%)被认为是 2025 年软件开发最大的挑战
在 2025 年,主要优先事项是 AI 的采用。约有 73%的技术领导者计划在接下来的一个年份内扩展组织内部使用 AI 的范围。然而,大约有 55%的人也认为部署 AI 将是他们面临的最大挑战之一。
许多公司最初采用人工智能(AI)来实现自动化和效率提升。现在,重点转移到稳定 AI 流程、提高可靠性以及保护 AI 应用程序上。那些未能完善其实施,将面临落后于优先优化的竞争对手的风险。
科技领袖计划在未来五年(即 2025 年)通过整合和扩展人工智能的使用来优化资源利用。公司并不打算用人工智能取代员工,而是希望将这些工具融入现有流程,以更好地管理任务。(42%)。
扩展到新市场、新项目的承担以及管理增加的提案请求仍然是低优先事项——不到 Tech 领导者中有 20% 将其纳入他们的扩展计划。
AI 人才短缺,虽然在 2024 年有所改善,但在 2025 年变得更糟糕——尤其是在人工智能和网络安全职位上。那些迅速采用了 AI 的公司现在缺乏必要的人才来扩展、完善并保护他们的 AI 驱动基础设施。
有强烈的对 AI 工程师需求,其中 28%的技术领导者发现难以填补这些职位。尽管人工智能帮助优化了工作流程,但它也创造了需要填充的新角色,这些角色仍然很难找到。
Tech 领袖现在将安全(51%)和数据隐私(41%)视为最大的挑战——同时,AI 部署(44%)和人工智能代码的质量/可靠性(45%)。安全不能再成为一个附带考虑的问题。它必须从一开始就整合到人工智能开发中,公司需要实时威胁检测、人工智能审计以及基于法规驱动的安全措施,以应对不断变化的威胁。
2024 年,81%的技术领导者报告他们的组织将嵌入式分析和商业智能应用整合到产品中。数据驱动决策不再是可选的——它已经成为竞争必需品。未能利用人工智能提供的洞察力、预测分析和实时监控的公司面临落后风险。投资于无缝嵌入式分析、AI 驱动决策和实时数据访问的组织将获得竞争优势。
美国当选总统唐纳德·特朗普再次表示,他希望购买丹麦的自治领土格陵兰岛,并将国家安全考虑作为这种扩张动机的主要原因。在导弹防御和海上贸易方面,格陵兰岛对美国来说都处于战略位置,随着北极海冰继续融化,气候变化加剧,海上贸易将变得越来越重要。
然而,观察人士也强调,众所周知,格陵兰岛拥有丰富的重要稀土元素。这些矿藏,如锂和锆,已成为一种令人垂涎的商品,用于电子产品和生产对绿色技术转型至关重要的电池。美国地质调查局(USGS)的数据显示,格陵兰拥有世界第八大稀土储量,为150万吨。这与美国的已知储量(180万吨)相似。
虽然格陵兰岛拥有大量的稀土储量,但美国地质勘探局的数据也显示,2023年那里没有进行任何稀土开采活动。尽管格陵兰公司最初向中国寻求采矿投资,但在2021年格陵兰选举后,项目陷入停滞。选民们决定,虽然采矿可能是朝着更大的经济发展甚至从丹麦独立迈出的一步,但对环境的成本和对传统习俗的潜在破坏将远远超过任何收益。这里的一个主要症结是,纳萨克镇附近的主要矿山Kvanefjeld也会生产放射性铀,当地人担心这会导致放射性尘埃落在附近的社区和农田上。投票结果导致禁止铀矿开采,并搁置了稀土开采项目。2021年,格陵兰岛还停止了未来石油和天然气勘探的所有计划。
美国地质勘探局的数据显示,中国目前拥有最大的稀土储量,估计有4400万吨,占全球已知稀土储量的近40%。
在如今快速发展的世界中,问题不再是颠覆性变化是否会影响企业,而是颠覆性变化会何时发生。
普华永道在2024年1月发布的一项调查显示,全球45%的首席执行官(CEO)担心,如果不进行深刻变革,企业可能无法在未来十年生存,尤其是在面临气候变化和人工智能进步的情况下。这种担忧无论行业还是企业规模都是全球性的,反映了企业在适应快速数字化进步和前所未有的气候威胁中面临的压力。
北巴黎商学院前瞻、创新与转型教授兼主席René Rohrbeck表示:“拥抱变革并借助变革的能力将决定21世纪的赢家和输家。Rohrbeck在他的2023年全球未来适应性研究(Study)和早期研究中发现,“未来适应性”高的公司比竞争对手的利润高出33%,市值增长高出200%,并且有44%的可能性跻身前列其产业集群中的企业行列。
因此,尽管造成首席执行官焦虑的现实很复杂,但传达的信息很简单:如果想到达这样的效果,必须在未来十年生存和发展,企业一定要进行根本性转型。这种环境应当需要积极主动的领导力,将转型视为一个持续的过程,而不是一次性的项目。
两大挑战
公司必须适应许多挑战,特别是气候风险和技术颠覆的双重挑战。
1. 环境压力
气候变化已超越企业社会责任,已然成为运营战略的一部分。消费者、监管机构和利益相关者越来越要求企业将可持续发展被认为是标准期望。贝恩公司2024年9月的一份研究报告指出,60%的消费者在过去两年中提高了对气候变化的担忧。此外,超过三分之一的B2B客户表示,如果他们的可持续发展需求得不到满足,他们宁愿更换供应商,近60%的客户表示他们会在三年后采取这一行动。因此,企业一定要表现出负责任的做法,这不仅是道义上的要求,也是竞争的必要条件。
2. 数字颠覆
与此同时,技术的加速发展也给双方带来挑战。数字化转型,尤其是人工智能等领域,既是企业发展的助推器,也是落后企业的潜在威胁。成功集成数字工具能够进一步提升敏捷性、效率和客户体验;与预想不同的是,忽视这些进步可能会在技术日益成熟的市场中被淘汰。
六项战略:为未来做好准备
为了帮助企业领导者有效应对这一势在必行的转型挑战,以下六项战略可为转型提供基础,并为长期生存提供路线图。
1. 从内部重塑
重塑不仅仅是调整业务模式,还涵盖重新思考推动公司日常运营的基本原则和流程。这应当需要思维方式的转变、提倡适应性的文化以及以增长为导向的变革方法。借助将弹性充分渗透运营核心,领导者能够帮助企业灵活应对新挑战,无论这些挑战是来自技术变革、监管变化还是新兴市场需求。
2. 利用大趋势打造韧性
当今的商业格局是由相互依存的大趋势塑造的。气候变化、技术进步、监管变化和消费者行为的变化是高度相互关联的。例如,围绕可持续发展的法规可能会推动对环保产品的需求,而绿色能源或人工智能的技术创新可能会再次定义行业标准。如果想到达这样的效果,必须解决这些复杂的动态问题。了解并规划这些相互依赖性的领导者将得以更好地做出明智的决策并在变化发生之前对其进行预测。
3. 通过绿色实践促进增长
普华永道推理揣测,全球GDP的55%依赖于自然和生态系统服务。解决环境风险不仅仅意味着做到碳中和。如果想到达这样的效果,必须增强抵御能力,企业应考虑节约用水、保护生物多样性和可持续利用资源。基于自然的解决方案,例如借助自然过程恢复生态系统或设计对环境影响最小的产品,能够在支持可持续增长的同时降低风险。这些做法不仅保护了自然资源,还进一步提升了价值,并与日益重视生态完整性的消费者构建了信任。
4. 以清晰透明的方式拥抱人工智能
将人工智能视为一种手段,而不是最终目标。从某种角度看来,这对于公司而言,人工智能予以了简化运营、进一步提升客户参与度和促进创新的机会。但关键是要确保人工智能举措符合道德规范,并且不会损害员工的信任。有关人工智能的使用方式、其在决策中的作用以及其对员工的潜在因素的透明沟通能够使其已然成为一种赋权工具,而不是破坏性因素。借助制定明确的指导方针并使人工智能与组织的核心价值观保持一致,公司能够建立信任并借助人工智能来增强而不是削弱其业务。
5. 通过合作促进创新
应对当今复杂形势应当需要合作。构建由志同道合的企业、行业组织和创新者组成的网络能够提供新的视角,促进知识共享并推动创新。例如,与可持续供应商合作能够增强公司对环保实践的承诺,而与科技公司合作能够加速数字化转型计划。该网络使企业得以共享见解和资源,帮助彼此更有效地适应变化。在这个颠覆性变革不断的时代,没有一家公司得以独自应对变革的挑战。借助共同努力,企业能够互相学习成功和失败的经验,共同打造企业韧性。
6. 明确目标并确保行动与之相匹配
最后,清晰、真实的目的能够定义企业的主张,并在变革时期充当指南针。得以清楚地表达并忠于自己的目标的企业得以更好地在混乱的环境中生存,吸引忠诚的客户,并吸引积极进取的员工。以目标为导向的公司能够更轻松地将其可持续发展目标、技术采取使用和长期战略与其利益相关者真正关心的问题结合起来。
绘制实现韧性和增长的路线图
企业的生存能力和可持续增长取决于首席执行官对创新和责任的承诺。优先考虑道德和前瞻性转型的企业领导者能够使他们的企业在更加互联、环保和技术驱动的经济中蓬勃发展。问题不仅仅是“我的企业能生存下去吗?”而是“我怎样才能成长以满足未来的需求?”
未来十年取得成功的公司将是那些将颠覆性变革视为转型机遇的公司。借助将可持续性、数字适应性和协作创新充分渗透运营中,企业能够应对当今市场的不确定性,并已然成为有弹性、可持续的全球经济的重要参与者。
展望未来,领导者的当务之急是明确的:适应不仅是为了生存,而且是为了能够发展。借助更科学合理的战略和对负责任的转型的承诺,公司能够为未来做好准备,并为股东、员工及其所服务的社区创造持久的价值。
本文作者
Julia Devos
世界经济论坛新领军者社区总负责人
企业增长和运营总负责人
1、28个经济体的得分保持不变,表明全球知识产权保护工作的进展可能停滞不前。
全球市场在加强知识产权保护方面仍取得了适度进展,18个经济体的得分提高,9个经济体得分降低,28个经济体得分保持不变。摩洛哥、泰国和越南的总体得分提高幅度最大(分别为2.5%、2.5%、2.02%)。
除泰国和越南外,马来西亚和新加坡的得分也有所提高,亚洲区域平均得分进步最大。由于俄罗斯针对国际版权所有者采取了一系列措施,俄罗斯的得分下降了21.62%。
2、多边组织和各国的讨论表明各经济体知识产权驱动的创新框架可能正被削弱。
知识产权对于新型疫苗、治疗方法和诊断方法的研发至关重要,这是全球应对COVID-19的基础。知识产权促进了31个国家在COVID-19治疗药物方面的143项许可协议。
但是,世界贸易组织(WTO)和世界卫生组织(WHO)内部进行的豁免知识产权的协商,将破坏创新生态系统并威胁到有效应对下一个重大全球公共卫生危机的能力。
继2021年关于促进美国经济竞争的行政命令和降低通货膨胀法案通过后,美国决策者正在考虑修改专利框架,以解决药品价格问题,这将破坏美国生命科学生态系统、影响由知识产权驱动的创新提供的许多美国就业机会。
同样,欧盟正在考虑限制知识产权保护、缩短监管数据保护期限以及削弱罕见病治疗投资的政策提案,这将危及欧盟在知识产权驱动创新方面的长期领导地位。
3、5G等移动技术帮助消费者在全球大流行期间保持联系,产生了重大积极的经济影响。
目前5G的部署已经为美国GDP贡献了超过1000亿美元,研究估计,到2025年5G标准将为美国GDP带来1.5万亿美元的贡献,并创造或转化1600万个就业岗位。
5G和其他信息通信技术(ICT)的持续部署依赖于经济体通过强大的知识产权标准创造的有利环境,这说明了拥有最有效的知识产权框架的经济体更有可能获得更多的ICT技术、更强大的数字环境、以及更高的5G部署能力。
相反,利用本地化政策、繁重的许可要求和强制技术转让的经济体将阻碍包括5G在内的ICT技术和移动技术的发展。
4、在去年积极执法的基础上,许多经济体在2022年继续采取措施解决网络版权侵权问题。
在拉丁美洲,秘鲁国家知识产权局和巴西的“打击盗版404行动”关闭了数百个包含盗版内容的网站。在加拿大,联邦法院发布了一项动态禁令,要求加拿大互联网服务商禁止非法在线直播国家冰球联盟比赛。在美国,一个地方法院发布了禁令,要求美国互联网服务商禁止对侵犯网络版权的内容进行访问。但是,美国仍然缺乏一个全面、现代的法律框架来打击网络商业盗版。
评估方法使用四个维度定义ODM:
政策调查了参与国的开放数据政策和战略,管理开放数据的国家治理模式以及实施这些政策和战略的措施。
影响分析:衡量各国对开放数据的使用以及通过这种重用产生的影响的意愿、准备和能力。
Portal调查了国家开放数据门户的功能,用户的需求和行为,跨不同领域开放数据的可用性以及确保门户可持续性的方法。
质量评估门户管理人员采取的措施,以确保系统地收集元数据,监测元数据质量和符合DCATAP元数据标准,以及在国家门户上发布数据的部署质量。
2023年开放数据成熟度评分
亮点包括以下几点
共有25个国家的ODM同比增长,3个国家的总体得分持平,7个国家的成熟度得分下降(其中6个国家的下降幅度小于4个百分点)。
成熟度得分集中在列表的顶端,77%的国家(27个国家)成熟度评分高于73%。
欧盟成员国的平均成熟度得分提高了4个百分点,从2022年的79%增加到2023年的83%。
欧盟27国中最成熟的国家是法国(98.3%)、波兰(97.9%)和爱沙尼亚(96.2%)。最成熟的欧洲自由贸易联盟国家是挪威(90.2%),最成熟的候选国是乌克兰(96.3%)。
上升幅度最大的是斯洛伐克(上升32个百分点)、拉脱维亚(上升23个百分点)、黑山(上升13个百分点)和冰岛(上升12个百分点)。
文档链接将分享到199IT知识星球,扫描下面二维码即可查阅!
中心从软件产业发展总体态势、软件技术创新发展、软件产品迭代升级以及软件生态培育建设等方面提出了“十五五”时期软件产业发展十大趋势研判。
总体上看,在新型工业化需求拉动和技术创新驱动双重作用下,我国软件产业将持续做大做强,人工智能带来重大发展机遇,云边协同等新兴技术应用走深走实,基础软件、工业软件等关键软件供给能力大幅提升,开闭源双轮驱动发展格局逐渐成为主流,软件供应链韧性和安全水平稳步提高,软件新质生产力加速形成,将有力支撑数字经济高质量发展,助力新型工业化伟大进程。
2025年,全球创建、捕获、复制和消费的数据量预计将达到181泽字节(ZettaByte),而这几乎是2020年的三倍。
随着经济数字化转型不断推进,生成式人工智能快速发展,移动数据网络需求不断增长,加密货币挖矿的诞生升级,数据量正出现大幅度的增长。
不断增长的数据量,也使得行业需要更高的算力。而这反过来,又会增加数据中心以及电信和数据网络等通信基础设施的电力需求。这一增长也会带来温室气体排放,因此我们需要努力升级电力系统,才能与数据量的增长保持同步。随着信息与通信技术行业的扩张,如何获得足够的清洁电力将成为一个重要问题,且这一问题将在该行业的集中地区尤为严重。
为解决这些互相关联的问题,电力行业和信息与通信技术行业需要协调一致,在不断增长的需求和电力系统的输送能力之间取得平衡。
随着数字化转型持续发展,数据量呈指数级增长。Image: 随着数字化转型持续发展,数据量呈指数级增长。
为何信息与通信技术行业的能源使用量猛增?
为应对日益增长的数据处理需求,数据中心等设施将增强其处理能力,这会导致它们对电力的需求也相应增加。人工智能模型及其应用的快速增长所需要的新增计算能力,将导致电力需求飙升。
国际能源署表示,额外的电力需求不仅用于服务器等附加设备,还用于其他系统的必要冷却,以应对数据处理产生的巨大热量。
他们也预测,到2026年,数据中心、加密货币和人工智能的电力需求可能达到1,000太瓦时。目前,这一数字已经达到了460太瓦时。
促进数据从生成点到处理点的传输的通信网络,也增加了数据中心的能源负荷。
国际能源署最新统计数据显示,数据中心和通信网络占全球电力消耗的2-3%,所产生的温室气体占全球排放总量的1%。但即使按照最低情景预测,这一数字也将大幅上升。
数据中心、人工智能和加密货币是数据量增长的主要驱动力。Image: 数据中心、人工智能和加密货币是数据量增长的主要驱动力。
在过去的几年中,数据处理的业务正逐渐从较小的私有数据中心转移到更节能的超大规模云数据中心。
然而,物联网技术以及其他高速数据应用的广泛增长,都依赖于5G移动网络。虽然5G硬件在性质上来说更加节能,但与当前的4G网络相比,5G网络的扩展仍可能使能耗增加高达140%。据《金融时报》报道,这主要是因为5G网络需要更多的手机信号塔。
另一个因素是边缘数据中心数量的增加。物联网和需要高速或本地数据处理的技术,可以利用边缘计算,在更靠近网络边缘和终端连接设备的地方处理数据。小型现场边缘数据分析能够显著缩短周转时间,但会给当地电网进一步带来压力。
据《金融时报》报道,业内人士担心,清洁能源发电量难以实现与如此多方面电力需求增长的同步,从而导致温室气体排放量增加。埃森哲的研究则表明,自2016年以来,该行业的排放量一直呈上升趋势,而清洁能源供需的不匹配,只会增加该行业目前的排放量。
信息与通信技术行业正在努力应对日益增加的排放量。Image: 信息与通信技术行业正在努力应对日益增加的排放量。
为什么某些地区比其他地区受影响更大?
为全球主要的数据中心集群供充足的电力和管理温室气体排放,将尤其具有挑战性。这包括世界“数据中心之都”北弗吉尼亚州和许多北欧国家
。较小的地区也有一些重要的数据中心,例如新加坡(得益于世界上最快的互联网速度和低成本电力)和爱尔兰(凉爽的天气、良好的全球连通性以及友好的经济和税收制度刺激了数据中心的增长)。
许多拥有大型数据中心集群的国家已经对新的数据中心集群和相关基础设施实施了限制,以应对电网和国家气候目标所面临的压力。
新加坡对新数据中心的建设实行了四年的禁令,该禁令直到2023年才结束,但由于能源和空间限制,新加坡在颁发新许可证方面仍然持谨慎态度。目前,该国监管机构还在制定符合新加坡净零目标的绿色数据中心路线图。
出于对国家电网容量以及对轮流停电的担忧,爱尔兰电网于2022年开始暂停在都柏林连接新的数据中心,这一禁令将持续到2028年。但国际能源署的最新数据显示,该岛的数据中心消耗仍将增加一倍以上,其他地区的数据中心消耗预计也将大幅增加。
美国、欧洲和亚洲等全球最大的数据中心集群的电力需求将大幅增长。Image: 国际能源署等
信息与通信技术行业如何降低电力消耗?
数据中心运营商尤其致力于提高电力使用效率,这不仅是为了降低成本,也是为了遵守环保规定。显著的性能优化,将有助于应对全球数据中心的能源需求增长;但考虑到目前数据量扩大的规模和速度,我们还需要做更多的工作来适应未来的数据增长,并实现排放目标。
新的高效冷却技术以及人工智能的使用在优化数据中心运营方面具有巨大潜力。例如,谷歌在其Deep Mind人工智能技术的帮助下,将冷却成本减少了40%。
目前,人们也正在用光纤替代铜线进行工作,这将提高通信网络的能源效率。同时,将数据处理过程转移到绿色电力资源充足的地区,这有助于降低排放。
其他有前景的方法还包括绿色编码,这种方法旨在减少应用程序的处理量。麻省理工学院林肯实验室超级计算中心也在努力限制处理过程中的电力使用,并优化人工智能模型训练中的能耗。
与此同时,小语言模型正在成为ChatGPT等大语言模型的替代品。与大语言模型相比,小语言模型仅使用一小部分参数,这也体现了大语言模型从复杂数据模式中完成识别和推断所需的巨大规模。这意味着小语言模型的处理需求更低,且资源密集程度要远低于大语言模型——但同时仍能提供高质量的结果。
麻省理工学院还致力于通过为数据处理创建类似于家庭能源报告的方式,从而提高人们的能源意识。他们的目标是让用户了解他们的处理任务消耗了多少能源,他们的碳足迹与其他人相比如何以及他们如何进行改进。麻省理工学院的研究人员表示,这种方法可以成为信息与通信技术行业更广泛的典范,特别是在该行业仍然缺乏全面的行业数据的情况下。
灵活的需求解决方案也有助于应对日益增长的能源需求对电网的影响。例如,需求响应和负荷转移能够使数据中心和通信基础设施减少在高峰时段的用电量,并将其转移到需求和价格较低的时间段。
美国是迄今为止世界上拥有数据中心数量最多的国家。Image: Statista
为什么合作是管理数据使用量增长和电网容量的关键
虽然信息与通信技术公司的行动对于应对能源消耗增长至关重要,但它们只是未来能源需求的一部分。在从使用化石燃料向电气化转变的过程中,交通、重工业以及消费者行为等领域对电力的需求也在不断增长。
随着这一趋势的发展,以及对清洁电力的需求持续增长,电力公司或将遭遇瓶颈,因为新基础设施建设的审批流程往往非常冗长,阻碍了它们的发展。
因此,我们需要更广泛的参与来缩小日益扩大的供需差距。私营部门、电网运营商、规划部门和监管机构必须齐心协力,找到整体性的解决方案。这将要求信息与通信技术行业向推动清洁电力需求的其他行业学习,并与之合作。为了实现这种协作方式,行业参与者需要找到安全的方式,在彼此之间,以及与监管机构之间,共享数据和数据中心增长预测,同时避免泄露商业敏感信息。
并且,这种合作需要在地方、区域和国际三个层面展开。在国际层面的推进对于跨地域创建一致的监管环境尤为重要。综合方法将有助于改善信息与通信技术价值链的能源排放核算和报告、制定新的能源高效倡议和替代能源方案等各个方面。
最后,我们每个人都应尽一份力。信息与通信技术的耗能大,是因为我们的社会需要大量数据。作为个人和组织,我们需要控制我们保存或使用的数据,并考虑减少我们自己的碳足迹。
本文作者:
Bart Valkhof,世界经济论坛信息与通信技术行业总负责人
Eleni Kemene,世界经济论坛工业脱碳负责人
Justin Stark,埃森哲北美可持续发展净零转型经理
本文原载于世界经济论坛Agenda博客
要点
根据Omdia最新的《ProAV垂直解决方案-虚拟制作2024报告》分析,由于在电影制作中的广泛使用以及企业和教育行业中的新应用,与虚拟制作(包括硬件,软件和云处理)市场相关的业务预计将在2028年达到11亿美元以上,远高于2023年的1.4亿美元。
Omdia电子消费研究首席分析师Matthew Rubin表示:“随着技术的发展,虚拟制作的重要性显著提高,其可利用性也在迅速提高。新冠肺炎大流行等全球事件也加速了这一技术的市场化。”
虚拟制作是一种创新性的电影制作技术,它巧妙地,实时地无缝地融合了物理条件和数字元素,使电影制作人能够在片场创造身临其境的动态环境。通过集成高分辨率LED显示器、运动跟踪和虚拟相机等先进技术,可以在数字背景下拍摄真人场景,使导演和摄影师能够在拍摄过程中通过可视化设备实时调整完成创作。
众所周知,虚拟制作在电影行业,与传统的绿色幕布相比有着明显的优势;在企业和教育行业当中也在不断发展。在企业环境中,SmartStage和Vú等公司率先使用这项技术,为用户提供简化的方案和服务订阅,使用户在培训、营销活动和日常办公当中获得更高效的服务体验。同样的,许多项目方案已经在高等教育机构落地,其为丰富学生的学习体验和提供未来创业机会提供了一个变革性工具。
來源:Omdia
尽管虚拟制作当中LED显示屏产品的产值目前只占整体LED显示屏市场的一小部分,但对于LED显示屏的供应商来说,从长期看其增长机会是巨大的。因为市场需求不仅来自于电影或电视制作工作室,而且来自高等教育机构和企业部门。Omdia预计应用于高教和企业市场的虚拟制作的LED显示屏产品销售收入2023-2028年的复合年增长率将分别为130%和111%。这将有助于用于虚拟制作的LED显示产品的收入从2023年的7350万美元提高到2028年的5.1亿美元。
虚拟制作领域的早期领先者包括ROE Visual和AOTO等LED显示屏供应商(就销量而言,这两家公司在2023年的市场份额合计超过一半),但随着InfiLED、Sony和SiliconCore等公司在这一领域的积极布局,其竞争力正在逐步增强。
在技术要素方面,整个市场的标准化程度正在不断提高,例如在主显示墙的选择上,点间距2.6mm和1.5mm采用率正在增长,显示屏表面处理技术的加强;在地板显示屏,模组支撑性和耐用性要求在提升。随着虚拟制作的市场应用范畴逐渐清晰,LED显示屏逐渐形成标准化趋势,这将有助于市场竞争和产品迭代。然而,在更广泛的硬件和虚拟制作软件市场仍然非常复杂,许多类型的产品和技术供应商都参与到了这一工作流程。随着软件/平台主导的供应商(如Disguise和Pixera)专注于工作流程的有效性——端到端管理,这种复杂性正在慢慢改善,但这仍然是未来5年虚拟制作行业的一个关键发展领域。
尽管仍处于早期阶段,但人工智能可能是未来几年改变复杂的虚拟制作工作流程的一个契机。通过优化渲染、动画和后期制作任务的算法来实现,从而提高效率,缩短制作时间。此外,机器学习也有助于预测分析,以便在生产规划过程中做出更好的决策。
人工智能、最先进的ProAV技术和创意产业的结合将推动虚拟制作从传统电影制作到新的垂直领域的进一步发展,有效地创造新型市场。目前未参与的供应商应寻求在相邻技术方面的合作伙伴关系,为未来的增长做好最佳定位。了解这个复杂而快速发展的市场中的众多技术和流程是虚拟制作领域至关重要的第一步。
儿童的定性研究招募中,与父母建立信任是关键,当然在过程中保持儿童的轻松舒适是极其重要的一步。
这篇文章涵盖了儿童参与研究项目时的五个策略,以确保父母和孩子都有积极的体验。
在研究过程中,家长在引导和支持孩子方面发挥着关键作用,因此招募机构必须与家长建立积极和谐的关系,并获得他们的信任。
在这篇文章中,我们强调与父母建立牢固关系的重要性,并提供了在研究的招募过程中创造舒适、尊重和支持性环境的五个策略。
01 对研究过程和预期保持透明
Be transparent about the research process and expectations
在与家长合作时,透明性至关重要。
招募公司必须确保所有关于研究细节的沟通都是准确的,并清楚地概述了研究的目标、方法和潜在益处。
例如,同意书应包括研究设计的概述、任何潜在的风险或可能造成的不适、数据会被如何使用以及如何保护孩子的隐私。
提前分享这些信息可以确保父母了解参与研究的风险和益处,使父母能够对于孩子的参与做出明智的决定。
02 保持开放的沟通渠道
Maintain an open line of communication
与父母建立开放的沟通渠道是建立信任的关键。
在整个研究过程中,应为家长提供可以联系的指定联系人。
所有问题都应以清晰简洁的答案及时回答。
应鼓励家长提出问题以及表达他们在此过程中可能存在的任何顾虑——这将确保他们在孩子的参与中感到被倾听、被重视和参与性。
03 解决所有问题或顾虑
Address any questions or concerns
父母可能对孩子参与定性研究存在着各种各样的顾虑——从安全和数据隐私到潜在的情绪影响。
招募团队可以通过在项目沟通环节以及同意书中提供研究安全措施和协议的详细信息来解决这些顾虑。
招募团队还应该将他们可能持有的所有有关儿童研究或数据隐私的证书提供给儿童父母。
04 创建舒适和儿童友好型的研究环境
Create a welcoming and child-friendly research environment
让儿童在参与调研时感到舒适,对于确保结果的准确性和有效性以及维护研究的完整性至关重要。
为了给孩子们创造一个舒适的环境,从一开始就建立一个积极和舒适的基调是至关重要的。
在采访孩子之前,与父母和孩子进行一次“破冰”对话。
在此期间,你可以介绍自己,解释研究的目的,并回答家长和/或孩子可能提出的任何初期问题。
同样重要的是,要使用适合孩子年龄的语言,避免使用孩子可能不理解的行话或技术术语。
在研究过程中,给儿童发出明确的指令,并在整个研究过程中提供休息时间来帮助儿童感觉更加的轻松舒适。
此外,通过进行游戏、有趣的活动和其他互动方法来让儿童积极的参与研究,有助于他们在过程中感到更加兴奋。
通过采取这些步骤,研究人员可以确保儿童在研究过程中保持舒适与投入,最终可以因此得出更准确更有意义的结果。
05 创建一个明确的同意书
Create a clear consent form
招募团队必须制定一份全面的同意书,其中概述研究的目的、程序、潜在风险和益处。
然后,招募团队必须确保儿童父母了解其子女的权利以及他们参与研究的自愿性质。
还应给予儿童父母充足的时间审阅同意书,并在签字前给予他们提问的机会。
作者简介:Kate Ridoux是Touchstone Research公司定性招募部门的项目经理。
研究发现,在国际组织层面,主要国际组织在全球层面推动数据跨境流动“软法”的构建,典型的如联 合国(UN)建立数据跨境流动国际合作平台,经合组织(OECD)首创有关数据跨境流动与个人数据和隐私 保护的基本原则,世界贸易组织(WTO)在电子商务谈判中推动数据跨境流动议题讨论等。在区域及双边框 架层面,主要经济体通过加入或缔结区域或双边自贸协定及数字经济专项协定,如《美墨加协定》 (USMCA)、《 全面与进步跨太平洋伙伴关系协定》(CPTPP)、《 区域全面经济伙伴关系协定》(RCEP)、《 数 字经济伙伴关系协定》(DEPA)等,将数据跨境流动相关条款纳入相关协定中,旨在破除各国间数据跨境流动 壁垒,促进全球数据自由流动。在主要经济体层面,包括中国、美国、欧盟、英国、韩国、印度、巴西、俄 罗斯、澳大利亚、新加坡、日本等,出于维护自身数据安全的必要,纷纷进行立法规制,明确数据出境安全 前提。
纵观纳入研究的十大国际机制安排与十二大经济体,发现在国际组织“软法”的影响下,国际贸易协议、 主要经济体演变出其有关数据跨境流动规则的独有特点。本次报告将上述关于数据跨境流动规则的安排划分 为三种类型,分别为开放进取型、严格监管型以及监管例外型。开放流动型主要表现为强调数据跨境的自由 流动,典型的经济体如新加坡、东盟、美国等,国际经贸协定如 DEPA、USMCA 等。严格监管型主要强调 数据跨境的事前监管,通过安全要求后方可进行数据出境,典型的代表为中国、俄罗斯、巴西等,国际贸易 协定主要为 RCEP 等。监管例外型虽然强调数据跨境的监管,但是如若在白名单或者生态机制内则可以享有 “监管例外”的权利。
未来,各国数据跨境流动的规则主张愈发倾向于“数据重商主义”,不过随着数据要素重要性的提升, 未来数据跨境流动的规则亦会呈现出行业精细化的趋势等,同时数据主权、数据安全与个人隐私依然是数据 跨境流动规则制定时关键考量。基于现有趋势,认为未来我国数字企业出海将面临更多的数据合规风险,我 国数字贸易面临较高的政策不确定性,同时我国数字产业发展面临的数据壁垒有可能将继续提升等。因此, 建议我国继续加强与 CPTPP、DEPA 等国际经贸规则的对接,并对 CPTPP、DEPA 中有关数据跨境流动的创 新机制率先在上海等地进行探索试验,如 DEPA 中的监管沙盒机制、数字身份、数据保护可信任标志等。
数据思维练习不仅要熟练地掌握了分析工具,还要掌握大量的数据分析方法和模型。
这样得出的结论不仅具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。今天从以下6个维度36种分析模型和方法逐个简略介绍,赶紧点赞收藏!
一、战略与组织
1、SWOT分析
主要应用于商业和管理领域,通过内部环境:机会与威胁,外部环境:优势与劣势两个维度,将企业的战略与之结合起来的一种分析方法。
最终依照矩阵形式排列,得出SO战略(增长型战略)、WO战略(扭转型战略)、ST战略(多种经营战略)、WT战略(防御型战略)这4种决策战略。
2、PEST分析
该模型通过政治(politics)、经济(economy)、社会(society)、技术(technology)这4个因素,分析一个集团在所处的宏观环境背景下所面临的状况。
来自:机器学习研究组订阅
市场研究中,总会遇到一些细分市场样本量不足的情况。
微软的客户和合作伙伴体验(CPE)关系研究是世界上最大的满意度追踪项目之一。
调查使用45种语言,覆盖170个国家和地区,在6个月内响应近10万样本。
即使是如此庞大的项目,也存在一些与国家匹配的细分市场的样本量不足的情况。
他们是如何解决这一问题的呢?
微软的两位总监为低响应地区建立了预测模型。经双重检验后,证明该模型得分的误差竟比100+样本量的误差还要低。
这对该项目有巨大贡献的同时,也给予我们启发。
微软的客户与合作伙伴体验(Customer and Partner Experience-CPE)关系研究是世界上最大的满意度追踪项目之一。
它对微软的客户与合作伙伴(从小型企业到跨国公司)进行调查。
该项目以45种语言进行调查,覆盖170个国家,在6个月内响应近10万条。
CPE关系研究衡量了微软与其商业客户和合作伙伴关系的健康状况,并作为一个强大的倾听系统来了解他们的需求、痛点和满意度驱动因素。
微软在全球范围内的团队都使用该研究中的指标和洞察来制定有针对性的计划,来改善客户体验。
01 挑战:最低样本量要求
The challenge: minimum sample requirements
为了确保我们从CPE关系研究中提供具有代表性且稳定的分数,我们要求报告中的任何指标的最小样本量为n=100。
虽然我们很容易达到全球层面的细分市场(如企业客户)的最低样本要求,但我们经常达不到与国家相匹配的细分市场的限定值(如新西兰的企业客户)。
我们甚至都无法报告与国家相匹配的细分市场的约50%的满意度分数,这使得业务领导层对其客户和合作伙伴在这些国家的满意度知之甚少。
样本量的限制为某些国家/地区造成了认知缺口,并给我们带来了挑战——我们如何为某些国家/地区响应率较低的细分市场提供客户满意度洞察?
更重要的是,这些国家的分公司领导层如何改善他们的客户和合作伙伴与微软合作的体验?
目前的战略和计划是否有效?
我们有其中更小群组的定性数据和逐字记录,但这并不够。
我们需要一种新的方式来提供我们有信心的量化数据,以便利益相关者能够做出更明智、更可靠、数据驱动的决策。
02 解决方案
The solution
为了迎接这一挑战,我们与我们的分析供应商Success Drivers公司合作,使用了增强的贝叶斯神经网络机器学习(boosted Bayesian neural network machine learning,),为低样本量国家进行了两个关键满意度指标的建模:
1)创建模型
Creating the model
模型的目标是为任何给定的与国家相匹配的细分市场提供可靠的满意度估计或预测。
该模型使用我们从调查中收集的测量数据,并根据一组预测指标调整分数。
我们使用以下概念框架来确定模型中包含哪些变量:
1. 起始水平预测因子(Starting-level predictors):
这些变量有助于确定与国家相匹配的某特定细分市场的分数的起始水平。
例如,与国家相匹配的细分市场以往波次的分数有助于确定下一波得分的起始水平。
2. 变化预测因子(Change predictors):
这些变量会告知,与国家相匹配的细分市场的分数应从前一波的结果向哪个方向(如果有)移动。
例如,如果高度相关的组合(译者注:指国家与细分市场的组合)的满意度分数增加,则模型更可能会预测某与国家相匹配的细分市场的满意度会增加。
3. 代表性预测因子(Representativity predictors):
这些变量用于了解我们有多大的信心来保证测得的分数能够代表市场。
具体做法是了解当前时间段与所有时间段平均代表性的比较情况。这包括回顾已显示出对分数有影响的高权重或附加代表性变量的占比。
为了将这一切结合起来,我们来看下面的例子:
为了校准法国企业商业客户的满意度得分,模型可以利用以下一个或多个输入:
1.起始水平预测因子:法国企业商业客户过去的满意度得分。
2.变化预测因子:与法国企业商业客户满意度得分相关的其他与国家匹配的细分市场的满意度得分(例如,法国的中型商业客户)。
3.代表性预测因子:在过去三个月中与微软代表有直接接触的受访者占比(这一指标已被证明可提供差异化的满意度分数)与之前波次的平均占比进行比较。
该过程的最后一步是应用一个公式,该公式考虑了样本量、测量得分和模型得分。
随着样本量的增加,我们对测量得分可代表市场的信心也会增加,这需要在最终的模型得分输出中加以考虑。
当样本量较小时,该公式更看重预测得分,而当样本量较大时,则更看重测量得分。
2)验证模型
Validating the model
通过运行数千次模拟,对模型进行了验证,以评估模型分数与实际分数的接近程度。
充分利用拥有非常大型的样本量以及对测量结果具备高度自信的与国家匹配的细分市场,我们测试了该模型在不同样本量下预测的满意度得分。
事实证明,即使在低样本量的地区,我们的模型仍然可以有效预测实际得分。
例如,基于 n=50 个样本量的模型得分预测满意度得分的误差小于我们调查 100 名客户的结果!
通过绘制测量得分和模型得分随时间变化的曲线图,模型得到了进一步验证。
这些长期图表显示,低样本量的模型得分与测量得分的图形相似,但波动性更小。
此外,高样本量的测量得分和模型得分的走向几乎完全一致。
这两项验证使我们确信,对于任何给定的与国家匹配的细分市场,模型分数都是满意度分数的一个强有力的代表性预测因子。
03 了解客户和合作伙伴的满意度
Understanding the satisfaction of customers and partners
鉴于我们确信模型的分数可以可靠地估算细分市场和国家的表现,在我们的半年报中,当样本量在n=50到n=99*之间时,我们使用了这些模型分数。
(*当样本量超过 100 个时,我们将继续使用测量得分。)
通过这一流程,我们测量总体满意度时对细分市场和国家组合的覆盖率提高了约20%,测量客户团队质量满意度时对细分市场和国家组合的覆盖率提高了约25%。
自从将这一创新应用于 CPE 关系计划以来,我们收到了我们利益相关者的热烈反馈。
模型分数已成为各国家和细分市场领导层用来巩固和了解其客户和合作伙伴满意度的一种衡量标准。
我们期待继续看到我们的模型分数对领导层改善客户与微软合作体验的能力的影响。
作者 | KATHERINE COSTAIN, JEFF MERCER
原题 | Providing reliable satisfaction scores for low survey response geographies
编译 | 张杉
勺海公号原创译文
“测量就是按照一定的法则,用数据方法对事物的属性进行数量化描述的过程。这是对一切事物差异进行区分的测量定义。”——史蒂文斯(心理物理学家)
01 初识量表
所谓量表,简单来说就是一种测量工具,通常由多个项目组成,形成一个综合的分数,旨在分析较难以直接方法测量的变量。
例如,当研究人员打算描述个体的人格特点,但又无法直接进行测量时,就需要借助量表。
提到量表,容易联想到心理学的各类量表,如测量心理健康、人格特点、临床诊等。
研究人员通过量表了解个体的心理特征,如通过人格测量,预测个体的兴趣爱好、行事风格、在特性情境中的表现、可能存在的性格弱点等。
例如,MBTI职业性格测试就是常见的人格评测量表,通过量表测试可以得出16类不同的性格特征,可以帮助人们认识自己,选择更更符合自己性格特点的职业。
1)“量表编制流程”
面对研究主题时,如果有现成可用的量表当然最理想的。
因为编制一份正规量表的成本较高,一方面需要具备一定的专业知识,如相关理论、信度和效度检验等,另一方面需要花费较多的时间通过数据检验量表是否可用。
因此如果不是必须,更推荐使用已有成熟的量表进行研究。
这里先简要介绍下量表编制的基本步骤和关键要点,后面会结合案例详细介绍。
开始编制量表前,建议根据一定的理论模型,明确测量的目的和对象,澄清想通过量表测量哪些内容。
如果缺少经典的理论支持,也推荐梳理已有的研究资料,明确研究的框架,如需要测量哪些概念,概念之间的关系等。
编制题库时,除了选择恰当的测量语句外,还需要选择合适的测量形式。
李克特量表是最常用的量表形式之一,题干是一个陈述句,选项是对陈述内容的赞同程度,通常由五个等级组成,即非常同意、同意、不一定、不同意、非常不同意。
当然,有的量表为了避免填答者倾向于选择“不一定”等中间选项,也会使用偶数等级量表,如6级量表。
虽然有研究表明,5级、7级、10级量表在可信度方面没有明显差异,但如果量表的题目数量较多,容易增加填答时间,影响完整填单率,因此不推荐使用过多等级。
2)“信度和效度”
信度和效度是评价一个量表可靠性和有效性的基本尺度。
信度分析的目的是检验数据是否真实可靠,即多次重复测量的结果很接近,常用的信度有Cronbach-α系数、折半信度、重测信度等。
效度分析是测量结果是否准确有效,包括内容效度、校标效度、结构效度三种类型。
内容效度是通过专家进行评价有效性,校标效度是参照一定的效度标准评价有效性,结构效度是衡量实际结果和测量概念之间的对应关系,通常用因子分析进行探索。
以上就是量表的一些基本概念、典型量表的介绍。
对量表有一些初步了解后,我们接下来将结合具体的项目案例,详细介绍消费价值观量表的设计和分析过程,手把手教你怎么完成一份量表的编制。
02 消费价值观量表设计
如前文所述,编制一份量表需要花费较多时间,在量表进行正式测试前包括四个环节:文献研究、编制题库、专家评估、题型设计。
下面详细介绍消费价值观量表设计过程。
1)“文献研究与编制题库”
通过梳理价值观的文献资料发现,常见的消费价值观量表有VALS模型(价值观念及生活方式)、LOV量表(价值观量表)、CHINA-VALS模型(中国消费价值观)。
虽然VALS模型和LOV量表在国外有广泛的应用,但因为文化上差异较大,直接应用在国内的研究难免有一定局限性。
CHINA-VALS模型是消费价值观本土化研究,但由于模型距今时间较长,直接应用也可能存在风险。
综上,我们决定自己开发一个消费价值观量表。
但考虑到项目的时间成本,本次研究中消费价值观主要通过文献资料编制题库。
通过文献研究发现,消费价值观包含了四个方面:消费态度、生活方式、个性特点、社会关系。
其中,消费态度和生活方式是消费价值观的核心内容,个性特点和社会关系是作为消费价值观的相关因素纳入题库框架中。
结合已有的人格量表、消费态度量表、生活方式量表等,初步整理了122条语句。
2)“专家评估”
由于初步整理的量表语句过多、涉及范围广,直接测试这些题目肯定是不可能的,需要在正式测试开始前对项目进行筛选评估,增删部分测量语句。
在邀请专家评估题库时,可以从以下四个方面进行评估,提高量表的内容效度。
通过上述四个方面的评估,共筛选出了71条语句,并在一定程度上简化了语句的表达方式,避免可能的歧义。
在量表等级设计上,为了弱化填答者可能出现的“中立”倾向,我们选择了7级量表,即1代表很不符合、4代表中立、7代表非常符合。
3)“题型设计”
虽然通过专家评估,一定程度上精简了题库数量,但在预测试时,我们仍发现填答时间较长,这无疑会影响线上问卷的填答率。
同时,由于所有语句测试均为李克特量表形式,通常在问卷设计以矩阵题出现。
但同一类题型反复出现,容易产生乱填的情况,如所有题目都填写同一个选项。
为了提高数据收集效率和填答体验,我们在问卷设计时采用了不同的题型变化,如1-3题为矩阵题、第4题为单选题,有效地避免了同一类题型带来的填答疲劳感。
以上就是消费价值观量表设计过程及注意事项,当然,这只是量表编制的第一步。
量表的信度和效度检验、量表使用分析,都需要通过一定的数据进行探索和分析。
下面会详细介绍量表由初稿如何一步一步到定稿的全过程。
03 量表的数据分析实战
通过线上问卷回收量表的填答结果后,就可以开始对量表进行数据检验和分析,量表的数据分析包括五个环节:清洗数据、信度检验、效度检验、量表定稿、结果应用。
1)“清洗数据”
数据分析开始前,需要先评估下问卷的样本容量。
因为效度检验会用到因子分析,通常来说,因子分析的样本量理想情况需要100个以上,且样本量是变量数的10倍以上,本次项目通过线上问卷回收了7000多个样本,完全满足样本量的要求。
在信度和效度分析前,需要对填答情况进行清洗,清洗时需要考虑三个方面:逻辑矛盾、胡乱填答、时间过短。
逻辑矛盾和胡乱填答可以在问卷设计时梳理好题目之间的逻辑,时间过短则是在问卷回收后再分析,这里推荐排除下四分位数的填答时间,即填答时间较短的前25%的样本,以保证填答结果的可靠性。
2)“信度检验”
完成数据清洗后就可以开始进行初步的信度检验了。
如前文所述,信度检验的方法有很多,这里选择内在信度(Cronbach-α系数)来衡量问题之间的内在一致性。
α系数的判断标准为:
本次项目使用SPSS对量表信度进行检验,以量表定稿的数据为例,从Cronbach-α系数结果可知,本次量表的信度为0.897,表明量表的内在信度较好。
在实际量表分析时,除了关注Cronbach-α系统外,还需要关注删除某一个题目后Cronbach-α系数的变化情况,如果删除该题目后系数上升,说明该提的区分性不好,可将其删除提高信度。
3)“效度检验”
完成信度分析后,接下来需要进行量表的效度检验和分析。
如前文所述,效度检验包括内容效度、校标效度、结构效度。
在编制题库初期,通过专家评估方式完善内容效度。
在数据上主要检验量表的结构效度,采用的是因子分析方法。
在因子分析前还需要根据KMO检验、Bartlett检验判断是否适合进行因子分析。检验的判断标准为:
本次研究中采用主成分方法提取公因子,以量表定稿的数据为例,发现提取到第4个因子后,特征值均小于1,因此最多考虑前4个因子即可。
同时,为了使因子载荷矩阵的系数更加显著,采用方差最大进行正交旋转,前4个因子的累积方差为60.77%。
在心理测量等学术研究中通常要求累积方差在90%以上才算是理想的,但在实际项目中累积方差在60%以上也是可以接受的。
参考文献
[1] RobertF. DeVellis,量表编制:理论与应用,2016年。
[2] 吴垠,关于中国消费者分群范式(China-Vals)的研究,南开管理评论,2005年。
[3] 张文彤,SPSS统计分析高级教程,2013年。
作者 | 王仰龙
转自 | 京东设计中心JDC
题图 | unsplash
随着企业在日益拥挤的市场中争夺客户,了解客户的需求和偏好变得比以往任何时候都更加重要。
客户智能(Customer intelligence)已成为一项关键商业战略,而预测性分析(Predictive analytics)在帮助企业获取有关客户行为、偏好和需求方面的洞察中发挥着至关重要的作用。
通过识别潜在客户、分析客户行为、预测客户需求、个性化客户体验和留存客户,企业可以使用预测性分析在市场中获得竞争优势。
本文作者概括介绍了以下问题:
什么是预测性分析?
What is predictive analytics
预测性分析,是指使用统计算法以及机器学习技术来分析历史数据并对未来事件做出预测。
预测性分析已经成为金融、医疗和零售在内的各个行业中流行的工具。
预测性分析软件和工具可以通过分析大量数据来识别可能会被忽视的模式与趋势(patterns and trends)。
预测性分析的工作原理是获取一组数据并分析其模式和相关性(patterns and correlations)。
这些数据可以是客户的人口特征、行为、购买习惯或网站活动。
有了这些数据,预测性分析工具就可以识别难以手动检测出的潜在机会和风险。
02 预测性分析如何为客户智能创造价值?
How can predictive analytics benefit customer intelligence
预测性分析可以在以下几个方面助力客户智能,包括:
识别潜在客户
Identifying potential customers
预测性分析可以通过分析来自社交媒体、在线行为和购买历史等各种来源的数据,来帮助企业识别潜在客户。
通过识别模式和偏好,企业可以更加有效地调整营销工作去触达潜在客户。
分析客户行为
Analyzing customer behavior
预测性客户分析可以帮助企业了解客户行为,包括购买模式、偏好和趋势。
这些信息可以帮助企业开发更有效的营销活动和针对特定客户群体的产品。
预测未来需求
Anticipating future needs
预测性分析可以通过分析客户人口特征和在线行为等数据,帮助企业预测客户需求。
通过了解客户需求,企业可以制定更迎合需求的有效营销活动和产品。
个性化客户体验
Personalizing the customer experience
预测行为营销使得企业可以通过提供量身定制的推荐与促销来个性化客户体验。
预测营销软件可以分析客户数据以提供个性化的产品推荐和促销,从而提升客户参与度和忠诚度。
客户留存
Customer retention
通过分析客户行为数据并识别可能导致客户流失的潜在问题,预测性分析可以帮助企业留存客户。
通过及早发现这类问题,企业可以采取积极主动的措施来留存客户。
03 如何在客户智能中进行预测性分析?
How to implement predictive analytics in customer intelligence
在客户智能中进行预测性分析可以帮助你的企业获取有关客户行为的洞察,并据此制定营销策略。
进行预测性分析的步骤包括:
收集相关数据
Gathering relevant data
要在客户智能中进行预测性分析,企业必须首先从各种来源收集相关数据,包括客户数据、交易数据和社交媒体数据。
构建预测模型
Building predictive models
企业收集相关数据后,必须使用预测性分析软件构建预测模型。
这些模型应设计用于分析客户行为并对未来事件进行预测。
验证和测试预测模型
Validating and testing predictive models
预测模型必须经过验证和测试,来确保其准确可靠。
过程包括将模型所做的预测与实际结果进行比较。
将预测模型整合到业务流程中
Integrating predictive models into business processes
一旦预测模型经过了验证和测试,企业就可以将其整合到业务流程中。
这可能涉及将预测营销软件整合到他们的CRM系统中,或使用这些工具来开发更有效的营销活动。
持续监控并更新预测模型
Consistently monitoring and updating predictive models
预测模型必须持续进行监控和更新,以确保其保持准确和有效。
这包括分析可用的新数据,并根据需要更新模型。
预测性分析的未来角色
The future role of predictive analytics
客户智能中预测性分析的未来是明朗的,机器学习和人工智能的进步将带来这个领域的彻底变革。
随着企业不断收集和分析大量数据,对预测性分析软件和工具的需求只会继续有增无减。
由于企业在监管要求下必须以负责且透明的方式使用客户数据,对客户隐私和数据安全的关注也将增多。
预测性分析在客户智能中发挥着至关重要的作用,帮助企业获得对客户行为、偏好和需求的宝贵洞察。
通过识别潜在客户、分析客户行为、预测客户需求、个性化客户体验和留存客户,企业可以使用预测性分析在市场中获得竞争优势。
企业还必须意识到预测性分析的挑战和局限性,包括数据质量和数量、对预测模型的过度依赖以及伦理方面的考量。
通过考虑这些因素并充分利用预测性分析的力量,企业可以制定更有效的客户智能战略,从而推动增长和盈利。
编者按
源自 | www.quirks.com
作者 | Paroma Indilo,Datacy公司创始人兼CEO
原题| Predictive analytics: Its benefits and the role it plays in customer intelligence
编译 | 张杉
题图 | 源自 unsplash
来自:勺海公号
构建数据资产运营能力是企业实现数据资产化、入局数据要素市场的关键环节。随着各行业数据管理工作的深入,头部企业已陆续完成了基础性的数据治理工作,从数据资源化阶段迈向了数据资产化阶段。数据资产运营以扩大数据资产的应用范围,构建数据使用者和管理者的良性闭环,持续释放数据资产价值为目标。
目前业界仍处于数据资产运营发展初期,缺少数据资产运营方法论指导,在探索数据资产运营的过程中存在工作价值难量化、数据应用门槛高、缺少统一的流程标准和评价规范等问题。
为进一步凝聚行业力量、总结优秀实践经验、推动企业数据资产运营能力提升,大数据技术标准推进委员会启动《数据资产运营能力成熟度模型》标准研制工作,拟联合各行各业建设方、应用方单位共同研究梳理企业数据资产运营能力框架,明确数据资产运营主要环节和关键要求,为能力建设的过程提供指导和参考依据,为能力建设成果提供评估模型和评价方法。
2023年2月15日下午,中国通信标准化协会大数据技术标准推进委员会线上召开《数据资产运营能力成熟度模型》第二次讨论会。本次会议由中国信通院组织,邀请了来自联通集团、移动集团、联通数科、浙江移动、农业银行、交通银行、平安银行、中原银行、南京银行、阿里云、星环科技、人保科技、新大陆、宇信科技、浩鲸科技、滴普科技、网易数帆、上海爱数等企业的专家,共同围绕模型框架进行了深入讨论。
制造业一直在努力利用最新的技术突破,不懈追求提高自动化程度、增强运营透明度并加快产品和技术开发。
生成式人工智能,特别是大型语言模型(LLMs),如ChatGPT,是目前在制造业内崭露头角的范式转变。生成式人工智能可以利用现有数据来编造新的、独特的数据集,而LLM则进一步发展了这一概念,提供了无与伦比的能力来剖析和协调错综复杂的信息,并和人类以自然语言对话互动。
除了优化工作流程外,人工智能和LLM可以如何重新定义制造业?
制造业需要处理大量复杂的非结构化数据,包括传感器读数、图像、视频和遥测数据等。实时数据流和与上下文数据源的集成对于及时有效地响应事件至关重要。
通过新的工具赋能从业人员,LLM能彻底改变这一行业。它们可以重新定义操作人员与系统和文件的交互方式,从而推动生产率、客户满意度和财务业绩的指数级提升。
其中,有两个经常被忽视的领域至关重要:自然语言界面和产品设计与优化。这些领域蕴藏着巨大的潜力,可为制造业带来切实的影响和可观的投资回报。
基于LLM的制造业自然语言界面:复杂系统的简便访问
人工智能,尤其是LLM及其自然语言界面,在彻底改变制造效率、工人参与度、产品质量和采用率方面具有巨大潜力。
制造设施需要无缝的信息传输,而这通常是通过生产审核来实现的。生产审核旨在发现计划与生产现场之间的差异,加强决策,提高运营效率、客户满意度和财务成果。而通过转向有针对性的类人对话,企业可以专注于识别瓶颈、制定恢复计划并减少复杂的数据提取时间。这可以简化流程,从而提高运营绩效和生产力。
LLM在这一转变中发挥着至关重要的作用,它使操作员能够使用自然语言与数字孪生和控制塔等复杂系统进行交互。LLM也提高了语音交互的准确性,使其在嘈杂的环境中也能使用并重复。因此,LLM可以降低工人学习曲线并减少对大量数据分析或编码培训的需求,提高生产效率。非技术人员也可以浏览复杂的系统,从而提高响应速度和采用率。LLM重新定义了人机交互,为制造业带来了实在的变革。
Aptiv公司首席产品官Sophia Velastegui成功地利用人工智能创新推动了多项全球业务的发展,她表示:“LLM可集成到用户界面中,促进人机交互。未来还有可能彻底改变人机交互的方式,使其变得像说话一样简单。此外,LLM还能大大提高安全性,因为工人可以将更多精力放在工作上,而不是解读复杂的指令。企业可以让原有的操作员到其他岗位上进行创新,而不是从事重复性工作,从而从中获益。”
因此,LLM作为一个重要的管道,通过自然语言界面加强操作员与机器之间的协作。通过这种方式,LLM实现了复杂系统的简便化,推动了效率和生产力的显著提升。
基于LLM的制造业产品设计:优化创造力和协作,设计可持续解决方案
传统上,产品设计师专注于产品概念和规格,而操作人员则负责生产任务。然而,LLM可以使设计过程更加知情和民主,将一线操作人员的见解纳入决策过程中。这些操作人员拥有实际生产过程的理解能力,能够提出有价值的见解。LLM则能帮助将他们的想法转化为可操作的设计建议。
通过分析操作人员的见解,LLM能够生成考虑到实际因素和限制的设计,从而形成现实有效的解决方案。这种合作方式能培养操作人员的主人翁意识和参与感。
由于制造设备和机器人系统中蕴含着丰富的信息,因此LLM可以在产品设计和优化方面发挥重要作用,可以将这些知识与市场趋势、科学文献、不断变化的ESG考虑因素和客户偏好相结合。
由此产生的设计概念符合可持续发展和环境准则。LLM还可以提出替代方案,模拟性能情景,并推荐可持续材料和制造工艺。这种数据和专业知识的整合推动了设计创新,同时解决了环境问题并满足了客户需求。
人工智能运营基金(AI Operators Fund)的普通合伙人、人性化技术的积极倡导者Rana el Kaliouby博士表示:“这种集成一体的设计—制造方法可能会改变行业的游戏规则。LLM,尤其是能够接受文本提示并生成图像或设计效果图的多模态LLM,能够加速产品构思,从而在制造业中实现更加有效、实用和以人为本的产品设计。”
释放协作的力量:在人工智能增强制造业的实践中维护多方利益
制造业与LLM相结合固然具有诸多优势。然而,解决知识产权、所有权和商业秘密问题也很关键,这样才能保护所有利益相关者的利益。在采用LLM的过程中,应制定明确的指导方针、政策和框架,以确保与现行法律和企业治理保持一致。
世界经济论坛人工智能负责人李响强调说:“虽然人工智能为产业创造价值提供了巨大机遇,但也要考虑多方面的风险和挑战。清楚地了解LLM的构成,包括安全防护、测试和评估、风险以及数据来源,是确保其符合现行法律和企业治理的关键。此外,对终端用户进行适当培训也是促进负责任地、知情地使用人工智能生成式应用的关键所在。”
美国先进制造中心首席执行官Cynthia Hutchinson则强调了该中心在促进工业界、政府和学术界之间的合作并在人工智能增强制造业的实践当中维护多方利益方面的作用。她说:“重要的是要在先进制造业中建立一个包容的生态系统,确保所有利益相关者都有发言权,并在知识交流、创新、应对挑战和推动经济增长方面建立信任。利用各部门的专业知识和资源,释放人工智能和LLM(如ChatGPT)的全部潜力,为更可持续的未来做出贡献。这其中的潜力无疑是巨大的。”
提高制造业对人工智能的认识并促进其应用,对于制造业的持续增长和成功至关重要。为了充分发挥人工智能在制造业中的潜力,我们需要进一步的研究、讨论和行业案例研究,来寻找尚未开发的应用。
本文作者:
Rashmi Rao,美国先进制造业中心研究员、rcubed|ventures负责人
本文原载于世界经济论坛Agenda博客
数据挖掘的定义与价值
数据挖掘指从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并利用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。通常,数据挖掘会用到应用数学、统计学、数据库技术、机器学习和人工智能等多种技术。
在企业经营管理过程中,数据挖掘可以帮助企业发现业务趋势、揭示客观规律、预测未知结果、优化战略决策的效率与效果,同时,数据挖掘还可以帮助企业优化业务运营的流程,提升用户与员工的体验。用好数据挖掘工具,构建基于数据驱动的战略决策(Data-Driven Decision-Making (DDDM))体系,将让企业在面向未来不确定性时做出明智的战略抉择。
机器学习的分类与经典模型介绍
机器学习是数据挖掘的重要技术支撑,根据学习范式的不同,机器学习可划分为有监督学习、无监督学习、强化学习和深度学习。有监督学习指从有标注训练数据中推导出预测函数,一般用于解决预测或者分类问题;无监督学习指对无标签样本进行学习揭示数据内在规律,从给定数据中找到隐藏的模式和见解,一般用于解决聚类或者关联关系探查等问题;强化学习不依赖标注数据,用于描述和解决智能体(agent)在与环境的交互过程中通过环境给予的反馈(奖励)学习策略以达成回报最大化或实现特定目标的问题。深度学习指使用神经网络模型来学习数据的特征,可以在大规模数据上进行训练。
机器学习的分类
其中,有监督、无监督学习是主流常用的机器学习模型,在企业战略决策中有着丰富的使用场景。有监督学习使用的算法模型包括线性回归、逻辑回归、时序模型、决策树模型,无监督学习使用的算法模型包括K-means、PCA、DBSCAN、Apriori等。
经典模型的介绍
建模的步骤与流程
应用数据挖掘辅助战略决策分为5大步骤:问题定义、数据分析、特征工程、算法建模与模型评价。
问题定义:将现实业务经营管理问题映射到数学表示,明确数据挖掘目标。
数据分析:包括取样、探索及预处理三个步骤,核心目的是提高数据集。
特征工程:是把原始数据转变为模型的训练数据的过程,目的是获取更好的训练数据特征,使得机器学习模型逼近训练上限。
算法建模:是数据挖掘工作的核心环节,需要思考建模属于数据挖掘应用中的哪类问题并选用对应算法进行模型构建。
模型评价:需要一组没有参与预测模型建立的独立数据集,即测试集数据,评价预测模型的准确率。
建模步骤与流程
数据挖掘在战略决策中的实战案例
实战案例①:帮助某酒店集团进行常住酒店公寓选址
案例关键词:#酒店行业# #有监督学习# #回归模型# #决策树模型#
客户核心诉求:提高常住酒店公寓项目选址决策效率,在城市中筛选住客入住需求集中的地块,保证项目投运后的收益。
数据挖掘步骤:
● 定义挖掘目标:合理进行门店的规划选址,选择潜在高销量区域。
● 分析地块数据:导入已有门店信息、门店销量、竞品门店销量、宏观指标、市场表现等数据,开展数据分析。
● 构建特征工程:包括门店特征、地块特征、城市特征、竞品特征等。
● 决策树建模:采用决策树模型在训练集进行训练,对备选区域在地块得分、竞品门店数量、投资回报周期等关键选址决策要素下的表现进行分类。
● 效果验证:在测试集对算法模型进行效果验证,并进行合理性分析。
● 选址决策应用:在不同区域应用选址决策模型,输出门店选址与扩张策略。
建模步骤与流程
战略决策输出:在试点城市跑通模型后输出标准化选址决策机制,可在集团内部其余区域业务扩张过程中提供决策支持,同时根据不同城市地块的模型决策结果追踪辅助判断地区业务发展空间及潜力,适当调整区域业务战略侧重,聚焦重点区域及重点地块的资源投入。
实战案例②:帮助某鞋业公司搭建畅销商品补货模型
案例关键词:#鞋服零售# #有监督学习# #时序模型# #补货预测模型#
客户核心诉求:对门店内的畅销款式销售数据进行挖掘,构建销量预测及补货预测模型,以尽可能小的库存,为畅销款高效配置库存、销售资源,最大化畅销款的销售机会。
数据挖掘步骤:
● 挖掘目标定义:通过及时、足量补货等手段,以尽可能小的库存,为畅销款商品高效配置资源,实现销量最大化。
● 数据取样与探索:挖掘门店、仓库数据体系中的销售、进货、库存指标,探索指标相关性。
● 数据预处理:基于数据计算为各类商品贴标签,包括“毛利率水平偏高”、“库存水平偏低”、“新货品”等标签。
● 特征开发:剔除部分标签,如“库存水平偏高”、“连续三周销售下降”,保留与畅销货品高度相关的标签作为模型特征。
● 模型构建:根据时序模型构建“滚动销量预测算法”,输入季节、货品销量、性别、风格细类等相关特征。
● 模型测试:利用测试集数据开展模型测试。
基于数据分析为各类商品贴标签
根据时序模型构建“滚动销量预测算法”
战略决策输出:根据预测销量,测算期末库存以制定大促期间的到货计划,若(上周期末库存-当周预测销量)<0,则需以订货数量的倍数进货,并基于到货计划,根据供应链前置时间(lead time)进行下单,以此减少期末库存压力,高效调动库存配置和销售资源,实现爆款商品销量最大化。
实战案例③:帮助某零售连锁企业进行门店分群与经营评估
案例关键词:#零售行业# #无监督学习# #聚类分析# #门店经营评估#
客户核心诉求:对已有门店进行分群,挖掘不同类别门店特征,识别优秀或异常门店,焕新门店分类管理策略。
数据挖掘步骤:
● 挖掘目标定义:通过提取门店的各类特征,构建门店经营评估与分群模型
● 数据取样与探索:选取数据库中的商户属性、经营信息、风险信息等相关数据指标。检验租金、销售数据是否符合正态分布规律。
● 特征开发:对数据进行取值SQL、取值维度、指标缺失值、指标异常值、指标一致性等特征处理。
● 模型构建:通过降维,筛选出从数据视角分析得出的关键因子,确定最终的因子并构建算法模型。
● 门店分群:每个群组门店特征会呈现差异,针对不同群组的特征进行分析,识别不同类型门店特征,确定门店划分标准与分群结果。
● 成因分析:基于门店特征挖掘结果,选取有代表性门店开展生命周期分析。
战略决策输出:根据模型聚类的三类门店特质,匹配差异化管理举措。对于表现优秀的门店,挖掘其成功经验并在其他门店进行推广,对于存在潜在风险的门店可及时进行干预。
聚类分析模型:在未设定标签的情况下,根据数据相似度进行分组
结语
经验主义哲学家弗朗西斯·培根曾说过:“我们大部分的人的理解力容易出现偏差,我们的心智容易被假象所困住。”在现代企业的战略决策中,管理者的战略判断也常常会受到固有认知、个人直觉或理解偏差所影响。数据挖掘的意义在于帮助管理者从大量的数据中去提取那些隐藏其中的、预先未知的、但有潜在价值的客观规律,让管理者在进行决策时有更坚实的依据与更充分的论断。
数据从来不是全部,数据也不能替代思考,但他可以让你站在巨人的肩膀上。
来自: 罗兰贝格管理咨询
2021年起,“中国开放数林指数”系列报告定期发布交通运输公共数据开放利用报告,对交通运输领域公共数据开放利用的现状和水平进行评测,这是“中国开放数林指数”系列报告下首个持续发布的行业领域类报告。
哪些地方的交通运输数据开放和利用水平最高?
2023交通运输领域开放数林省域指数如下表所示:浙江省与山东省的综合表现最优,进入A+等级;广东省与贵州省也表现优异,进入A等级;
在单项维度上,浙江省在数据层上表现最优,山东省在利用层上表现最优,均进入A+等级。
2023交通运输领域开放数林城市指数如下表所示:
德州市与杭州市的综合表现最优,进入A+等级;
日照市、青岛市、上海市、金华市、烟台市与深圳市也表现优异,进入A等级;
在单项维度上,德州市在数据层上表现最优,青岛市与杭州市在利用层上表现最优,均进入A+等级。
全国已开放交通运输领域数据集10000余个
目前,国家交通运输部官网数据开放栏目与交通运输部综合交通出行大数据开放云平台都已开放了来自交通运输领域的数据集。两个平台共无条件开放数据集754个,数据容量近9000万,数据内容主要涉及国内部分省市的交通线路站点、客运站班次、线路、货运车辆、运输与维修经营业务等方面。同时,还开放了来自航空公司和OpenITS联盟的研究数据。
其中,“出行云”平台上还开放了153个有条件开放的数据集,主要涉及国内部分省市的地面公交、出租车、运输车的定位数据,轨道桥梁隧道数据,公交、出租车的线路、站点站台与票价数据,公路高速路路线与收费数据,百度地图路况数据以及与人口、房价、气象等方面。
截至2022年10月,我国已有208个省级和城市的地方政府上线了数据开放平台,共开放了283413个有效数据集。其中,有11个省级和96个城市平台共开放了9489个交通运输领域数据集。北京市、台州市等7个城市还制定了专门针对交通运输领域数据开放的法规政策。
交通运输领域开放数据的主要提供机构包含交通运输部门、公安部门、地铁/轨道集团、公交公司等。与其他条线部门相比,交通运输行业开放的数据集总数仅次于教育部门。
无条件开放数据容量比2021年增长386%
2022年全国开放的交通运输领域有效数据集总数比2021年增长约6%,无条件开放的总数据容量同比增长386%,呈现爆发式增长态势,单个数据集平均容量也有显著提升,交通运输领域的数据主要由各地政府部门提供,少部分地方能够开放来自国企、事业单位的交通数据。
开放的数据集仍以静态数据为主
各地开放的交通运输领域数据集仍以静态数据为主,只有个别地方在数据开放平台上提供了少数实时动态数据。相比2021年,2022年各地开放的交通数据容量增长比例中位数为10%,存量数据更新比例的中位数仅为18%,各地持续开放与更新数据集的程度仍然不足,多数数据停止更新或更新频率低,甚至存在碎片化与低容量等质量问题。
各地开放的数据在标准规范上也不一致,缺少详细的数据字典描述说明,各地数据接口调用方式各不相同,复杂度较高,接口不能用、不易用的问题普遍存在。同时,各地开放的交通运输领域数据集在总量与容量上仍存在显著的地区间差距。
各地开放了哪些高容量数据?
下表分别展示了省本级与城市开放的数据容量最高的前10个交通运输领域数据集。省本级开放的高容量数据集主要集中于企业经营许可、运输证、车辆船舶道路桥梁基本信息等方面,城市开放的高容量数据集主要集中于公交出租车实时位置、公交线路站点、违章案件等方面。
报告还重点分析了当前国内各地方开放的新能源汽车相关数据集,主要以新能源公交车的车辆与运营数据、充电桩数据、车辆保险出险三种类型为主。这类数据既有利于新能源汽车产业的发展,也有利于保险行业针对新能源汽车发展开发适合的保险产品。然而,目前新能源汽车相关的开放数据集呈现为静态低频、数据容量整体较低的特征,还无法满足相关产业发展的需求。
部分地方开始探索授权运营
目前,北京、上海、广东、浙江、重庆、海南、深圳、成都等省市已经以地方法规形式,初步构建起公共数据授权运营的基本原则与机制。其中,海南省、成都市与青岛市在平台上运营交通运输数据集并提供相应的交通运输领域的服务与产品。
开放数据的利用尚处于起步阶段
在数据利用方面,少数地方在交通运输领域已开展了诸如开放数据创新利用比赛、项目案例试点等利用促进活动,产出了部分有效成果。但各地的利用促进活动类型仍较为单一,且利用主体主要为企业,而个人、社会组织、高校等其他社会主体参与利用的程度不足,交通运输领域的开放数据利用尚处于起步阶段。
最后,报告还进一步展示了准备度、数据层和利用层三个维度的地方交通运输领域数林标杆和交通运输领域数据开放利用的国外案例,最后还对提升交通运输领域公共数据开放利用水平提出了一系列对策建议。
开放数据,蔚然成林,期待交通运输领域的开放“数木”由最初的丛然并生、成荫如盖,直至枝繁叶茂、花开结果,终将成长为一片繁盛多样、枝杈相连、持续循环的交通运输领域“开放数林”。
在根据公司规模查看响应时,拥有不到100名员工的公司中,Java 8的使用略高于其他公司,而它们继续显示出对Java 11及更新版本的较高使用率。同时,拥有超过100名员工的公司显示出Java 11和Java 8的使用几乎相等。
这可能是我们首次看到使用Java 8的用户数量发生相当大变化的一年。超过一半的受访者使用较新版本的Java,这是公司开始将其Java环境转向更新技术的第一个迹象。大多数人预计公司从遗留Java版本过渡到Java生态系统中新节奏需要一段时间。展望未来,我们可能会看到更加定期地更新Java版本。
接下来,我们请受访者分享影响他们决定升级JDK版本的因素。答案大致如预期,绝大多数受访者表示长期支持(LTS)是升级JDK版本的主要因素。在LTS之后,安全性和新功能分别以24%和18%的比例成为最重要的因素。
性能(17%)和合规性(15%)是升级时最不受欢迎的因素。
通常情况下,有关一家银行出现问题的谣言足以引发银行挤兑,因为受影响的银行进入一个(所谓的)问题引发恐慌、引发大规模提款、引发更多恐慌、更多提款、如此循环的负反馈循环。一旦银行陷入这种恶性循环,它们遇到实际的流动性问题只是时间问题,迫使它们出售资产,通常是亏本出售,就像硅谷银行的情况一样。这些损失进一步恶化了银行的状况,造成更多的恐慌,更多的提款。
由于预知恐慌的火花会点燃整个银行系统,所以就可以理解为什么美联储、联邦存款保险公司和联邦政府会如此果断地介入,保护硅谷银行(SVB)和签字银行(Signature Bank)的客户,并承诺向其他难以满足提款要求的银行提供额外流动资金。他们试图恢复人们对银行体系的信心,在火势蔓延之前控制住火势,避免一场全面的银行危机。
部署 API 的受访者使用了多种方法,其中 CI/CD 管道更受欢迎,61% 的受访者称这是最常用的工具。紧随其后的是在云中部署 API (38%)、框架 (35%) 和定制部署方法 (27%)。当被问及哪些 CI/CD 解决方案受到青睐时,一半的受访者提到了 GitHub。Jenkins (36%) 和 GitLab (28%) 也是热门选择,其次是 Azure Pipelines 和 Bitbucket(各占 22%)。
在 API 网关或云 API 管理工具方面,有两种解决方案脱颖而出:一半的受访者提到了 AWS API Gateway,超过四分之一的受访者提到了 Azure API 管理。
报告显示,全栈开发人员是使用 API 最大的群体,占受访者的 25%,其中后端开发人员的代表性更强,约为 19%。另外,超过 40% 的后端开发人员每周花在 API 上的时间超过 20 小时,是调查中比例最高的。
开发人员将大部分时间花在了 API 上。大约 51% 的受访者表示,他们所在企业将一半以上的开发工作花在了 API 上。这一比例高于 2020 年的 40% 和去年的 49%,凸显了 API 作为现代软件构建块的作用。
性能、安全性、可靠性和文档是与 API 集成之前受访者们的主要考虑因素,而决定是否使用和生成 API 的首要因素是它与内部应用程序和系统的集成程度。去年,内部 API 整合甚至没有成为 API 消费的前三名因素。
要想在TikTok上实现病毒式传播,不了解其算法可不行。虽然TikTok官方并没有透露其具体的推荐算法,但本期文章中,Nox聚星将通过多年的TikTok网红营销经验,带领大家详细盘点TikTok推荐算法究竟是怎么运作的?又是如何实现病毒式传播的?
01.TikTok推荐算法详解
TikTok官方曾表示推荐TikTok算法本质是一个“旨在帮助人们拥有更多个性化体验的推荐系统”。就像大多数推荐算法一样,TikTok算法主要是根据用户喜好来运行的。
但与Instagram、Facebook算法不同,TikTok算法最大的特点就是去中心化。简而言之不管你是有着百万粉丝的大博主,还是什么都没有的新账号。只要发布了视频,都会进入流量池,再进行层层筛选,通过数据筛选定输赢。
因此对于TikTok的主要算法,我们主要需要了解流量池算法机制以及内容分发机制。
流量池算法机制
TikTok推荐算法遵循螺旋上升机制进行流量分发,不断使优质内容最大化曝光。所谓流量池,就是指基于不同播放量所分的不同的层级。
当视频发布后,TikTok会自动将视频推送至一级流量池并观察这些用户对视频的反馈,一级流量池中推送的一般是细分领域的用户,这一部分用户是基于账号权重以及视频内容标签来决定的。TikTok会根据内容标签将视频内容推送给可能对其感兴趣的用户。
一级流量池的表现决定着视频是否能够被推送至下一级流量池或者更大的流量池。而视频是否能被推送至下一流量池主要取决于以下三点:
此外,账号的权重越高,系统越有可能跳过某些流量池直接将内容推送至更高的流量池。比如有些认证过的账号一般都有比较高的权重,视频内容可能直接跳过一级流量池到达二级或更高流量池。
内容分发机制
创作者上传作品之后,作品在TikTok内部经过一系列流程的筛选、匹配,最终分发给用户。
TikTok的作品分发机制依次由审核机制、消重机制、特征识别机制和人工干预机制构成
审核机制
TikTok的审核机制分为机器审核与人工审核。一般情况下主要由机器对视频内容、画面、关键词进行审核,判断视频是否包含违规内容。人工审核主要辅助做一些机器无法判断的内容。
审核内容一般为视频内容、标题等是否存在敏感信息、是否违反TikTok社区规则等。
消重机制
消重机制主要是为了保护原创内容。对上传视频与平台已有视频进行对比,若发现重复度较高的视频则会进入低流量推荐。
特征识别机制
特征识别机制主要对视频内容与标题进行分类标签并匹配相应的用户人群,也就是决定视频发布时在第一级流量池匹配给哪些用户。
人工干预
由于机器没有办法百分百判定内容是否违规,于是TikTok在机器审核的基础上引用了人工干预机制,以填补一部分机器审核的漏洞。
02.如何获得TikTok推荐算法青睐
了解了TikTok推荐算法运行机制后,又有哪些注意点能够让我们的视频内容快速获得TikTok算法的青睐呢?
前 3 秒内吸引你的观众
视频完播率是TikTok算法判断视频是否受到受众青睐的重要决定因素之一。如果大多数观众没有看完全部视频,而是只看了视频的前几秒就划走了,那么这个视频就会被判定为“不吸引观众”或“与受众无关”。
因此为了得到TikTok算法的推荐,视频内容必须在前3秒足够简单直接、具有视觉冲击力,吸引观众注意力,从而留住观众。如果你的大部分受众能够完整地观看完整个视频,那么TikTok算法就会不断推荐你的内容达成滚雪球的效应,从而使得更多观众看到你的视频,实现病毒式传播。
积极参与互动
由于TikTok倾向让用户在平台上保持活跃,TikTok算法会优先考虑参与度,主要包括点赞和评论等参与形式。因此积极参与到其他人的互动之中是一种提高自己参与度非常有效的方式。
TikTok算法具有个性化特性,这决定了TikTok不仅会向用户展示他们可能喜欢的内容,还会向类似的用户展示他们自己的视频。因此不妨试着找到你的细分内容,点赞或评论与你的内容主题类似的视频,从而覆盖目标受众,为你后续的视频发布打好基础。
紧跟TikTok趋势
无论你的品牌是什么类别,了解现在最流行的趋势并且迅速利用相关趋势是非常重要的一件事。
尽管TikTok的趋势是由用户的兴趣所引导的,但趋势也是TikTok算法表达的一部分。不同的内容社区中的视频以及风格会被TikTok算法采纳并推送,从而实现指数级增长。因此如果想要自己的视频获得更大的影响力,紧跟趋势制作内容无疑是非常好的方式之一。
03.TikTok推荐算法注意事项
想要通过TikTok推荐算法实现病毒式传播,以下这些雷点可不能踩。
持续删除视频
删除视频这一行为在TikTok上非常影响账号权重,即使某些视频不太适合公开,可以选择隐藏视频但最好不要将其删除。
虽然有些视频在发布后24小时内的播放量很低,但TikTok有可能在后续会为你的视频进行第二波推送,也许一周后你的视频会被TikTok推送至下一个流量池。有人也将这种情况称作“延迟曝光”。
而如果持续不断的删除视频,TikTok算法会判断你的账号在不断地发布低质量内容,从而影响帐号权重。这样的账号内容今后将很难被推送至第三级流量池。
违规买粉行为
许多想借TikTok做推广的账号常常会为了更高的收益进行买粉的行为。然而TikTok有其独特的粉丝检测机制和算法,一旦账号中涌入大量的僵尸粉,可能会面临封号的处置。
因此想要获得TikTok算法的青睐,最好依靠优质内容来实现有效高质的传播,而不是通过买粉行为来增加账号所谓的“影响力”。
内容不垂直
所谓的垂直,指的是你所发布的视频内容是否能够在视频风格或者内容领域保持一致。持续发布垂直的内容,能够使TikTok算法生成明确的用户画像,从而将内容更精准地推送至可能对内容感兴趣的用户。
如果突然转变视频内容,由于内容和已有用户画像不匹配,TikTok算法将根据新内容对账号进行评估打分,账号权重可能会被TikTok重置。因此持续发布同一类型的内容,是一种非常好的“养号”行为。
来自:
在过去的几年里,深度学习(DL)在广泛的应用领域取得了显著的进展,如蛋白质结构预测(AlphaFold [Jumper et al。2021])、文本到图像合成(DL – e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。实现这些性能提升的关键策略是将DL模型扩展到非常大的规模,并对它们进行大量数据的训练。对于大多数应用程序,可训练参数的数量至少每18至24个月翻一番——语言模型以4至8个月的翻倍时间领先(Sevilla and Villalobos 2021)。
大规模人工智能模型的著名例子包括:用于视觉应用的Swin Transformer-V2 [Liu等人2022a],用于语言建模的PaLM [Chowdhery等人2022],用于内容推荐的波斯[Lian等人2021],具有100万亿参数。
尽管扩大DL模型正在实现前所未有的进步,但训练大型模型已经变得极其昂贵。例如,GPT-3训练成本估计为165万美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚开发将产生相当于5辆汽车终生碳足迹的二氧化碳(CO2) [Strubell等人,2019]。值得关注的是,DL仍然没有达到许多应用所要求的性能水平:例如,在现实世界中部署全自动驾驶汽车需要人类水平的性能,但还没有达到。不断增长的模型和数据规模以达到所需的性能将使当前的训练策略在金融、环境和其他方面不可持续。事实上,根据目前的趋势推断,2026年最大的人工智能模型的训练成本将超过美国的GDP总量(Lohn and Musser 2022)。此外,DL对计算的高度依赖引发了人们对财务资源有限的用户(如学者、学生和研究人员(特别是来自新兴经济体的人)的边缘化的担忧[Ahmed and Wahed 2020]。我们将在附录A中更详细地讨论这些关键问题。
考虑到其计算负担的不可持续增长,DL的进步需要更多的计算效率训练方法。一个自然的方向是消除学习过程中的算法效率低下,以减少DL训练的时间、成本、能量和碳足迹。这种算法高效的深度学习方法可以通过多种方式改变训练过程,包括:改变数据或样本呈现给模型的顺序;调整模型的结构;改变优化算法。这些算法改进对于实现有效深度学习训练所需计算负担的估计下界至关重要,目前的做法导致的负担大大超过了该下界[Thompson等人,2020]。此外,这些算法增益与软件和硬件加速技术相结合[Hernandez和Brown 2020]。因此,我们相信算法高效的逻辑学习提供了一个巨大的机会来增加逻辑学习的收益并降低其成本。
虽然最近涌现的算法效率论文支持了这一观点,但这些论文也表明,算法效率方法的研究和应用受到碎片化的阻碍。不同的指标被用来量化效率,这产生了不一致的加速方法的排名。评估是在狭窄或特征不佳的环境中执行的,这将导致不正确或过于宽泛的结论。在讨论算法效率方法时,缺乏反映它们的广度和关系的分类法,这使得人们很难理解如何遍历加速环境,将不同的方法结合起来并开发新的方法。因此,本文的核心贡献是组织算法效率文献(通过受[Von Rueden等人2019]启发的分类法和调研),以及对影响报告和实现加速的实际问题的技术描述(通过评估和实践指南)。我们的讨论始终强调这两个重点的关键交集:例如,算法效率方法是否会导致实际的加速确实取决于方法(通过我们的分类法可以理解)和计算平台(通过我们的从业者指南可以理解)之间的交互。我们的贡献总结如下:
形式化加速:我们回顾DNN效率指标,然后形式化算法加速问题。
分类和调研:我们通过适用于3个培训管道组成部分的5个加速行动(5Rs)对200多篇论文进行分类(见表1和表3)。分类有助于为从业者选择方法,为读者消化文献,并为研究人员识别机会。
最佳评估实践:我们识别了文献中常见的评估陷阱,并相应地提出最佳评估实践,以实现对各种加速技术的全面、公平和可靠的比较。
从业者指南:我们讨论了影响加速方法有效性的计算平台瓶颈。根据训练管道中瓶颈的位置,提出适当的方法和缓解措施。
计算成本是人们打造 ChatGPT 等大模型面临的重大挑战之一。
据统计,从 GPT 进化到 GPT-3 的过程也是模型体量增长的过程 —— 参数量从 1.17 亿增加到了 1750 亿,预训练数据量从 5GB 增加到 45TB,其中 GPT-3 训练一次的费用是 460 万美元,总训练成本达 1200 万美元。
除了训练,推理也很花钱。有人估算,现在 OpenAI 运行 ChatGPT 的算力费用每天就有 10 万美元。
在发展技术,让大模型掌握更多能力的同时,也有人在尝试降低 AI 所需的算力资源。最近,一种名为 FlexGen 的技术因为「一块 RTX 3090 跑 ChatGPT 体量模型」而获得了人们的关注。
虽然 FlexGen 加速后的大模型看起来仍然很慢 —— 跑 1750 亿参数的语言模型时每秒 1 个 token,但令人印象深刻的是,它已经把不可能变成了可能。
传统上,大语言模型(LLM)推理的高计算和内存要求使人们必须使用多个高端 AI 加速器进行训练。本研究探索了如何将 LLM 推理的要求降低到一个消费级 GPU 并实现实用性能。
近日,来自斯坦福大学、UC Berkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了 FlexGen,这是一种用于运行有限 GPU 内存的 LLM 的高吞吐量生成引擎。
通过聚合来自 GPU、CPU 和磁盘的内存和计算,FlexGen 可以在各种硬件资源限制下灵活配置。通过线性规划优化器,它搜索存储和访问张量的最佳模式,包括权重、激活和注意力键 / 值(KV)缓存。FlexGen 将权重和 KV 缓存进一步压缩到 4 位,精度损失低到可以忽略不计。与最先进的 offloading 系统相比,FlexGen 在单个 16GB GPU 上运行 OPT-175B 的速度提高了 100 倍,并首次实现了 1 token/s 的实际生成吞吐量。如果提供了更多的分布式 GPU,FlexGen 还带有流水线并行 runtime,以允许在解码时进行超线性扩展。
目前,该技术已经放出代码,获得了几千 Star 量:https://github.com/FMInference/FlexGen
简介
近年来,大语言模型在广泛的任务中表现出卓越的性能。LLM 在展现出前所未有的通用智能的同时,也让人们在构建时面临着前所未有的挑战。这些模型可能有数十亿甚至数万亿个参数,这导致运行它们需要极高的计算和内存要求。例如,GPT-175B(GPT-3)仅用于存储模型权重就需要 325GB 的内存。要让此模型进行推理,至少需要五块英伟达 A100(80GB)和复杂的并行策略。
降低 LLM 推理资源需求的方法是最近人们经常讨论的内容。这些努力分为三个方向:
(1)模型压缩以减少总内存占用量;
(2)协同推理,通过去中心化分摊成本;
(3)Offloading 以利用 CPU 和磁盘的内存。
这些技术显着降低了使用 LLM 的计算资源需求。然而,人们通常假设模型适合 GPU 内存,而现有的基于 offloading 的系统仍然难以使用单块 GPU 以可接受的吞吐量运行 1750 亿参数规模的模型。
在新研究中,作者专注于高吞吐量生成推理的有效 offloading 策略。当 GPU 显存不够用时,我们需要将其卸载到二级存储,通过部分加载的方式,逐段进行计算。在典型的机器上,内存层次结构分为三级,如下图所示。高级内存速度快但稀缺,低级内存速度慢但充裕。
图 1. OPT-175B(左)和 OPT-30B(右)上三个基于 offloading 的系统的延迟和吞吐量权衡。FlexGen 实现了新的帕累托最优边界,OPT-175B 的最大吞吐量提高了 100 倍。由于内存不足,其他系统无法进一步提高吞吐量。
尽管已有研究在训练的背景下讨论了 offloading 的延迟 – 吞吐量权衡,但尚未有人将其用于生成 LLM 推理,这是一个截然不同的过程。由于 LLM 的自回归性质,生成推理提出了独特的挑战。除了存储所有参数外,它还需要顺序解码并维护一个大的注意力键 / 值缓存(KV 缓存)。现有的 offload 系统都无法应对这些挑战,因此它们执行过多的 I/O,只能实现远低于硬件能力的吞吐量。
为生成推理设计良好的 offloading 策略具有一定挑战性。首先,这个过程中存在三种张量:权重、激活和 KV 缓存。该策略应指定在三级层次结构上的卸载内容、位置以及卸载时机。其次,逐个 batch、逐个 token 和逐个 layer 计算的结构形成了一个复杂的依赖图,可以通过多种方式进行计算。该策略应该选择一个可以最小化执行时间的时间表。这些选择共同构成了一个复杂的设计空间。
为此,在新方法 FlexGen 上,人们提出了一种用于 LLM 推理的 offloading 框架。FlexGen 聚合来自 GPU、CPU 和磁盘的内存,并能有效地调度 I/O 操作,作者也讨论了可能的压缩方法和分布式管道并行性。
该研究的主要贡献如下:
1、作者正式定义了可能的 offloading 策略的搜索空间,并使用成本模型和线性规划求解器搜索最佳策略。值得关注的是,研究人员证明了搜索空间捕获了一个几乎 I/O 最优的计算顺序,其 I/O 复杂度在最优计算顺序的 2 倍以内。搜索算法可以针对各种硬件规格和延迟 / 吞吐量限制进行配置,从而提供一种平滑导航权衡空间的方法。与现有策略相比,FlexGen 解决方案统一了权重、激活和 KV 缓存的放置,从而实现了更大的 batch size。
2、研究表明,可以将 OPT-175B 等 LLM 的权重和 KV 缓存压缩到 4 位,而无需重新训练 / 校准,精度损失可忽略不计。这是通过细粒度分组量化实现的,可以显著降低 I/O 成本。
3、通过在英伟达 T4 GPU (16GB) 上运行 OPT-175B 来展示 FlexGen 的效率。在单块 GPU 上,给定相同的延迟要求,与 DeepSpeed Zero-Inference (Aminabadi et al., 2022) 和 Hugging Face Accelerate (HuggingFace, 2022) 相比,不压缩的 FlexGen 可以实现高出 65 倍的吞吐量,后者是目前业内最先进的基于 offloading 的推理系统。如果允许更高的延迟和压缩,FlexGen 可以进一步提高吞吐量并达到 100 倍的改进。FlexGen 是第一个可以使用单块 T4 GPU 为 OPT-175B 实现 1 token/s 速度吞吐量的系统。如果给定多块分布式 GPU,具有流水线并行性的 FlexGen 可在解码时实现超线性扩展。
在研究中,作者还将 FlexGen 和 Petals 作为 offloading 和去中心化集合推理方法的代表进行了比较。结果表明,具有单块 T4 GPU 的 FlexGen 在吞吐量方面胜过具有 12 块 T4 GPU 的分散式 Petal 集群,并且在某些情况下甚至可以实现更低的延迟。
运行机制
通过聚合来自 GPU、CPU 和磁盘的内存和计算,FlexGen 可以在各种硬件资源限制下灵活配置。通过线性规划优化器,它搜索存储和访问张量的最佳模式,包括权重、激活和注意力键 / 值 (KV) 缓存。FlexGen 将权重和 KV 缓存进一步压缩到 4 位,精度损失可以忽略不计。
FlexGen 的一个关键思想是进行延迟 – 吞吐量权衡。实现低延迟对于卸载方法来说本来就具有挑战性,但对于面向吞吐量的场景,可以极大地提升卸载效率(见下图)。FlexGen 利用块调度来重用权重并将 I/O 与计算重叠,如下图 (b) 所示,而其他基线系统使用低效的逐行调度,如下图 (a) 所示。
目前,该研究作者的下一步计划包括对苹果 M1、M2 芯片的支持和 Colab 部署的支持。
FlexGen 自发布后在 GitHub 上的 Star 量很快上千,在社交网络上热度也很高。人们纷纷表示这个项目很有前途,似乎运行高性能大型语言模型的障碍正在被逐渐克服,希望在今年之内,单机就能搞定 ChatGPT。
有人用这种方法训练了一个语言模型,结果如下:
虽然没有经过大量数据的投喂,AI 不知道具体知识,但回答问题的逻辑似乎比较清晰,或许未来的游戏中,我们能看见这样的 NPC?
参考内容:https://news.ycombinator.com/item?id=34869960
来自:机器学习研究组订阅
与2021年下半年相比,新增15个地方平台,其中包含1个省级平台和14个城市平台,平台总数增长约8%。全国地级及以上政府数据开放平台数量持续增长,从2017年的20个到2022下半年的208个。
截至2022年10月,全国各省域政府数据开放平台的整体上线情况如下图所示。平台包括省(自治区)本级和省内下辖地市,图中颜色越深,代表该省域政府数据开放平台的整体上线程度越高。目前,广东省、广西壮族自治区、江苏省、江西省、山东省、四川省与浙江省的省(自治区)本级和下辖所有地市都已上线了数据开放平台(图中显示为全境深绿色的省域)。从整体上看,东南沿海和中部地区的政府数据开放平台已经基本相连成片。
Stack Overflow 今年对超过 7 万开发者展开了问卷调查,在调查报告中写道:“每年我们都会探索开发人员目前正在使用的工具和技术,以及他们想要使用的工具和技术。我们有最喜欢的 Loved、Dreaded 和 Wanted 数据,以及 Worked With(当前使用工具和技术)和 Want to Work With(想要使用工具和技术),这向我们准确地显示了开发者在过去一年中使用了什么,以及他们在下一年中想要做什么”。
至于开发者使用的平台,Windows 保持领先,62.33% 的受访者将 Windows 用于个人使用,48.82% 的人将其用于工作。Linux 排名第二,分别为 40% 和 40%,而 Mac 则以 31% 和 33% 的比例排在后面。有趣的是,微软的 Windows Subsystem for Linux 排在第四位,使用率分别为 15% 和 14%,这表明 Linux 在开发者中的受欢迎程度甚至更高。
在实际的开发者技术方面,微软 Visual Studio Code 是迄今为止最受欢迎的集成开发环境(IDE),使用率为 75%,其次是微软 Visual Studio(32%)、IntelliJ(28%)、Notepad++(28%)、Vim(23%)和 Android Studio(20%)。(苹果的 Xcode 以 10.5% 的比例排在非常遥远的第 11 位)。
最受欢迎的开发者框架是微软.NET,使用率为 34.5%,其次是 NumPy(27%),Pandas(25%),Spring(16%),TensorFlow(13%),和 Flutter(12.6%)。
在网络框架方面,Node.js 是最受欢迎的,使用率为 47.12%,其次是 React.js(42.6%),jQuery(28.6%),Express(23%),Angular(20.4%),Vue.js(18.9%),ASP.NET Core(19%)和 ASP.NET(15%)。有趣的是,微软的两个网络框架加起来几乎占了 34% 的使用量。
亚马逊 AWS 仍然是占主导地位的网络平台,使用率为 51%,其次是微软 Azure(29%),谷歌云(27%),以及 Firebase(21%)。而 MySQL 是最受欢迎的数据库(46.9%),其次是 PostgreSQL(44%)、SQLite(32%)、MongoDB(28%)和微软 SQL Server(27%)。
对于希望从所收集的信息中获取价值的企业来说,数据成熟度是一个重要因素。高成熟度评级意味着企业拥有完善的流程和系统来收集、存储和分析数据,并将其集成到整体运营中。
报告称,投资提高数据成熟度可以让企业获得竞争优势,使它们能够根据数据做出更明智、更有效的决策,然后利用数据带来的增长和创新机会。调查发现,64%的数据领导者认为,他们公司中的大多数或几乎所有员工都不懂数据,这可能是数字化转型的最大障碍。
三分之一的企业难以正式确定数据角色
据了解,数据成熟度指数涵盖了企业内数据使用的四个核心领域:目的、人员、方法和工具。
研究表明,三分之一的企业或者数据角色和职责不明确,或者根本没有正式的数据角色和职责。这是一个大问题,因为确立数据领导角色是提高企业内部数据素养的重要组成部分。
该研究还发现了企业内部治理不成熟的问题,40%的企业目前很少或根本没有数据治理框架。
缺乏数据素养和数据治理
拥有更多懂数据的员工可以让企业领导层明白,数据并不是专业团队的专利,因此更有可能投资于数据转换。问题是,被调查的这些公司中,很少有数据成熟度达到这一水平,“这意味着企业仍需要努力提高数据素养,进而更广泛地构建数据文化。”
虽然人们正在为企业带来更不成熟的数据水平,但技术正在帮助他们迎头赶上。该指数表明,63%的数据领导者认为,企业可用的技术主要有助于他们使用数据。
此外,报告还介绍了账户聚合功能以及在开放金融生态系统中实施的可能安排。
报告展示了一个基于微服务架构概念的成功实现,该架构促进了高可用性、可伸缩性和复原力。数据共享方案在很大程度上取决于监管框架是僵化还是灵活。选择适当模型的最大挑战在于确定数据将存储在哪里,谁是消费者,以及使用哪些通信接口。
政府对个人(G2P)支付的数字化发展是一项跨领域议程。
G2Px倡议汇集了世界银行集团多个全球实践局和不同部门在诸多领域的知识专长——如社会保护、支付系统、金融包容性、数字发展、治理与性别等,以便规模化地改进G2P支付。本文即由世行集团负责数字发展、社会保护与就业以及金融、竞争力与创新的三位局长共同撰写。
新冠疫情危机凸显了数字公共基础设施(DPI)在确保政府快速安全地发放社会援助方面可以发挥的重要作用。DPI不仅使政府得以向数量空前的新受益人伸出援手,还使远程支付成为可能。这使千百万人首次进入了社会保障体系和金融体系。
新冠危机期间经济活动受到很大限制,因此政府需要向大量人口提供支持——包括城市非正规居民在内,而原有社会援助项目大多不覆盖这部分人员。
扩展支持体系面临两个挑战:识别出哪些人需要支持,以及如何在疫情背景下安全、高效地支付救助款项。G2Px项目下的最新研究报告《数字基础设施在新冠社会援助中的作用》显示,那些已经具备良好数字基础设施(数字化数据库、身份识别系统和支付系统)的国家在应对这些挑战方面做得最为成功。
纳入新受益人的挑战
在疫情期间注册新的受益人并确定他们的受助资格具有挑战性。城市非正规工人——以及其他需要社会援助的弱势个体——通常很难被社会援助系统识别,因为他们通常不属于任何现有的社会支持计划。在这种背景下,可推测有17亿低收入和中等收入国家的家庭获得了COVID-19援助,在大多数地区,超过一半的受益人以前从未获得过任何政府支持。
在疫情期间,已经拥有数字化数据库和身份证系统的国家得以更好地注册新的受益人并就他们的受助资格做出判断。这些系统允许政府在不同的数据库中查找和匹配潜在的受益人信息,评估获得援助的资格,并在整个过程中以安全和保护隐私的方式反复进行身份验证。例如,泰国的Covid-19社会救助在线申请只要求申请人提供身份证号码(以及用于身份验证的基本个人信息)。仅凭这个唯一编号,他们就能够对照一系列数据库检查信息并做出快速批准决定。一半以上来自劳动年龄人口的申请很快获得批准。
那些无法选用现有数字数据库或识别系统交叉验证或验证远程注册人身份的国家,平均只有16%的人口获得了疫情援助计划的支持。相比之下,已经拥有数字化数据库和可信数据共享机制的国家,疫情援助的平均覆盖率为51%。
尚未构建数字公共基础设施的国家不得不要依靠地方层面来收集信息,这意味着容易出错且过程冗长。例如,菲律宾在发放第一轮疫情救助资金时,鉴于原有的社会登记系统已经过时,数字身份证系统PhilSys的登记尚未完成,因此不得不借助当地政府工作人员收集1800万户家庭的数据。这个过程会造成付款延迟、重复支付频繁(至少5%)以及难以接触到新的受益人。这一经历促使菲律宾政府加速了PhilSys的推出,该项目现在有超过7200万人注册。社会福利和发展部将借助该系统进行试点,使G2P支付更加便捷。
扩大包容性的机会
在受益人注册并验证其资格后,政府面临第二个挑战:如何快速安全地付款。许多国家都选用数字支付——有几个国家是第一次使用。在某些情况下,政府将资金转移到个人的移动货币账户或传统账户;在其他情况下,个人以移动代金券或代币的形式收到资金,然后将其兑换成现金。
许多国家都采取使用了数字支付,这意味着数百万人首次开设了账户,这对普惠金融来说是一大推动力。在哥伦比亚,Covid-19社会援助计划的近300万受益人通过账户获得了援助,并专门开设了超过130万个移动账户来接收这笔钱。政府已借助新冠响应社会援助计划为巴西约7000万人构建了数字储蓄账户,允许个人远程获取援助资金。据估计,这些受益人中约有40%在疫情爆发前没有自己的账户。
也有一些国家错过了扩大金融包容性的机会——例如,一些国家正在将救助资金转移到功能有限的账户中,或是使用只能用来提取现金的代币,而不是允许受益人进行数字支付、储蓄或转账。例如,巴拉圭创设建立了150万个新的移动电子钱包,但与巴西的做法不同,这些电子钱包功能有限,受益人无法选用它们来存钱或转账。
打破障碍
各国在疫情期间采取使用数字技术和以数字化方式分发社会援助的集体经验代表了推进G2P的独特机会,但如果没有协调一致的行动、总结经验教训并开展必须的投资,就无法保证取得进展。
G2P支付的数字化在Covid-19危机期间取得了重大进展,但要将其转化为长期发展成果还有很长的路要走。例如,虽然许多国家在大流行期间选用了数字支付,但并非所有国家都选用有助于进一步提升金融包容性的账户。虽然在Covid-19响应项目中选用了数字系统,但这并不意味着这些系统能够扩大规模——之所以如此,是由于许多项目都是临时的。
建设适当的数字公共基础设施(DPI)以支持政府支付的数字化将应当需要公共和私营部门的利益相关者采取果断行动。各方还应当需要从应对COVID-19的成功经验中吸取教训,总结未来应当需要避免的错误,并确保项目得以支持长期发展目标——其中包含提高金融服务的接入点并改进金融产品和服务。
各国现在有一个独特的机会来借助这些经验教训发展数字G2P支付生态系统并构建广泛的数字公共基础设施,以帮助政府提高效率并为受益者打开新机遇之门。这一领域的努力最终能够为多种支付流予以一个共同的渠道,从而进一步提升支付的便利性、包容性和受益人的赋权。
今年报告的主要发现表明,研究人员赞成数据公开获取作为一种普遍做法的趋势日益显著(每五位研究人员中就有四人对此表示赞同)。如今有超过70%的受访者被要求遵守数据共享政策,这一定程度上支持了这一趋势。
然而,研究人员还是提及了有助于他们分享数据的关键需求:更多有关数据访问、分享和再利用政策的培训或信息(55%),以及长期存储和数据管理策略(52%)。荣誉和认可也再次成为研究人员共享数据时的一个重要主题。此前曾分享过数据的人中,有66%的人获得了他人对其工作的某种形式的认可——最常见的方式是在另一篇文章中的完整引用(41%),其次是在使用了他们数据的论文中成为共同作者。 促使研究人员更倾向于分享其研究数据的因素是对引用量(67%)和研究可见度(61%)所能产生的影响,而不是公共利益或期刊/出版机构的要求(均为56%)。
今年的报告还包括了来自美国国立卫生研究院、白宫科技政策办公室、中国科学院计算机网络信息中心、出版机构和大学的开放数据专家的特邀文章。
Figshare创始人暨首席执行官马克·哈内尔说:“我们报告所得出的结果清楚地表明,尽管大多数研究人员接受开放数据和开放科学的概念,但他们也对开放数据政策和实践如何会影响到他们存有一些合理的疑虑。在一个开放数据的规定不断增多的环境中,资助机构如与研究人员更紧密的合作,并为他们提供额外的支持,以顺利过渡到完全开放数据的未来,那他们也会从中获益。”
施普林格·自然开放数据项目经理格雷姆·史密斯说:“过去七年,这些调查有助于展现研究人员对开放数据的看法。该报告不仅向我们表明所取得的进展,还包括了尚需采取的措施,以支持科研界走向开放数据的未来。无论是为研究人员提供广泛的支持,让研究数据公开获取成为普遍做法,还是针对开放数据规定的态度上的不断变化,我们都必须从中学习并推进具体措施,以解决科研界告诉我们的问题。”
健身领域在技术上面临非常巨大的变革,而传统健身也在顺应时代与技术发展的趋势和需求,传统健身模式也面临巨大的挑战,健身行业也伴随市场需求的升级产生了更多的细分领域。同时,智能体育由于被越来越多人关注,而逐渐从蓝海市场向激烈的红海市场转变。其中浩瀚体育,作为国际知名的综合体育平台,多年来秉承着不断进取、永不止步的企业精神,在竞争无比激烈的同行业内取得了高度的专业好评与广泛的用户认可。浩瀚体育近年来,在AI硬件+软件方面投入了大量的人力物力资源,致力于挖掘传统体育与健身行业在智能技术方面的更多可能性,如AI智能健身设备、AI智能教练系统、AI智能体育数据测算设备等,将智能科技的应用深入渗透到传统体育产业当中,激活传统产业活力,让智能带动产业的升级与发展。
目前全国很多城市也引入了智能体育设备,帮助市民打造健康体魄,期待创造新价值,带来新美好生活。将智能设备与智能手机相结合,以科技带动数据,用数据支撑产业升级,体育参与形成智能数据库,能够更有效的对不同类型的人群、不同类型的健身运动模式进行数据分析。随着互联网、大数据、人工智能等科技力量持续赋能健身行业,智能健身等新业态的流行将更加充分地满足消费者多样化、品质化需求,并进一步降低全民健身参与门槛,增加健身活动的互动性、获得感,帮助更多人开启健康新生活。
根据中国企业 IT 成熟度、产品丰富性以及业务战略的多样化等,Gartner 将 LCAP 领域厂商分为以下 4 类:
1、低代码平台厂商(LCAP):
面向专业开发人员或者业务人员等多种角色的低代码应用平台,例如 Mendix、OutSystems、得帆信息等,主要是在全球或者本地企业具有特定行业或特定领域吸引力的厂商,旨在采用最佳全球实践的成熟 IT 开发团队。这些低代码平台厂商具有强大的本地化定制支持能力,在平台开发过程中需要与领域专家或者企业 IT 进行联合协作,适用于服务高级别和中等级别 IT 成熟度企业。
2、无代码平台厂商(CADP) :
面向业务人员的无代码应用程序开发平台,来解决更多的功能性用例,比如表单或办公自动化应用程序。无代码平台厂商多用于初创企业,提供轻量级解决方案以满足相应的市场需求,因此更适合服务缺乏 IT 支持的中小型企业。
3、企业应用厂商(Enterprise Application ) :
包括 CRM、ERP 等应用程序,此类厂商通过从核心业务继承来的强大客户基础和关系优势进行相应领域的竞争,通过向 LCAP 提供打包业务功能和连接器来扩展产品,以支持不同范围的特定行业或特定领域的应用程序及解决方案。企业应用厂商还通过与低代码和无代码平台厂商进行合作,为客户进一步补充解决方案。
4、云服务提供商(Cloud Service Provider ):
例如阿里巴巴、百度、微软等,这些大型云服务提供商寻求加强其云服务,以扩大销售。阿里巴巴、华和腾讯的目标是通过基于各自云平台的解决方案,发展合作伙伴的生态系统。
Gartner 认为,上述四类 LCAP 厂商虽然出于不同的动因进入此市场,但是都以满足客户快速应用实现为目标。Gartner 对四类厂商竞争性分析也为技术和服务提供商在中国规划 LCAP 产品战略提供了见解和建议,企业软件供应商和数据分析供应商也可以使用这些分析来评估企业 LCAP 市场中的各类供应商,以寻求合作伙伴,为企业提供数字化解决方案。
报告简介
日前,中国信息通信研究院政策与经济研究所互联网运行分析团队发布了《2022年二季度我国互联网上市企业运行情况》报告。
报告建立的互联网行业分类标准,借助Wind数据库构建了互联网上市企业运行监测研究框架,深入挖掘我国和全球互联网市场运行情况,为行业趋势预测、热点问题预判提供重要参考。
监测发现:
1
2
3
4
5
6
7
8
9
10
今年,StackOverflow 针对三个不同的群体(所有受访者、专业开发人员、初学者)使用的流行技术进行了比较。
不出意外,所有受访者与专业开发者的调查数据显示,JavaScript连续十年成为最常用的编程语言。另外微软的TypeScript的排名一直在稳步提升,从 2020 年第 9 位上升至 2021 年的第 7 位,在今年则是挤下了 Java 升至第 5 位。Python 和 SQL 相比去年调换了各自的位置。
在初学者的调查中,情况稍有不同,HTML/CSS 等仍是初学者更好的入门选择,Javascript 和 Python 也是最受初学者欢迎的语言。
有趣的是,尽管 TypeScript 越来越受欢迎,但是人们对它的喜爱程度却下降了。Rust 仍是最受喜爱的编程语言,约有 87% 对开发者希望继续使用它,TypeScript 从去年的第 3 滑落到第 4。新兴语言 Elixir 升至第 2。
从 2021 年开始,Stackoverflow 将Node.js从 “编程语言、脚本和标记语言” 类别转移到了更合适的 “Web 框架” 类别。在 58743 名受访者中,大约有 47% 的人使用 Node.js,43% 的人使用 React.js。同时 Node.js 和 React.js 是专业开发者和初学者最常使用的两种网络技术。
PostgreSQL 完成对 Redis 的超越,成为最受喜爱的数据库,结束了 Redis 长达 5 年的霸榜。
微软继续在开发者工具领域占据主导地位,Visual Studio Code 仍是多数开发者首选的 IDE。在 71010 名受访者中,大约有 74% 的人使用 Visual Studio Code,相比 2021 年的 71% 略有增加。Visual Studio 下降至 32% ,IntelliJ 与 Notepad++ 分列第 3 和第 4。
AWS 不仅仅是使用最多的云平台,也是最受喜爱的云平台。微软 Azure 和 Google Cloud 分列第 2 和 第 3。
操作系统的排名几乎没有什么变化,Windows 在个人和专业用途方面胜出,但在专业用途方面,Linux 以 40% 的响应率超过 macOS 的 33% 位居第二。最值得注意的是适用于 Linux 的 Windows 子系统的增长,目前占个人使用的 14%,而 2021 年仅为 3%。
StackOverflow 团队今年为版本控制系统引入了一个新类别,不出所料,Git 获得了高达 94% 的数据。如 StackOverflow 所说,没有其他技术能像 Git 这样被广泛使用,特别是在专业开发者中,而排名第二的 SVN 只有微不足道的 5%。但初学者中有 17% 的表示不使用版本控制系统。
调查显示,开发人员对于庄闲网络娱乐平台进入 、加密货币和去中心化等感到困惑,大约有 32% 的人赞成,31% 的人反对,26% 表示无所谓,呈现三足鼎立态势。
本次调查显示,自 2021 年以来,开发人员的工资普遍上涨,报告显示,平均工资中位数增加了约 23%,Flow、COBOL、Couchbase 和 IBM Cloud/Watson 增幅较多,其中以 COBOL 的提升最多,年薪中位数从 52340 美元跃升至 75592 美元。
在线完整报告:https://survey.stackoverflow.co/2022/
编译来自:infoq
在新冠疫情之后,企业领导者面临着在新环境中重新吸引员工队伍的挑战——这是一个比以往任何时候都更加数字化、机器人化、多样化和分散化的环境。处在这样的环境之中,落后者需要自担风险。
在为未来几十年的成功设定企业目标时,管理者需要了解员工的哪些信息?
新兴劳动力的五个特征
麻省理工斯隆工商管理学院的专家对新兴劳动力的五个特征及其重要程度进行了分析。
01、他们精通数据
数据驱动的公司能够增加收入,改善客户服务,提升运营效率,提高盈利能力。
麻省理工斯隆工商管理学院高级讲师 Miro Kazakoff 表示,“在一个拥有更多数据的世界中,拥有更多‘具备数据素养’人才的公司,将会脱颖而出”。Miro在麻省理工教授有关数据交流和数据说服力的课程。
要想实现这一点,我们需要“数据民主化”——即数据应该掌握在每个员工手中。
麻省理工学院信息系统研究中心的首席研究科学家 Barbara Wixom 表示:“每个人都将发挥作用,推动企业朝着新的发展方向(纳入包括数据在内的新工作方式)前进。数据是一项团体行动,整个组织都应该成为数据团队。”
美国专利商标局前主任 Michelle K. Lee(麻省理工88届本科,89届硕士)在今年早些时候的 EmTech 数字会议上发表了讲话,并陈述了如下观点——在企业层面,数据应被视为整个组织的资产,而不是创建或收集数据的各个部门的单独财产。
分析平台提供商 ThoughtSpot 的首席数据战略官 Cindi Howson 表示,利用数据需要协同合作。Howson 去年 8 月在麻省理工数据研讨会上的一次演讲中表示,一些公司将需要围绕数据和数据分析进行重组——这可能意味着企业需要将业务人员、技术人员和编程人员结合起来。
Howson 表示,想要成为最成功的的公司,管理者们需要将数据和数据分析嵌入到每个业务部门中,并实现一定程度的数据集中化。
02、他们乐于使用人工智能、机器学习和机器人
大多数专家都认为人工智能的未来意味着工作的未来。一项研究估计,机器人技术有望扩大,到2030年,全球机器人市场的价值将达到2600亿美元。
然而,这些领域的增长并非全无坏处。麻省理工经济学家Daron Acemgulu发现,美国 1000 名工人中每增加 1 个机器人,工资水平就会下降 0.42%,而就业人口比率则会下降 0.2 个百分点。
Acemoglu说:“如果我们忽视我们使用的人工智能类型的正确性,它可能会对收入不平等和社会凝聚力产生灾难性影响。”
尽管人们仍然担心人工智能可能取代工厂和仓库中的人类,但精明的雇主却将教育、医疗保健和职业培训等领域的人工智能作为人类劳动力的补充,而不是人类的替代品。
在制造业中,协作型机器人或补充型机器人都能够增强人类劳动力。麻省理工学院教授、机器人专家Julie Shah指出,通过机器人协作,工人可以将更简单的任务委托给机器人,重点放在更困难的工作上,从而提高生产力和工人的幸福感。
03、赋权新兴劳动力
根据麻省理工斯隆工商管理学院教授、工作与就业研究所所长 Thomas Kochan 的研究,工人们认为自己在工作中经历了相当大的“声量差距”(他们认为自己应该拥有的发言权或影响力,以及他们实际拥有的发言权或影响力之前存在着差距),这种差距广泛存在于工作报酬、工作条件和公平待遇等议题。
麻省理工斯隆工商管理学院人力资源与管理学教授 Paul Osterman 表示,这种情况不会持续太久。在全国范围内,低收入工人都在寻找他们的声音和目标,而雇主却置之不理——我只能这么说,风险自负。
Kochan教授促请雇主和雇员订立新的社会契约,使投资者能获得更高的回报,维持更高质素的职业生涯。这些条约的原则包括:
精心挑选具有强大技术和行为技能的员工。不断投资于员工的培训和发展。尊重工人权利。工人有能力适应不断变化的技术和工作要求。推行公平和透明的薪酬制度,确保雇员的收入随企业及整体经济表现的改善而增加。在影响员工未来的关键业务决策中为员工发声。
04、他们尊重、期待和理解“好工作”的价值
今天的雇员有自己的“好工作”标准:薪酬和福利好、工作时间稳定且可预测、职业道路、安全保障和公平公正的工作环境。
因此,雇主有需要再进一步,不单是培训或提高低薪雇员的工资。Osterman教授说,提高他们所做工作的质量对公司也很重要,影响到美国大约四分之一的成年人。
如果不这样做会怎么样?麻省理工学斯隆工商管理学院运营管理教授、《好工作战略:最聪明的公司如何投资于员工以降低成本并提高利润》一书的作者 Zeynep Ton 表示,对人员投资不足,会导致运营和客户服务出现问题,进而导致销售额下降,预算缩减。”
“这种恶性循环对投资者来说代价高昂,它伤害了客户;同时,它也表现出对工人的残忍——从工资到工作日程,从待遇到尊严。在这种恶性循环中,每个人都是输家。”
斯隆工商管理学院教授Erin Kellyand和明尼苏达大学社会学教授 Phyllis Moe在《超载:好工作是如何变糟的以及我们能做些什么》一书中呼吁重新考虑双边议程,将其作为一项行动计划,将员工的福利及企业优先事项和目标联系起来。
两位学者研究了一家公司,该公司推出了一项“重新设计工作”计划,其中包括家庭工作或混合时间表等选择。他们认为“重新设计工作”实施后,员工离职率在三年内下降了40%。
05、他们致力于促进公平和环保
伯克希尔银行(Berkshire bank)前执行副总裁、麻省理工学院斯隆商学院讲师Malia lazu表示,缩小技术差距和培养新兴劳动力的多样性至关重要。相关行动包括:让所有儿童学习早期教育课程(科学、技术、工程和数学);使高等教育更加普及和公平;根据技能而非学位进行招聘;专业网络的评估和多样化。
去年,负责创新和包容性的副院长Fiona Murray和负责多样性、公平和包容性的副院长Ray Reagans详细介绍了麻省理工学院斯隆学院是如何改变机构文化的,希望其他组织可以从这个蓝图中学习。
他们写道:“我们正在解决学校对现有教师和学生招聘网络的依赖。为了改变这种状况,我们聘请了专业招聘公司,在招聘员工时采用更广泛、更多元化的网络。”
麻省理工斯隆商学院教授Emilio Castilla表示,公平必须超越招聘过程。他建议组织从公平和基于数据的角度解决促进和提高工资的问题。
工作与组织研究助理教授Jackson Lu发现,更普遍地说,具有多元文化经验的领导者是更好的沟通者,这种能力在领导跨国团队时尤其有效。
特别是对于年轻员工,公平的概念也适用于治理和环境问题。Cone communications在对千禧一代员工的研究中指出,如果没有强有力的企业社会责任政策,64%的千禧一代不会接受这份工作;83%的千禧一代将更加忠诚于帮助他们解决社会和环境问题的公司。
麻省理工斯隆商学院讲师兼可持续发展倡议高级副主任贝Bethany Patten表示,在过去15-20年中,从反对到积极接受环境实践的转变已成为常态。今天,公司的可持续发展绩效与公司的成功密切相关。
本文作者:Kara Baskin
记者,波士顿环球报
平均年薪只涨了0.8%
加拿大的平均工资增长率最高,薪酬增幅为9.2%,其次是英国和美国,分别增长了2.7%和0.8%。
在美国,薪资排名最靠前的地区是:旧金山湾区、西雅图、纽约,其次是波士顿、洛杉矶、奥斯汀、亚特兰大、华盛顿特区、圣地亚哥、芝加哥等地。
其中,旧金山湾区、西雅图、纽约,两年排名均稳居前三。
薪酬排名前三的软件工程师分别是:安全工程师、研发工程师、自然语言处理(NLP)。
薪酬TOP10软件工程师还包括移动工程师、机器学习工程师、增强现实/虚拟现实工程师、数据库工程师、庄闲网络娱乐平台进入 工程师、数据工程师。
对于时下相当热门的人工智能领域来说,NLP工程师和机器学习工程师都有不错的收入,分别是160227美元和158307美元。只不过相较于前一年,前者的年薪降低了4000多美元,后者增加了7000多。
Go的需求量最高,Python最受欢迎
比如Go就能给你带来1.8倍的面试机会。
在Hired的报告中,软件工程师们最喜欢的Top10编程语言依次是:Python、JavaScript、Java、TypeScript、C#、Go、HTML、C++、Ruby、C语言。
全栈工程师最受欢迎
卡诺模型(Kano Model)是用于制定设计决策的工具。
通过根据功能对客户满意度的预期影响来对产品功能进行优先级排序,从而更好地进行设计决策。
卡诺模型有助于了解产品设计的功能是否会给用户带来预期的满意效果。
卡诺模型模型起源于1980年代的日本,它建立在三个核心原则之上:
1、产品依靠价值吸引客户
2、产品质量保证了客户的忠诚度
3、创新力是差异化和竞争市场所必需的
它由日本教授Noriaki Kano开发,根据客户对产品的要求或属性对功能进行分类,从而评估这些功能对用户满意度的影响。
Noriaki将客户对产品的要求或属性,分为必备属性(threshold),期望属性(performance)和魅力属性(excitement)。这些要素共同构成了产品的客户体验。
01 五个功能类别
1.必备属性(threshold)功能
Kano Model首先关注用户期望的基本功能。
例如在汽车上刹车或在酒店的淋浴间加热水。
这些功能是用户对该产品和服务的最低需求。
这些功能及服务并不能给用户带来足够的兴奋点。
从客户的角度来看,产品是否具有必备属性的功能会对满意度产生影响:
如果用户期望某种功能而该功能不起作用,他们会感到沮丧,但是如果这些功能满足了他们的期望值,用户也只会表示中立的满意度,不会有额外的惊喜。
而且,由于用户很少额外提出这些必备需求,所以这些功能需求有可能被忽略。
因此,在进行产品功能设计的时候,我们首先应该考虑如何保证用户的基本需求被满足。
2.期望属性(Performance)功能
具备期望属性的功能有两个特点:
1)由客户仔细评估并在购买时考虑到的功能
2)这些功能实施得越好,客户的满意度就越高
因此,这些功能对客户满意度具有线性影响。
当产品具备期望属性的功能,它们能大大提升用户满意度,相反,当这些期望功能未被实现时,用户满意度会降低。
与基本功能不同的是,用户往往热衷于在调研时提出这些他们期望的产品功能,因此这些功能不易被忽略。
3.魅力属性(Excitement)功能
魅力属性功能往往包含在意料之外的情况之中。
对于产品与服务,用户不会对具有魅力属性的功能抱有额外的预期。
因此,一旦该产品具有魅力属性功能时,会给用户带来额外的惊喜。
相反,如果产品不具备这些额外的功能,用户也并不会感到失望,因为他们从未抱有这些“不切实际的希望”。
如果产品及服务具备魅力属性功能,往往会给客户带来意想不到的超高满意度,并提升产品的口碑。
4.无差异属性(indifferent)功能
顾名思义,无差别属性功能不会引起客户的任何感觉。
请记住,此类功能的设计和开发可能无法以客户满意度的形式带来成比例的回报。
但是,并非总是如此。
有时,我们可以提供正确的功能来回答正确的问题,但却使它们过于复杂,以至于用户无法理解。
结果,他们对客户可能无动于衷,因为他们的价值对他们而言并不明显。
5.反向(reverse)属性功能
反向属性功能是指:对客户满意度具有相反影响的功能。
如果增加反向属性功能,用户的满意度会下降。
与此同时,此类功能会增加设计和开发成本。
因此,我们需要避免该类功能进入到产品开发阶段,不仅会损耗开发成本,且会降低客户满意度。
在设计团队中,产品的功能可能由任意的成员提出——您的团队,各种利益相关者和客户都会有不同的见解。
在这个时候,我们就需要运用卡诺模型对产品的功能进行筛选,保留必要功能,期望功能,争取魅力功能。
从而优化产品开发效率,提升客户满意度。
1.卡诺问卷(Kano Questionnaire)
要发现用户对产品功能的态度,我们可以根据两类问题来使用Kano问卷:
“产品拥有此功能,用户对此感觉如何?”
“如果产品不具备此功能,用户会感觉如何?”
这些问题不是开放性的,需要特定的答案。
用户可以选择以下几种回答:
2.卡诺模型映射(kano model mapping)
a.卡诺模型评估表
其中,不同的回答结果分别代表:
除了对于Kano属性归属的探讨,还可以通过对于功能属性归类的百分比,计算出Better-Worse系数,表示某功能可以增加满意或者消除很不喜欢的影响程度。
Better,可以被解读为增加后的满意系数。
better的数值通常为正,代表如果提供某种功能属性的话,用户满意度会提升。
正值越大/越接近1,表示对用户满意上的影响越大,用户满意度提升的影响效果越强,上升的也就更快。
Worse,则可以被叫做消除后的不满意系数。
其数值通常为负,代表如果不提供某种功能属性的话,用户的满意度会降低;值越负向/越接近-1,表示对用户不满意上的影响最大,满意度降低的影响效果越强,下降的越快。
因此,根据better-worse系数,对系数绝对分值较高的功能/服务需求应当优先实施。
根据better-worse系数值,将散点图划分为四个象限:
* 第一象限表示:better系数值高,worse系数绝对值也很高的情况。
落入这一象限的属性,称之为是期望属性。
即表示产品提供此功能,用户满意度会提升,当不提供此功能,用户满意度就会降低。
这是质量的竞争性属性,应尽力去满足用户的期望型需求。
提供用户喜爱的额外服务或产品功能,使其产品和服务优于竞争对手并有所不同,引导用户加强对本产品的良好印象。
* 第二象限表示:better系数值高,worse系数绝对值低的情况。
落入这一象限的属性,称之为是魅力属性。
即表示不提供此功能,用户满意度不会降低,但当提供此功能,用户满意度和忠诚度会有很大提升。
* 第三象限表示:better系数值低,worse系数绝对值也低的情况。
落入这一象限的属性,称之为是无差异属性。
即无论提供或不提供这些功能,用户满意度都不会有改变,这些功能点是用户并不在意的功能。
* 第四象限表示:better系数值低,worse系数绝对值高的情况。
落入这一象限的属性,称之为是必备属性。
即表示当产品提供此功能,用户满意度不会提升,当不提供此功能,用户满意度会大幅降低。
说明落入此象限的功能是最基本的功能,这些需求是用户认为我们有义务做到的事情。
同类型功能之间,建议优先考虑better系数较高,worse系数较低的。
在产品开发时,功能优先级的排序一般是:必备属性>期望属性>魅力属性>无差异属性。
b.数据分析
数据清洗→KANO二维属性归属分析→Better-Worse系数计算。
可以直接在Excel或SPSS中进行分析。
此外,还可以结合产品的一些数据支持进行结合分析,如用户画像,UV,转化率等。
c.数据解读
KANO模型是对功能/服务的优先级进行探索,具体情况还需要和业务方进行讨论,将Kano模型结果和业务实际情况结合讨论,确定可行的产品功能开发/优化的优先级顺序,以将调研结果落地实施。
03 总结
Kano模型可用于阐明客户对给定产品的要求,并帮助交付能够提高客户满意度的产品。
通过Kano问卷,我们可以从目标用户得到他们对产品需求的第一手答案。
这将会帮助我们确定产品功能设计的优先级,摈弃额外功能,节省开发成本,创造良好的用户体验。
作者 | 交互设计小助手
转自 | 美国交互设计资讯
题图 | 源自 pexels.com
1. 什么是推荐卖点,用推荐卖点能做什么事情?
推荐卖点是一种商品文案,或者称之为对商品的描述。商品文案,即电商平台中在线利用文字来描述商品的特征、特色点、详细信息,以辅助商家吸引顾客、促进商品销售,丰富商品的推荐理由。
商品文案有多种类型,不同类型的商品文案有着不同的功能,主要包括长文案(商品标题和商品描述),短文案(卖点)。
传统的商品文案多是由人工撰写,费时费力,撰写速度也很难跟上新商品的迭代速度。随着自然语言处理飞速地迭代和发展,尤其是深度语言生成模型,通过商品文案自动化生成技术,可以帮助商铺的店家以又快又省的方式进行商品宣传。
2. 目前常用的文案生产技术
商品文案自动写作属于自然语言处理领域中 text summarization 或者 natural language generation 的问题。
输入是长文本形式,包括商品属性、商品详细描述、买家评论等,输出是目标商品文案,包括商品描述、商品标题、商品卖点等。
目前有以下几种文案生成模型的方法,如 Template-based generation、Deep neural network-based generation、Knowledge-based incorporate、Pattern-controlled 等。
以上这几种方式主要针对长文本文案生成,目前还没有针对卖点短文案的生成技术。
3. 推荐卖点价值
卖点文案生成的核心是服务于推荐系统,可增加推荐系统的可解释性,向用户展示推荐理由;结合用户喜好进行个性化推荐,从而传达准确信息供用户决策;向用户展示特色优势如服务和优惠等信息,可以提升用户的满意度,促进点击行为,同时增加用户对平台的信任度以及延长停留时间。
4. 卖点短文案自动生成技术
通过卖点自动化生成技术,避免人工文案写作,节约了时间成本;同时,卖点短文案不需要复杂的文学表达,比较适合采用自动化文案生成的方式。为了生成高质量的卖点文案,需要做到以下几点:
接下来通过介绍推荐卖点在推荐系统中的架构设计来介绍卖点如何与推荐系统结合发挥作用。
首先是当请求被初始化时,混合模块(SOA)会触发前端(Broadway)收集用户信息、商品信息等数据;基于收集到的客户资料,Index 模块作为 Broadway 和后端推荐的中转站,将信息提供给推荐模块;AI-flow 是推荐模块,执行召回和排序,以获取推荐候选产品,根据产品的库存和受欢迎程度进行筛选,最后确定要推荐的产品同时将请求发送给卖点模块,进行卖点的提取和个性化分发。
1. 智能卖点创作的技术流程
整个智能卖点创作模块分为两个部分:
以石榴这个商品为例,首先获取卖点素材,比如石榴的属性表,商品标题,以及采用 OCR 文字识别技术从商品详情图片中提取的文字,买家的正向评论等;然后将获取的卖点素材输入到卖点提取和生产模块中,生成针对一个商品的多个优质卖点;在个性化分配模块中,结合客户兴趣给不同的用户进行不同的推荐卖点展示。
2. 卖点短文案的提取和生成
卖点短文案的提取和生成,主要包括卖点粗筛、卖点生成、卖点精筛这三个步骤。
① 卖点粗筛
目标是从商品文案素材库里(商详页 OCR,用户评论,达人文案等)提取初始卖点候选,主要基于 self-adversarialBERT 对文案素材(句子或者短语)进行打分,然后根据打分排序并选择 top-K 作为卖点生成素材,大范围地过滤掉与商品无实质性意义的短语或者句子。
在素材文案评分中,将人工写作的卖点(达人文案)定义为正样本,将用户评论或者商详页 OCR 等作为负样本,使用自对抗的 BERT 模型做分类训练。在实践的过程中,当句子输入模型之后,获取 Bert 模型的 softmax 层输出概率,表示该句子被分到高质量的概率,根据句子的概率进行排序。这里简单介绍一下 Bert 模型。它是基于 Transformer 的双向预训练语言模型,在预训练阶段有 Mask 语言模型和预测句子关系两个任务,在此基础上进行 finetune 从而完成文本相似度计算、文本分类、序列标注、问答类问题等。文本输入表征包括了语义表征、segment 表征(分割信息表征)、位置表征;最后将 softmax 层输出作为该文案的质量评分:
② 卖点生成
由于粗筛中选出的文案素材口语化、不简练,因此我们接下来依据 Transformer 和 Pointer generator 的文本生成模型基于已经筛选出的文案素材库进行卖点文案生成。
Transformer 是用于学习输入文本的表征向量,它的重要组成部分包括自注意力机制(multi-head self-attention)和位置编码 (positional embedding)。自注意力机制本质上会对句子中的每个字构建全连接的图,通过计算 attention 学习每个字的表征向量,考虑到句子中所有的字对该字的影响。位置表征中,每一个位置点都有一个编码,是一个周期函数。
将上一步获取到表征进行 Decoder 生成卖点文案。Pointer generator 与其他的语言生产模型的区别在于,其不仅可以从词库挑选要学习到的字,还可以从输入的句子中挑选字。首先分别计算从词库中选择字和从输入中选择字的概率,然后再将词库中的概率分布和输入中的概率分布结合获得最终的概率分布。
③卖点精筛
卖点精筛模型区别于粗筛模型,将生成后的卖点文案,输入到一种递归锐化的 BERT 模型中进行训练。具体来说,首先将达人卖点写作当做正样本,素材库文案 / 初始模型生成文案当做负样本,输入到 Bert 初始分类模型中进行训练;然后将前一步生成的排名靠前的高质量文案作为负样本,达人卖点文案作为正样本,再次输入到 Bert 模型中做优化训练,循环多次获得最终的高质量卖点文案。
3. 个性化分发
接下来,我们介绍基于用户画像的个性化分发。每一个产品有不同的特色点,可以产生多个高质量的卖点,我们希望根据客户的兴趣点为其分配最有吸引力的卖点,以引导用户购买该商品。个性化分发分为两个步骤,首先生成卖点文案的表征向量和用户兴趣的表征向量,然后匹配卖点表征向量和用户表征向量,从而实现卖点个性化分发。
用户兴趣嵌入表征:通过 work2vector 方式获得产品词里每个字的 word embedding,将产品词中每个字的表征向量求和获取该产品词的表征,结合用户对每个产品词的喜好权重,然后对所有的产品词进行加权平均,获取用户对产品词的喜好的表征向量。
卖点文案的特征向量:通过 work2vector 方式获得卖点文案里每个字的 word embedding,然后对卖点文案中每个字的表征向量求和得到卖点文案特征向量。
个性化分发:通过计算用户兴趣表征向量和卖点文案表征向量的相似度来实现。可用的向量相似度计算的主要方法有余弦相似度、皮尔森系数、欧式距离和基于 Kernel 的相似度计算等。
1. 文案输出素材选择
在模型开发的过程中,首先需要探索不同的卖点文案资源库对生成高质量卖点的影响。候选的卖点素材库除了基本的商品描述外,还有买家评论和商详页 OCR 提取文字。为了探索这两种素材来源的优劣,我们对比了这两种文案(买家评论、商详页 OCR 提取内容)在 5 周内对指标提升的影响。从下图中可以观察到,买家评论和商详页 OCR 提取内容均可以提高与销售相关的性能指标。特别地,买家评论素材源可将 UV 提升 7% 左右,原因可能是其他用户的评论更能激发用户的兴趣,即所谓的买家更了解买家;此外,商详页 OCR 素材源可能会带来 1% 左右的提升;这些数据告诉我们可以将这两个素材库作为初始素材库。
2. 在线卖点文案质量监管
在实践过程中,我们希望能够实时地检测和过滤历史数据中对购买行为产生负面影响的低质量卖点或者对购买行为产生促进作用的高质量卖点。由于人工很难综合评估卖点是否对客户有吸引力,所以我们希望通过业务端的反馈作为指标来帮助我们去识别高质量卖点或低质量卖点,在此基础上,可以过滤掉低质量卖点,同时通过实际生产过程中的高质量卖点来重新优化模型。对于在线监控模块,我们需要通过与业务相关的指标(曝光率、点击价值、客户停留时间等)计算相对提升指标。
3. 离线卖点文案模型优化
对于离线优化模块,我们发现经过业务反馈过滤出的低质量卖点和高品质卖点可以使模型对高质量卖点文案选择更加敏感,起到优化模型的作用。在实践过程中,我们将相对提升指标大于 30% 并且基础点击 PV > 5% 的短文案作为高质量正样本,剩余文案作为负样本,然后输入到 BERT 模型中进行 finetune,重新打分排序获取高质量文案;同时我们将基础点击 PV 大于对比点击 PV 或者对比点击 PV 小于某个阈值的短文案作为低品质负样本,剩余文案作为正样本,然后输入到 BERT 模型中进行 finetune, 从而打分排序同时过滤低评分的卖点文案。
当目前为止,我们已经完成了亿级别的卖点挖掘和生产,覆盖了上亿的 SKU,62 个品类(包括家电、运动、生鲜、处方药等);同时,生成的卖点是多样化的,包括商品特色类、特色服务类、名人同款类、用户行为类、用户评价类、特色人群类,旨在能够挖掘商品特点以助力体验提升或者引入用户数据激发从众行为;另一方面,从销售指标上看,卖点技术可以有效帮助提升商品点击率(+2%)和停留时长(0.32%+),日常效果正向促进活动页赋能;基于 LBS 信息建设特色人群卖点(消费升级或者同城偏好),效果正向,目前在赋能极速版助力下沉市场用户运营。此外,推荐卖点也广泛地赋能于主站、京喜、极速版、通天塔活动页等多个应用场景。
CSSCI收录的期刊论文数量通常是反映一个学科高质量论文产出的重要指标。C扩一般是指办刊水平和学术价值接近C刊入选质量标准的刊物。
2021年新闻传播学CSSCI来源期刊和CSSCI来源期刊扩展版共发表了多少篇论文?这些论文呈现出怎样的主题特征?它们的作者分布和作者单位分布如何?高被引和高下载量的文章有哪些?
经过知网平台检索,2021年“新闻与传媒”和“出版”领域CSSCI来源期刊和CSSCI来源期刊扩展版共发表8078篇期刊论文,占同期发表期刊论文总数的15.8%。本文将从主题分析、发文机构、发文作者、被引量和下载量几个方面对8078篇期刊论文进行分析。
回顾2021年
主题分析
主题分析词云图
热门主题出现比例
发文机构词云图
发文机构统计
发文作者词云图
发文作者统计
高被引文章列表
高下载文章列表
(注:本文仅统计了知网收录的新闻传播学科期刊论文,不包含交叉学科论文)
Go 使用情况
和前几年的调查结果一样,Go 主要在科技行业被广泛使用。70% 的受访者是软件开发者,少数从事 IT 或 DevOps 工作。76% 的受访者表示他们在工作中使用 Go 进行编程。72% 的受访者表示他们使用 Go 开发 API/RPC 服务,其他的主要用途是 Web 服务、库或框架、自动化部署和数据分析等。少数开发者还使用 Go 开发桌面应用、游戏、AI 和移动 APP。
一些新的统计结果:
开发者使用 Go 遇到的阻碍
受访者被问及曾评估过 Go 但最终没有选择使用它,其中主要遇到的阻碍包括:缺少所需的语言特性、其他的编程语言对现有的工具和基础设施提供了更好的支持、Go 生态缺少所需的库、团队没有使用 Go 的经验、Go 工具不过丰富、Go 性能未能满足需求、招聘 Go 开发者困难…… 等。
由此可见,语言特性的缺失和生态不够丰富劝退了不少本想 “入坑” 的开发者。其中「泛型」是他们最希望添加的特性(调查进行的时候尚未发布提供了泛型的 Go 1.18)。除了泛型,开发者对于类型系统相关的特性也具有十分强烈的需求你。Go 团队表示,他们将收集更多关于这些需求的背景信息,并可能在未来探索不同的方式来满足这些需求,例如通过工具、库或对类型系统的修改。
那么这些相中了 Go,但最后又不采用它的受访者选了什么语言?下面的图表给出了答案:
Rust、Python 和 Java 是最常见的选择。对此 Go 团队认为,Rust 和 Go 有互补的特性,所以当 Go 不能满足项目的需求时,Rust 会是一个不错的选择。使用 Python 的主要原因是 Go 缺少库和现有的基础设施支持,因此 Python 的大型包生态系统可能会导致他们难以切换到 Go。同样,使用 Java 的常见原因是 Go 缺少一些功能,不过这应该会通过在 1.18 版本中引入泛型而得到缓解。
开发者对 Go 的满意度
跟去年一样,92% 的受访者表示他们在过去一年中对使用 Go 感到非常满意或比较满意。
此外,越来越多的开发者表示,Go 对于他们公司的成功提供了极大的帮助。
开发者对 Go 的诉求
依赖管理和错误处理是 Go 开发者需求最大的两项功能。
开发者工具和实践
与往年一样,绝大多数受访者表示在 Linux (63%) 和 macOS (55%) 系统上使用 Go。不过随着时间的推移,主力使用 Linux 开发的 Go 受访者比例似乎略有下降。
目标平台方面,超过 90% 的受访者选择了 Linux。尽管在 macOS 上开发的受访者多于 Windows,但他们大多数选择部署到 Windows 而不是 macOS。
最后
Go 开发者 2021 调查报告的部分关键要点:
完整报告查看:https://go.dev/blog/survey2021-results
2021年语言服务需求方急需语种排行前十位情况。
“一带一路”沿线国家的翻译业务量有显著增长,其中,阿拉伯语、俄语、德语、英语和白俄罗斯语为市场急需的五个语种。
语言服务需求方对翻译技术评价。
《报告》显示,人工智能技术不断创新,机器翻译在行业的应用越来越广泛,具有机器翻译与人工智能业务的企业达 252家 。“机器翻译+译后编辑”的服务模式得到市场普遍认同,通过调研,超九成企业表示,采用该模式能提高翻译效率、改善翻译质量和降低翻译成本。
我国翻译人才队伍呈现“年轻化”“高知化”“梯队化”等特征,翻译人才队伍以本科以上的中青年为主,广泛分布在全国各地。京沪两地翻译人才占全国总数的43.58%,头部城市聚集效用凸显。
翻译人才队伍发展对各领域起到了重要支撑作用。其中,教育培训、信息与通讯技术、知识产权是最主要的翻译业务领域,分别占比41.1%、40.8%、38.3%。
导读
大国竞争的关键是科技实力竞争,科技竞争的背后则是以教育体制、产学研模式、创新环境、市场活力为核心的科技软实力竞争。本文旨在分析美国科技体制,总结硅谷产学研用模式,以及产业政策在高科技产业发展过程中的作用,从而得出创新发展的经验启示。
科技是第一生产力,科技体制决定科技发展。美国作为老牌科技强国,在世界科技产业链中占有重要地位。美国科技类上市公司市值规模领先,2021 年末,全球市值前 10 名的公司中有 7 家是美国科技类公司,分别为苹果、微软、Google、亚马逊、特斯拉、Facebook、英伟达。全球 11 家市值千亿美元以上的半导体公司中有 9 家是美国公司,分别是英伟达、博通、英特尔、高通、德州仪器、超威半导体、应用材料、美光科技、拉姆研究。
根据对美国科技机制、政策以及硅谷和半导体产业的案例研究发现,美国发展高科技产业成功、长期领先全球的关键是三大要素:1)自由开放、鼓励创新、包容失败、多元化的创新创业文化,2)政府、大学、企业等紧密合作、相互促进、面向市场竞争的产学研用一体化生态体系,3)政府在鼓励创新、知识产权保护、立法、税收、移民、采购、支持基础研发甚至打压国际竞争对手等方面相对完善有效的顶层科技体制。
科技体制方面,行政与立法部门共同承担科技政策制定责任,联邦多部门以各自使命为导向进行分散的项目资助。
产学研用生态方面,政府支持,学校、企业密切合作,培养鼓励创业创新、科研项目转化,形成对内对外的技术转化服务体系和产学研一体化生态科技体系。斯坦福大学和硅谷地区是产学研生态建设的典范,成为美国乃至世界的科技创新中心。根据《2021 硅谷指数》报告,硅谷人口 310 万,人均年收入 15.2 万美元,专利数占美国整体的 13.1%,风险投资额占美国整体的 21.3%。斯坦福与硅谷的崛起并非简单依靠打造产业园区、孵化器或者设立技术转让办公室,而是以一流大学、一流科研人员与初创企业为核心主体,以自由开放、鼓励创新、包容失败的文化为基础,构建了一套各主体紧密合作、相互促进的产学研用生态系统。
美国在科技发展上总体以市场竞争、产学研用一体化见长,但是美国政府在发展高科技产业时也采取了政府采购、资金支持甚至打压国际竞争对手等多种产业支持和保护政策,实际情况可能跟很多人的印象以及美国对外宣传有所不同。在半导体产业发展之初,美国进行大量政府采购和税收优惠,对技术发展和商业化落地影响重大。日美贸易战期间,美国以关税、外交等多种手段打压遏制日本半导体产业,重获技术和市场优势。当下,美国政府仍通过大规模战略部署、资金支持等手段对本土产业进行保护。一是相继发布《半导体十年计划》、《创新与竞争法案》、《芯片法案》等产业规划方案,通过紧急拨款、税收优惠等方式增加半导体及相关设备研发生产。二是面对中国高科技产业崛起,美国采取和当年日美贸易战类似的特殊外交、贸易手段,包括加速 “出口管制实体清单”,以遏制他国相关产业发展。三是经历疫情、供应紧张和全球“缺芯” 困境后,美国政府更注重产业链完整安全,本土产能建设是下阶段发展重点之一。
从美国科技产业发展的历程来看,科学的体制设计,政府产业政策的有力支持,产学研用生态的建设,大学、企业多元化协作的伙伴关系,构筑集聚优秀人才的科研创新高地,对创新发展、强化国家战略科技力量有重要意义。
正文
1美国科技体制
美国之所以不断孕育前沿发明和创新公司,科技体制发挥了重要作用。早在美国立国之初,对科技与创新的鼓励就融入了美利坚的基因。1787 年《美国宪法》规定:“通过保障作者和发明者对他们的作品和发现在一定时间内的专有权利,来促进科学和有用艺术的进步。”
1945 年,时任国家科学研究与开发办公室主任的万尼瓦尔 · 布什向杜鲁门总统提交了著名报告《科学——没有止境的前沿》,系统阐述了科学的重要性和科技管理的理念,并总结出三条历史经验:
1)基础研究是为实现国家特定目标而进行应用研究和发展研究的基础,最适宜开展基础研究的是大学体制;
2)政府可以通过与工业界和大学签订研究合同和提供资助的制度来支持科技;
3)政府吸收科学家作为顾问和在政府中设置科学咨询机构,有助于总统和政府作出更准确有效的科技决策。在布什报告的基础上,承担政府对基础研究资助职责的美国国家科学基金会(NSF)得以建立,美国现代科技体制开始逐渐形成。
经过近 80 年的迭代与完善,美国已经形成一套与政治经济体制相匹配的多元分散的科技体系。站在联邦角度,多元分散最直接的体现在于科学政策制定的责任由行政部门和立法部门共同承担。其中政府负责制定科技预算、推进相关政策、协调科技工作;国会负责审批科技预算、人员机构的任命与设置,监管和评估相关的联邦部门和机构工作,并通过立法决定各项科技政策的框架。
行政层面,形成了 “决策 – 执行 – 研究” 三层架构,各层级主体众多但分工明确。美国总统享有国家科技活动的最高决策权和领导权,总统行政办公室下设白宫科学技术政策办公室(OSTP)、国家科学技术委员会(NSTC)、总统科学技术顾问委员会(PCAST)和管理与预算办公室(OMB)。其中 OSTP 主要为总统制定科技政策、分配研究经费提出分析建议,对科技政策形成与发展具有重要影响;NSTC 主要负责协调各政府机构间的科学政策,并由总统亲任委员会主席;PCAST 是总统最高级别的科学顾问团,主要提供政策咨询,其成员大多是政府外的顶尖科学家、工程师和学者,具有一定的独立性;OMB 主要负责管理总统向国会汇报预算的准备工作以及后续的协商,在确定科学项目的优先性方面有着最重要的影响力。
执行层面,不同于大部分国家通过一个中央政府部门或科技部集中支持科学,多元化的科学资助体系是美国科技体制最大的特点。众多联邦部门和独立机构共同承担资助科学研究、指导科技政策的责任,其中与科技关系最密切的联邦部门包括国防部、卫生与公共福利部、NASA、能源部、国家科学基金会和农业部六大部门。不同联邦部门与独立机构对应不同的使命,例如 NASA 主要支持空间探索、国防部研究增强国家安全、卫生基金会则支持更广泛的基础研究。但在某些交叉学科与前沿科研领域的资助上,多元化的体系会带来重复工作,某些项目可能面临多头管理。美国的立法者认为,不同机构出于不同的使命,看待科学问题的视角也会略有不同,这样把资助研究作为实现更广泛使命的一个要素,这种资助体系更有生命力,往往会产生意想不到的 “溢出效应”。因此这套多元化的科学资助体系得以沿袭至今。
研究层面,联邦研究机构、大学、企业和非盈利科研机构四类主体形成了有效的分工协作。联邦研究机构由政府直接管理或采取合同方式管理,主要从事重要技术的应用研究与部分基础研究,如隶属于能源部的橡树岭国家实验室,曾对负责原子弹研制的曼哈顿计划做出了重要贡献;大学以基础研究为主,美国拥有世界上数量最多、水平最高的研究型大学,同时给予研究人员极大的自由度,包括鼓励科研人员创业、促进科研成果转化;企业侧重于试验发展,大多以工业研究实验室为载体开发新技术与新产品,最知名的如美国贝尔实验室,发明了晶体管并开创了信息时代;其他非盈利机构主要包括地方政府或私人研究机构,主要从事基础研究与政策研究,对前三类主体形成补充。
法律层面,国会最重要的职能在于监督和立法。监督方面,国会有两类重要的职能机构,一类是国会的 “百科全书”,包括国会研究服务部(CRS)负责为国会提供广泛的政策和议题分析,以及一些专门委员会如众议院下设的科学、空间和技术委员会;另一类是国会的 “侦探机构”,如审计总署(GAO),负责调查和评估现有的政府政策及计划项目、确保经费被高效正确地使用。立法方面,美国非常注重科技成果的转化与对创新创业的鼓励支持,国会通过立法对从事科研工作的中小企业进行税收优惠、界定研究成果与发明专利的归属权,例如 1980 年制定的《专利与商标法修正案》(又称《拜赫 – 杜尔法案》),为联邦所资助的研究而产生的商业化创新提供了一个统一的框架,允许大学和其他非盈利组织获得这些发明的专利,并可以与公司合作、将他们推向市场。这个法案被普遍认为提高了美国大学与工业界之间的技术转移水平。
2美国的产学研用生态:斯坦福大学和硅谷的经典案例
斯坦福大学于 1891 年由时任加州州长利兰 · 斯坦福捐献 2000 万美元及近 5 万亩的农场土地正式建立。建校之初,斯坦福默默无名,发展远不及哈佛大学及邻近的加州大学伯克利分校。1951 年,时任工程学院院长的特曼与校长斯特林商定,将学校的大量土地以极低的价格出租以创办工业园区,此举既为学校创造了一定的收入,又吸引了不少企业入驻、解决了学生的就业问题,成为斯坦福发展的转折点。
1938年,斯坦福大学毕业生休利特和帕卡德在恩师特曼教授的支持下创立了惠普公司,被广泛认为是硅谷起源的标志。1955 年,在特曼的邀请下,“晶体管之父” 肖克利将半导体实验室建立在了硅谷,并于 1963 年到斯坦福任教。自此,硅、晶体管和集成电路在硅谷扎根,硅谷步入了高速发展时期。
在经历 2020 年疫情、供应紧张和全球产业链 “缺芯” 困境后,美国本土半导体产能建设成为下阶段产业发展重点之一,针对半导体产业的税收优惠措施再度加速出台。2021 财年国防授权法案 (NDAA) 中制定《美国芯片法案》中,政府和国会将为《芯片法案》授权的半导体制造、研究提供资金支持,并制定投资税收抵免优惠措施。根据《2021 年美国半导体现状报告》,美国在半导体和微电子产品生产制造环节份额已从 1990 年的 37% 降至 12%。此议案对半导体制造业的投资提供 25% 的税收抵免,以期增加美国本土芯片制造份额增长、缓解产业链困境和 “缺芯” 压力。
4 启示
从美国科技产业发展的历程来看,科学的体制设计,政府产业政策的有力支持,产学研用生态的建设,大学、企业多元化协作的伙伴关系,构筑集聚优秀人才的科研创新高地,对创新发展、强化国家战略科技力量有重要意义。
1)合理的产业扶持政策,可以促进 “卡脖子” 等核心技术领域攻关,加速扩展商业化应用落地。
产业政策在经济发展和产业结构升级过程中发挥着重要的作用。以国家主导的产业政策扮演着积极引导与调整产业结构的角色,能起到提升社会资源配置效率,加快产业、技术、人才向更优结构转变等重要作用,促进产业的升级与技术的进步。
美国 20 世纪 60 年代在半导体产业发展初期,政府采购集成电路的产品数量一度占到企业全部产量的 37%-44%,这对创新企业、中小企业带来巨大的帮助。在 80 年代后期半导体产业面临日本挑战时,美国由国防科学委员会和美国半导体协会共同牵头建立半导体制造技术科研联合体,由联邦政府提供联合体一半的经费,研究成果由政府和企业共享,最终夺回半导体企业世界第一的位置。当下,在半导体产业和技术进入相对成熟期后,美国政府仍发布《美国芯片法案》、《2021 年美国创新与竞争法案》,继续通过大规模战略部署、资金支持等手段对本土产业进行保护。
在产业发展初期,政府采购、资金支持等政策支持能为先进技术发展提供方向;在产业链相对成熟发展以后,成立产业组织、税收优惠等政策措施能进一步加速商用产能落地、保护本土产业链完整。组建研发联盟对 “卡脖子” 技术领域进行联合攻关,在关键技术领域加大对国产部件、系统软件采购比例,提供资金支持和相关的税收政策,对打造自主可控的科技产业生态具有重要意义。
2)市场导向的多层次、多元化的产学研用协作生态体系,对促进科研成果转化有正向积极作用。
从学校到企业,斯坦福大学技术授权办公室模式完善了对内对外的技术转化服务体系。对外形成技术授权和合作机制,对内形成技术转化服务体系并打造一流的师资,培养一流的人才。在大学与企业之间开展多层次的合作,一方面给予了大学教职人员在创业、兼职、咨询方面更大的自主权,另一方面给学生创造更好的学习、创业和交流环境,形成了良好的创新氛围。
我国《国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》提出,要 “坚持创新驱动发展,全面塑造发展新优势”,其中提升企业技术创新能力要 “促进各类创新要素向企业集聚,形成以企业为主体、市场为导向、产学研用深度融合的技术创新体系”。
产学研用生态建设,一是可以促进创新要素市场化,促成科研技术成果有效转化。企业和大学的科研人员存在的广泛的互访、交流、合作,为大学科研人员带来以解决现实问题为导向的研究灵感。通过高校办企、技术外包转让、联合研究、共建实体等方式,可以有效促进科研成果和技术转化,从而提高从技术创新到应用创新的创新链整体效能。
二是可以促进企业聚集形成正向生态循环。促进各类创新要素向企业集聚,一方面创造就业、产生收入、贡献税收,另一方面高收入、产业集聚、创业氛围进一步吸引优秀企业和一流人才流入,形成正向循环,不断完善 “产学研用” 生态的激励机制、法律保障措施,从而更好的完善机构设置和各主体融合。
3)开放人才政策、构筑集聚优秀人才的科研创新高地,对促进本国科技发展,巩固国家战略科技力量有重要意义。
以半导体产业发展为例,美国安全与新兴技术研究中心(CSET)2020 年报告声明,为了保持芯片领域安全和竞争力,美国需要利用其最大的优势之一:吸引、发展和留住世界上最优秀的科学和工程人才的能力。该报告提出,一是受益于硅谷、纽约科技谷等地区半导体人才集群,美国半导体产业创造了巨大的经济价值。二是来自外国的人才为美国半导体创新做出了重大贡献,美国大约 40% 的高技能半导体工人来自印度、中国等国家地区。三是美国大学是吸引外国半导体人才的主要途径。1990 年来,美国大学半导体研究生课程国际学生人数从 5 万人增加到 14 万人,而超过 80% 的半导体相关领域国际博士学生毕业后留美。四是注重与盟友和合作伙伴的合作,韩国、日本、荷兰和英国是美国以外重要的半导体公司所在地,CSET 认为加强与此类公司合作对于影响尖端半导体人才和技术的流动至关重要。
另一方面,半导体行业发展也为美国经济和劳动力就业市场产生积极影响。《美国半导体现状报告》指出,2020 年美国半导体行业总共提供 185 万就业岗位,其中包括 27.7 万名从事半导体研发、设计和制造直接雇佣人才;此外,每个半导体行业岗位都会拉动额外 5.7 个就业岗位。美国芯片设计、集成设备制造合计占全球半导体销售近 50% 的份额,2020 年美国半导体产业对 GDP 拉动为 2464 亿美元。
文:任泽平团队 @来源:泽平宏观
对于“物理学天空仅有的两朵乌云”——迈克尔逊-莫雷实验结果和以太漂移说之间的矛盾、热学中能量均分定理和实验结果的冲突,汤姆生认为也无须过分担心,今后的物理学家只要否定其中一方就可以了。但后人没能否定其中任何一方,反而是这两大矛盾重构了物理学的大厦——它们分别导致了量子力学和相对论的推出。
强烈的对比使人们意识到,科技往往关乎未来,而未来社会萌芽往往就隐藏在我们今天遭遇的痛苦、面对的疑惑、迎来的突破和无尽的遐想中。
人类从来都执着于展望未来和预测趋势,但也是这强烈的对比让人意识到,一叶知秋终究过于理想,未来总是超出预期。从思想萌芽到知识产生,从技术孕育到产品落地,从趋势形成到对手浮现,旁支层出不穷的前进之路总是让以具体科技为主线的科学史、创新史和社会史的书写超出人类的掌控,即便最富远见的学者也概莫能外。
预测从不容易,它代表着可以量化的客观知识和难以量化的主观思考在某个时点恰到好处的结合。如果说欠缺客观知识的趋势预测没有令人信服的科学基础,欠缺个人色彩的趋势预测也会失去足够的想象空间,它们或者导致预测走向发散,或者导致预测过于收敛。
达摩院每年发布的十大科技趋势预测就是这样一种尝试。因此,这份报告的意义不只在于预测结果正确与否,而在于它努力提供的一个独特视角和同样努力构建的一种科学方法。这个视角代表着一群面向实际问题的研究者对未来的思考,他们确实感受到了技术演进的惯性;这个科学的方法则尝试着让这群人与社会各界者展开互动,各方对未来的感知依靠这个方法交融,让整个社会都感受到技术演进的脉搏。
过去几年,在成功预测AI专用芯片崛起、超大规模图神经网络系统赋予机器常识、庄闲网络娱乐平台进入 回归理性等技术趋势的同时,整套研究方法也在不断进化。到今年,研究者已经将视角扩大159个与信息科学交叉的领域,过去四年间的770多万篇论文和8.5万份专利都进入量化模型,定量分析的权重显著上升。与此同时,参与其中的科学家、创新者和政策研究者也越来越多,他们对已有状况的分析、对可能未来的前瞻和基于事实的严谨讨论,都让研究人员的思路得以开阔但视线得以聚焦
在这套方法论的帮助下,达摩院今年推出的十大科技趋势涵盖范式充值、场景变革和未来互联三大领域,其中有些趋势——例如AI for Science已现端倪,有些趋势——例如大小模型协同进化的具体方式仍存争议,有些趋势——例如硅光芯片的未来还需要时间来充分印证,这也给每个关心未来、关心趋势的人留下了一个作业。
确实,预测永远无法替代哪怕一次微小的实践。但历史已经同样并将继续证明,每一个充满想象力的科学预测都是每一次勇敢前行的伟大序曲。
对外部用户分析模型
01、RFM分析
RFM分析模型用来对用户进行分类,并判断每类细分用户的价值。
通过三个关键指标判断客户价值并对客户进行观察和分类,针对不同的特征的客户进行相应的营销策略。
02、帕累托/ABC分析
ABC分析法可用于分清业务的重点和非重点,以此实现差异化的营销管理
。
OpenAI 的 GPT-3 是一个令人印象深刻的深度学习模型,但是它有 1750 亿个参数,相当占用资源。尽管有不同的估计,但是这种规模的模型在一个 GPU 上的训练需要数百年。
幸好 OpenAI 有一个由微软提供的 NVIDIA V100 GPU 的高带宽集群,这让 OpenAI 可以在几个星期而不是几年内就能训练 GPT-3。这个集群到底有多大?根据本文所述,在 1024 个 NVIDIA A100 GPU 上训练 GPT-3 大约需要 34 天。
这个 GPU 的数量真是令人难以置信。每张 A100 GPU 的售价为 9900 美元,而我们讨论的是构建这样一个庞大的集群需要花费将近 1000 万美元。我们甚至还没有考虑到电力成本,或者你实际上必须安装 GPU 的服务器机架,或者维护这种类型的硬件的人力成本,以及其他成本。
如今,你可以从谷歌云这样的公有云提供商那里租用 A100 GPU,但按每小时 2.933908 美元计算,运行 1024 张 A100 GPU 34 天,加起来需要 2451526.58 美元。请记住,这个价格是针对单一的训练运行的价格。
我可以继续说下去,但问题是,训练大型模型既昂贵又缓慢。在 AssemblyAI,我们没有训练 1750 亿个参数范围内的模型(谢天谢地),但是我们的语音识别模型是非常庞大的 Transformer,正在快速接近 10 亿个参数。作为一家初创公司,速度和成本是我们必须不断优化的两件事。
这个问题的主要解决方法是在更多的 GPU 上训练模型,但是这需要很高的成本,往往是初创公司无法承受的。近几年来,我们学到了一些关于大型模型训练的经验,希望与大家分享。
在 AssemblyAI,我们构建了大型、准确的自动语音识别(Automatic Speech Recognition,ASR)模型,并通过简单的 语音到文本的 API 进行公开。开发人员使用我们的 API 来开发应用,来实现转录电话、Zoom 视频会议、播客、视频以及其他类型的媒体内容。
我们性能最好的自动语音识别模型是大型 Transformer,在 48 张 V100 GPU 上需要大约 3 周的时间来训练。
32 个 NVIDIA V100s 训练一个模型
为什么我们这个模型的训练需要如此长的时间和如此多的 GPU?主要原因有三个:
计算出每隔 10 毫秒左右的一个音频文件的声谱图,并将其作为神经网络的输入特征。声谱图的形状 / 尺寸取决于音频数据的采样率,但是如果采样率是 8000 赫兹,那么声谱图中的特征数将是 81。如果是一个 16 秒的音频样本,它的形状会是 [1600, 81],这是一个相当大的特征输入!
下面是声谱图作为矩阵的一个例子:
[[[-5.7940, -5.7940, -4.1437, ..., 0.0000, 0.0000, 0.0000],
[-5.9598, -5.9598, -4.2630, ..., 0.0000, 0.0000, 0.0000],
[-5.9575, -5.9575, -4.2736, ..., 0.0000, 0.0000, 0.0000],
...,
[-4.6040, -4.6040, -3.5919, ..., 0.0000, 0.0000, 0.0000],
[-4.4804, -4.4804, -3.5587, ..., 0.0000, 0.0000, 0.0000],
[-4.4797, -4.4797, -3.6041, ..., 0.0000, 0.0000, 0.0000]]],
[[[-5.7940, -5.7940, -5.7940, ..., 0.0000, 0.0000, 0.0000],
[-5.9598, -5.9598, -5.9598, ..., 0.0000, 0.0000, 0.0000],
[-5.9575, -5.9575, -5.9575, ..., 0.0000, 0.0000, 0.0000],
...,
[-4.6040, -4.6040, -4.6040, ..., 0.0000, 0.0000, 0.0000],
[-4.4804, -4.4804, -4.4804, ..., 0.0000, 0.0000, 0.0000],
[-4.4797, -4.4797, -4.4797, ..., 0.0000, 0.0000, 0.0000]]],
[[[-5.7940, -5.7940, -5.7940, ..., 0.0000, 0.0000, 0.0000],
[-5.9598, -5.9598, -5.9598, ..., 0.0000, 0.0000, 0.0000],
[-5.9575, -5.9575, -5.9575, ..., 0.0000, 0.0000, 0.0000],
...,
[-4.6040, -4.6040, -4.6040, ..., 0.0000, 0.0000, 0.0000],
[-4.4804, -4.4804, -4.4804, ..., 0.0000, 0.0000, 0.0000],
[-4.4797, -4.4797, -4.4797, ..., 0.0000, 0.0000, 0.0000]]]
对于基于 Transformer 的神经网络,更大的网络通常会更好。很多论文都支持这一观点,其中 GPT-3 是最流行的例子。无论是在研究社区,还是在我们自己的内部研究中,我们都发现这种趋势同样适用于自动语音识别模型。
我们性能最好的模型是一个大型 Transformer,它包含近 5 亿个参数。随着参数的增加,在反向传播过程中,梯度更新所需要的计算能力就越大。神经网络的训练基本上可归结为进行一堆矩阵运算。模型中的参数越多,矩阵就越大。大型矩阵需要更多的计算和 GPU 内存资源。
大型模型具有更强的建模能力,这要归功于其参数数量的增加,为了充分利用这种建模能力,我们在近 10 万小时的已标记的语音数据上对模型进行。举例来说,GPT-3 是在 45TB 的文本数据上训练的,它也可以视为 1099511626800 字左右的文本。
训练神经网络时,需要对数据集进行多次迭代(每次迭代都被称为“轮数”)。数据集越大,每次迭代或“轮数”的时间就越长。即使提前停止,在一个大的数据集上训练一个大的模型,进行 20~50 次的迭代,也会花费很多时间。
初创公司面临着一项艰巨的任务:在短期内取得重大进展。被誉为“突围型”的初创公司通常都会在最短的时间内取得最大进步。
对于一家刚起步的深度学习公司来说,这是一个艰难的挑战。如果你的模型需要 3~4 个星期进行训练,你是如何快速迭代的?
减少训练时间的最简单方法是在更多的 GPU 上训练模型。更多的 GPU 意味着可以使用更多的 GPU 内存来训练运行。例如,假设你可以在一个 GPU 上安装大小为 8 的 mini-batch。如果数据集中有 1000 个样本需要迭代,这意味着需要迭代 125 个 mini-batch(每个大小为 8)。如果每次迭代需要 1 秒,那么就需要 125 秒来迭代所有 125 个 mini-batch。
如果你有 4 个 GPU,你可以一次并行地迭代 4 个 mini-batch,而不是 1 个 mini-batch。这就是说,要完成所有 125 个 Mini-batch,只需要 32 次迭代。假定每一次迭代在 4 个 GPU 上花费 1.5 秒,这是因为 4 个 GPU 有额外的通信开销——然而,你仍然能够在 48 秒内迭代完整个数据集(32*1.5)。这个速度几乎是单个 GPU 的 3 倍。
不过,值得注意的是,更大的批量(batch)并不总是等同于更快的训练时间。如果你的有效批量大小过大,你的模型的总体收敛性将开始受到影响。选择适当的批量大小来训练是你必须试验的一项超参数,目前正针对不同的优化器(例如 LAMB 和 LARS)进行研究,这些优化器有助于缓解过大的批量大小损害收敛性的问题。
训练的 GPU 越多,通信的开销就越大。因此,在 8 个 GPU 上训练的速度并不会比在单个 GPU 上训练快 8 倍。在 AssemblyAI,我们使用 Horovod 来管理跨多个 GPU 上的分布式训练运行。Horovod 是一个很棒的库,当你在训练集群中增加更多的 GPU 时,它可以帮助你获得更高的效率。
用 Horovod 的训练时间
在测试中,我们发现 Horovod 速度大大快于 DistributedTensorFlow 和 PyTorch DistributedDataParallel。尽管如此,PyTorch 还是在积极地开发,并在快速改进。在我们的测试中,我们发现 PyTorch DistributedDataParallel 在单台服务器上与 Horovod 相当,但是当扩展训练运行到多个服务器时(例如,4 个服务器,每个有 8 个 GPU),Horovod 的性能更好。
大多数模型默认是使用 FP32(浮点值 32,也称为单精度)进行训练。使用半精度(FP16)或混合精度进行训练,也可以加快训练时间。
FP16 张量是 16 位,或 2 个字节,其中每个位是 0 或 1,如 010101 10101010。FP32 张量是 32 位,或 4 字节,如 11110000 00001111 11001100 00110011。
训练期间更低的精度意味着更少的字节,这意味着在训练期间中需要的 GPU 内存更少,需要的带宽也更少,而且实际硬件级操作在较新 GPU 上运行得更快,所有这些都加快了训练速度。
使用 PyTorch,下降到 FP16 是比较容易做到的,例如 x = x.half 将一个 FP32 张量下降到 FP16。不过,要记住的是,在实践中训练的精确度较低,而且并不总是像在公园里散步那么简单。某些操作或自定义损失函数可能不支持较低的精度,可能需要大量的超参数调整,以使你的模型在 FP16 下收敛,而且较低的精度也可能会影响模型的总体精度。
这很简单:不要使用像 AWS 或谷歌云那样的公有云。这样做似乎是最简单的开始方法,但是成本会迅速增加,尤其是与下面的选择相比。
如果你对管理自己的硬件感到满意(我们不推荐这么做),那么购买诸如 NVIDIA TITAN X 之类的消费级 GPU 是一个比较便宜的选择。举例来说,每张 TITAN X 的价格大约为 3000 美元,作为消费级 GPU,其性能出乎意料的好。如果你有能力建造自己的设备,走这条路只需支付一次硬件费用,但同时也要承担托管和维护训练设备的麻烦。
一些公司如 Lambda 等,可以为你提供相对廉价的定制训练设备。例如,一台配有 4 个 NVIDIA RTX A5000 和 NVLink 的机器大约需要 16500 美元。这包括内存、处理器、外壳等。你所要做的就是找个地方插上电源,然后支付你的电费。
在 AssemblyAI,我们从 Cirrascale 租用专用服务器。像 Cirrascale 这样的提供商有很多,但支付专用服务器的费用要比像 AWS 或谷歌云这样的大型公有云好得多。这个选择还使你能够自定义你所需的内存和处理器规格来定制你的机器,并为你选择 GPU 提供更大的灵活性。
比如,AWS 仅提供以下 GPU:
很多时候,你并不需要最昂贵的 GPU 卡(现在的 A100)来在合理的时间内训练你的模型。而且,最新、最好的 GPU 通常不会立刻被 PyTorch 和 TensorFlow 等流行框架所支持。举例来说,NVIDIA A100s 在得到 PyTorch 的支持前就等了一段时间。
相对于大型公有云,如 AWS 或谷歌云,能够根据你的训练需求和预算定制一台机器,对于与小型托管服务提供商合作是一个巨大的优势。另外,由于你租用的是一台完整的物理机器,而非 AWS/ 谷歌云平台那样的虚拟化机器,因此实际的机器整体性能要好得多。
总之,训练大型深度学习模型是许多初创公司都必需要面对的挑战。成本可能很高,迭代时间也可能很慢,而且如果你不小心,它们会严重影响你的创业进程。
原文链接:
https://www.assemblyai.com/blog/how-to-train-large-deep-learning-models-as-a-startup/
来自: