数据可视化 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Thu, 21 Apr 2022 12:39:55 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 GRIT:2022年研究行业趋势报告 //www.otias-ub.com/archives/1422594.html Thu, 21 Apr 2022 22:00:53 +0000 //www.otias-ub.com/?p=1422594 GRIT发布了“2022年研究行业趋势报告”,讲故事和数据可视化是最受买家欢迎的形式,85%的买家现在正在使用或计划这样做。事实上,这两种形式的实施率已经很高,63%的买家已经参与讲故事和数据可视化。

在“热闹”的话题中,讲故事并不是那么新鲜。事实上,多年来讲故事一直是实际或计划使用率最高的形式。特别是当营销人员希望从他们的数据中讲述更好的故事时,这种形式可以为买家提供更好的洞察。

除了讲故事和数据可视化之外,吸引市场研究买家喜爱的其他新兴洞察领域包括敏捷研究/方法,目前有76%的买家正在使用或计划使用,高于去年的67%。数据集成的使用或计划使用也有所增长(76%),而现在使用或计划使用人工智能(AI)/机器学习的买家(51%)还较少。

这些趋势也广泛反映在市场研究供应商的态度上,对他们来说,讲故事和数据可视化(84%)是“热门”,领先于敏捷研究/方法(78%)和数据集成(70%)。市场研究供应商还专注于自动化/研究自动化(65%)和AI/机器学习(58%),以及 CX/UX 设计的新方法(55%)。

买家和供应商对分析表现出兴趣

报告还审查了买家和供应商考虑的新技术和方法,调查发现两组之间的态度存在巨大差异。

对于买家来说,文本分析显然是最重要的,3/4的买家考虑了这方面的技术。第二重要的是社交媒体分析,有半数买家在考虑。对于市场研究供应商而言,新的追踪方法(73%)处于领先地位,其次是数据分析(70%)、集成平台(65%)和视频分析(65%)。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
数据可视化最有价值的50个图表 //www.otias-ub.com/archives/822610.html Wed, 16 Jan 2019 09:11:55 +0000 //www.otias-ub.com/?p=822610 Tips:

  • 本文原文部分代码有不准确的地方,已进行修改;
  • 所有正确的源代码,已整合到 jupyter notebook 文件中;
  • 运行本文代码,除了安装 matplotlib 和 seaborn 可视化库外,还需要安装其他的一些辅助可视化库,已在代码部分作标注,具体内容请查看下面文章内容。

在数据分析和可视化中最有用的 50 个 Matplotlib 图表。 这些图表列表允许您使用 python 的 matplotlib 和 seaborn 库选择要显示的可视化对象。

介绍

这些图表根据可视化目标的7个不同情景进行分组。 例如,如果要想象两个变量之间的关系,请查看“关联”部分下的图表。 或者,如果您想要显示值如何随时间变化,请查看“变化”部分,依此类推。

有效图表的重要特征:

  • 在不歪曲事实的情况下传达正确和必要的信息。
  • 设计简单,您不必太费力就能理解它。
  • 从审美角度支持信息而不是掩盖信息。
  • 信息没有超负荷。

准备工作

在代码运行前先引入下面的设置内容。 当然,单独的图表,可以重新设置显示要素。

一、关联 (Correlation)

关联图表用于可视化2个或更多变量之间的关系。 也就是说,一个变量如何相对于另一个变化。

1. 散点图(Scatter plot)

散点图是用于研究两个变量之间关系的经典的和基本的图表。 如果数据中有多个组,则可能需要以不同颜色可视化每个组。 在 matplotlib 中,您可以使用 plt.scatterplot() 方便地执行此操作。  

2. 带边界的气泡图(Bubble plot with Encircling)

有时,您希望在边界内显示一组点以强调其重要性。 在这个例子中,你从数据框中获取记录,并用下面代码中描述的 encircle() 来使边界显示出来。

3. 带线性回归最佳拟合线的散点图 (Scatter plot with linear regression line of best fit)

如果你想了解两个变量如何相互改变,那么最佳拟合线就是常用的方法。 下图显示了数据中各组之间最佳拟合线的差异。 要禁用分组并仅为整个数据集绘制一条最佳拟合线,请从下面的 sns.lmplot()调用中删除 hue =’cyl’参数。

针对每列绘制线性回归线:

或者,可以在其每列中显示每个组的最佳拟合线。 可以通过在 sns.lmplot() 中设置 col=groupingcolumn 参数来实现,如下:

4. 抖动图 (Jittering with stripplot)

通常,多个数据点具有完全相同的 X 和 Y 值。 结果,多个点绘制会重叠并隐藏。 为避免这种情况,请将数据点稍微抖动,以便您可以直观地看到它们。 使用 seaborn 的 stripplot() 很方便实现这个功能。

5. 计数图 (Counts Plot)

避免点重叠问题的另一个选择是增加点的大小,这取决于该点中有多少点。 因此,点的大小越大,其周围的点的集中度越高。

6. 边缘直方图 (Marginal Histogram)

边缘直方图具有沿 X 和 Y 轴变量的直方图。 这用于可视化 X 和 Y 之间的关系以及单独的 X 和 Y 的单变量分布。 这种图经常用于探索性数据分析(EDA)。

7. 边缘箱形图 (Marginal Boxplot)

边缘箱图与边缘直方图具有相似的用途。 然而,箱线图有助于精确定位 X 和 Y 的中位数、第25和第75百分位数。

8. 相关图 (Correllogram)

相关图用于直观地查看给定数据框(或二维数组)中所有可能的数值变量对之间的相关度量。

9. 矩阵图 (Pairwise Plot)

矩阵图是探索性分析中的最爱,用于理解所有可能的数值变量对之间的关系。 它是双变量分析的必备工具。

二、偏差 (Deviation)

10. 发散型条形图 (Diverging Bars)

如果您想根据单个指标查看项目的变化情况,并可视化此差异的顺序和数量,那么散型条形图 (Diverging Bars) 是一个很好的工具。 它有助于快速区分数据中组的性能,并且非常直观,并且可以立即传达这一点。

11. 发散型文本 (Diverging Texts)

发散型文本 (Diverging Texts)与发散型条形图 (Diverging Bars)相似,如果你想以一种漂亮和可呈现的方式显示图表中每个项目的价值,就可以使用这种方法。

12. 发散型包点图 (Diverging Dot Plot)

发散型包点图 (Diverging Dot Plot)也类似于发散型条形图 (Diverging Bars)。 然而,与发散型条形图 (Diverging Bars)相比,条的缺失减少了组之间的对比度和差异。

13. 带标记的发散型棒棒糖图 (Diverging Lollipop Chart with Markers)

带标记的棒棒糖图通过强调您想要引起注意的任何重要数据点并在图表中适当地给出推理,提供了一种对差异进行可视化的灵活方式。

14. 面积图 (Area Chart)

通过对轴和线之间的区域进行着色,面积图不仅强调峰和谷,而且还强调高点和低点的持续时间。 高点持续时间越长,线下面积越大。

三、排序 (Ranking)

15. 有序条形图 (Ordered Bar Chart)

有序条形图有效地传达了项目的排名顺序。 但是,在图表上方添加度量标准的值,用户可以从图表本身获取精确信息。

16. 棒棒糖图 (Lollipop Chart)

棒棒糖图表以一种视觉上令人愉悦的方式提供与有序条形图类似的目的。

17. 包点图 (Dot Plot)

包点图表传达了项目的排名顺序,并且由于它沿水平轴对齐,因此您可以更容易地看到点彼此之间的距离。

18. 坡度图 (Slope Chart)

坡度图最适合比较给定人/项目的“前”和“后”位置。

19. 哑铃图 (Dumbbell Plot)

哑铃图表传达了各种项目的“前”和“后”位置以及项目的等级排序。 如果您想要将特定项目/计划对不同对象的影响可视化,那么它非常有用。

四、分布 (Distribution)

20. 连续变量的直方图 (Histogram for Continuous Variable)

直方图显示给定变量的频率分布。下面的图表示基于类型变量对频率条进行分组,从而更好地了解连续变量和类型变量。

21. 类型变量的直方图 (Histogram for Categorical Variable)

类型变量的直方图显示该变量的频率分布。 通过对条形图进行着色,可以将分布与表示颜色的另一个类型变量相关联。

22. 密度图 (Density Plot)

密度图是一种常用工具,用于可视化连续变量的分布。 通过“响应”变量对它们进行分组,您可以检查 X 和 Y 之间的关系。以下情况用于表示目的,以描述城市里程的分布如何随着汽缸数的变化而变化。

23. 直方密度线图 (Density Curves with Histogram)

带有直方图的密度曲线汇集了两个图所传达的集体信息,因此您可以将它们放在一个图中而不是两个图中。

24. Joy Plot

Joy Plot允许不同组的密度曲线重叠,这是一种可视化大量分组数据的彼此关系分布的好方法。 它看起来很悦目,并清楚地传达了正确的信息。 它可以使用基于 matplotlib 的 joypy 包轻松构建。

注:需要安装 joypy 库

25. 分布式包点图 (Distributed Dot Plot)

分布式包点图显示按组分割的点的单变量分布。 点数越暗,该区域的数据点集中度越高。 通过对中位数进行不同着色,组的真实定位立即变得明显。

26. 箱形图 (Box Plot)

箱形图是一种可视化分布的好方法,记住中位数、第25个第45个四分位数和异常值。 但是,您需要注意解释可能会扭曲该组中包含的点数的框的大小。 因此,手动提供每个框中的观察数量可以帮助克服这个缺点。

例如,左边的前两个框具有相同大小的框,即使它们的值分别是5和47。 因此,写入该组中的观察数量是必要的。

27. 包点+箱形图 (Dot + Box Plot)

包点+箱形图 (Dot + Box Plot)传达类似于分组的箱形图信息。 此外,这些点可以了解每组中有多少数据点。

28. 小提琴图 (Violin Plot)

小提琴图是箱形图在视觉上令人愉悦的替代品。 小提琴的形状或面积取决于它所持有的观察次数。 但是,小提琴图可能更难以阅读,并且在专业设置中不常用。

29. 人口金字塔 (Population Pyramid)

人口金字塔可用于显示由数量排序的组的分布。 或者它也可以用于显示人口的逐级过滤,因为它在下面用于显示有多少人通过营销渠道的每个阶段。

30. 分类图 (Categorical Plots)

由 seaborn库 提供的分类图可用于可视化彼此相关的2个或更多分类变量的计数分布。

五、组成 (Composition)

31. 华夫饼图 (Waffle Chart)

可以使用 pywaffle包 创建华夫饼图,并用于显示更大群体中的组的组成。

注:需要安装 pywaffle 库

32. 饼图 (Pie Chart)

饼图是显示组成的经典方式。 然而,现在通常不建议使用它,因为馅饼部分的面积有时会变得误导。 因此,如果您要使用饼图,强烈建议明确记下饼图每个部分的百分比或数字。

33. 树形图 (Treemap)

树形图类似于饼图,它可以更好地完成工作而不会误导每个组的贡献。

注:需要安装 squarify 库

34. 条形图 (Bar Chart)

条形图是基于计数或任何给定指标可视化项目的经典方式。 在下面的图表中,我为每个项目使用了不同的颜色,但您通常可能希望为所有项目选择一种颜色,除非您按组对其进行着色。 颜色名称存储在下面代码中的all_colors中。 您可以通过在 plt.plot()中设置颜色参数来更改条的颜色。

六、变化 (Change)

35. 时间序列图 (Time Series Plot)

时间序列图用于显示给定度量随时间变化的方式。 在这里,您可以看到 1949年 至 1969年间航空客运量的变化情况。

36. 带波峰波谷标记的时序图 (Time Series with Peaks and Troughs Annotated)

下面的时间序列绘制了所有峰值和低谷,并注释了所选特殊事件的发生。

37. 自相关和部分自相关图 (Autocorrelation (ACF) and Partial Autocorrelation (PACF) Plot)

自相关图(ACF图)显示时间序列与其自身滞后的相关性。 每条垂直线(在自相关图上)表示系列与滞后0之间的滞后之间的相关性。图中的蓝色阴影区域是显着性水平。 那些位于蓝线之上的滞后是显着的滞后。

那么如何解读呢?

对于空乘旅客,我们看到多达14个滞后跨越蓝线,因此非常重要。 这意味着,14年前的航空旅客交通量对今天的交通状况有影响。

PACF在另一方面显示了任何给定滞后(时间序列)与当前序列的自相关,但是删除了滞后的贡献。

38. 交叉相关图 (Cross Correlation plot)

交叉相关图显示了两个时间序列相互之间的滞后。

39. 时间序列分解图 (Time Series Decomposition Plot)

时间序列分解图显示时间序列分解为趋势,季节和残差分量。

40. 多个时间序列 (Multiple Time Series)

您可以绘制多个时间序列,在同一图表上测量相同的值,如下所示。

41. 使用辅助 Y 轴来绘制不同范围的图形 (Plotting with different scales using secondary Y axis)

如果要显示在同一时间点测量两个不同数量的两个时间序列,则可以在右侧的辅助Y轴上再绘制第二个系列。

42. 带有误差带的时间序列 (Time Series with Error Bands)

如果您有一个时间序列数据集,每个时间点(日期/时间戳)有多个观测值,则可以构建带有误差带的时间序列。 您可以在下面看到一些基于每天不同时间订单的示例。 另一个关于45天持续到达的订单数量的例子。

在该方法中,订单数量的平均值由白线表示。 并且计算95%置信区间并围绕均值绘制。

43. 堆积面积图 (Stacked Area Chart)

堆积面积图可以直观地显示多个时间序列的贡献程度,因此很容易相互比较。

44. 未堆积的面积图 (Area Chart UnStacked)

未堆积面积图用于可视化两个或更多个系列相对于彼此的进度(起伏)。 在下面的图表中,您可以清楚地看到随着失业中位数持续时间的增加,个人储蓄率会下降。 未堆积面积图表很好地展示了这种现象。

45. 日历热力图 (Calendar Heat Map)

与时间序列相比,日历地图是可视化基于时间的数据的备选和不太优选的选项。 虽然可以在视觉上吸引人,但数值并不十分明显。 然而,它可以很好地描绘极端值和假日效果。

注:需要安装 calmap 库

46. 季节图 (Seasonal Plot)

季节图可用于比较上一季中同一天(年/月/周等)的时间序列。

七、分组 (Groups)

47. 树状图 (Dendrogram)

树形图基于给定的距离度量将相似的点组合在一起,并基于点的相似性将它们组织在树状链接中。

48. 簇状图 (Cluster Plot)

簇状图 (Cluster Plot)可用于划分属于同一群集的点。 下面是根据USArrests数据集将美国各州分为5组的代表性示例。 此图使用“谋杀”和“攻击”列作为X和Y轴。 或者,您可以将第一个到主要组件用作X轴和Y轴。

49. 安德鲁斯曲线 (Andrews Curve)

安德鲁斯曲线有助于可视化是否存在基于给定分组的数字特征的固有分组。 如果要素(数据集中的列)无法区分组(cyl),那么这些线将不会很好地隔离,如下所示。

50. 平行坐标 (Parallel Coordinates)

平行坐标有助于可视化特征是否有助于有效地隔离组。 如果实现隔离,则该特征可能在预测该组时非常有用。

原文标题:

Top 50 matplotlib Visualizations – The Master Plots (with full python  code)

原文链接:

https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/

]]>
想从事数据行业?你必须掌握这个最核心的技能 //www.otias-ub.com/archives/797744.html Mon, 19 Nov 2018 06:14:05 +0000 //www.otias-ub.com/?p=797744
 大家对数据科学家的预期是应该懂很多——机器学习、计算机科学、统计、数学、数据可视化、沟通,以及深度学习。这些领域牵涉到很多的语言、框架以及技术的学习。数据科学家要想成为雇主想要的那种人才的话,应该把学习的精力放在哪些地方呢?

我到求职网站去寻找对数据科学家最迫切的技能需求是什么。我看了一般的数据科学技能,也分别看了对语言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求职列表。下面这张图列出了每个网站对数据科学家的需求数量。

我看了很多求职列表和调查以找出最常见的技能。像管理这类的术语就不进行比较了,因为可以用到的场合太多了。

所有的搜索都是针对美国,使用了“data scientist(数据科学家)”、“[keyword]”作为搜索关键字。采用精确匹配以减少搜索结果数。然而,这个方法确保了结果对数据科学家职位是相关的,并且对所有搜索术语都产生类似的作用。

AngelList提供的是列出数据科学家岗位的公司数而不是岗位数。我把AngelList从所有分析里面排除掉了,因为其搜索算法似乎按照OR型的逻辑搜索进行,没有办法改成AND。如果你寻找的是“数据科学家”“TensorFlow”的话,AngelList也没问题,因为这只能在数据科学家岗位里面找到,但如果你的关键字是“数据科学家”“react.js”的话,它返回的结果就太多了,其中会包括一大堆非数据科学家的岗位列表。

Glassdoor也被排除在我的分析之外。该网站声称在美国有26263个“数据科学家”职位,但是显示出来的却不超过900个。此外,它上面的数据科学家岗位数超过任何其他主流平台3倍以上似乎极不可能。

LinkedIn上超过400个岗位列表都提到的通用技能以及超过200个岗位列表都提到的特别技术被纳入到最终分析里面。当然,这两者之间会有一些交叉。结果已经被记录进这张Google Sheet 里面。

我下载了.csv文件并且导入到JupyterLab。然后我计算了出现比例并求出求职网站之间的平均数。

我还将软件结果跟GlassDoor的一项研究(2017年上半年,针对数据科学家岗位列表)进行了对比。再结合KDNuggets使用情况调查的信息,似乎一些技能正在变得越来月重要,而其他一些的相关性则在下降。后面我们会细谈。

互动式图表可以到我的Kaggle Kernel上面去看,额外分析可参见此处。可视化我用的是Plotly。为了本文结合使用Plotly和JupyterLab可费了一点功夫——相关指令可到我的Kaggle Kernel找,另外这里也有Plotly的脚本。

通用技能

下面这张图反映的是雇主寻找最频繁的数据科学家通用技能。

结果表明,分析和机器学习是数据科学家岗位的核心技能。从数据中发现洞察是数据科学的主要职能。机器学习则是要创建系统来预测表现,这是非常亟需的技能。

数据科学需要统计和计算机科学技能——这一点并不出奇。统计分析、计算机科学以及数学也是大学的专业,这大概对其出现频率有帮助。

有趣的是沟通在将近一半的岗位列表中被提到。数据科学家需要将洞察与工作与他人进行沟通。

AI和深度学习的出现频率没有其他一些属于那么频繁。然而,它们都属于机器学习的子集。机器学习过去由其他算法执行的任务正在被越来越多的深度学习算法替代。比方说,大多数自然语言处理问题最好的机器学习算法现在都是深度学习算法。我预计深度学习技能在未来的需求会更加迫切,而机器学习也将日益变成深度学习的同义词。

此外,哪些数据科学家的软件工具是雇主想要寻求的呢?下面我们就来看看这个问题的答案。

技术技能

以下是雇主希望数据科学家掌握的排名靠前的20种语言、库以及技术工具。

我们大概看一下其中最常见的技术技能。

Python

Python是需求最旺盛的语言。这门开源语言的流行度已经被很多人注意到。它对初学者很友好,有许多支持资源。绝大部分新的数据科学工具都兼容它。

Python是数据科学家的主要语言。

R

R语言并不比Python落后多少。它一度是数据科学的主要语言。我反而对它的需求依然如此旺盛感到吃惊。这门开源语言的根在统计,至今在统计学家那里仍非常流行。

Python或者R几乎是每一个数据科学家岗位的必须。

SQL

SQL的需求也很高。SQL即结构化查询语言(Structured Query Language),是与关系式数据库的主要交互方式。SQL有时候会被数据科学界忽视,但这是一门值得掌握的技能,如果你打算切入求职市场的话。

Hadoop、Spark

接下来是Hadoop和Spark,这两个都是出自Apache的大数据开源工具。

Apache Hadoop是一个利用商品化硬件搭建的计算机集群对超大规模数据集进行分布式存储和分布式处理的开源软件平台。

Apache Spark是一个有着优雅的、富有表现力的API,可让数据工作者高效执行需要对数据集进行快速迭代存取的流处理、机器学习或者SQL负载的快速内存数据处理引擎。

相对于其他,这些工具在Medium和教程中被提及的次数少了点。我猜具备这些技能的求职者要比具备Python、R和SQL技能的求职者少得多。如果你掌握了一定Hadoop和Spark经验的话,应该可以在竞争中获得优势。

Java、SAS

然后是Java和SAS。这两门语言地位这么高倒是出乎我的意料。其背后都有大公司的支持,支持至少都提供了一些免费的产品。不过Java和SAS在数据科学社区受到的关注都很少。

Tableau

对Tableau的需求次之。这个分析平台和可视化工具非常强大,易用,而且越来越流行。它有一个免费的公共版本,但是如果你想数据保持私有的话得花钱。

如果你对Tableau不熟悉的话,到Udemy上一门Tableau 10 A-Z快速了解一下绝对是值得的。声明一下啊,我这么建议可不是拿了佣金的——那是因为我上过这门课之后发现它的确有用。

下面这张表反映的是更大范围内的语言、框架等数据科学软件工具的需求情况。

历史对比

GlassDoor对2017年1月到7月间数据科学家10大最常见的软件技能进行了分析。以下是那些术语出现的频度相对2018年10月在LinkedIn、Indeed、SimplyHired及Monster上出现频度平均数的对比。

结果相当类似。我的分析和GlassDoor的分析都发现Python、R及SQL都是需求最旺盛的技能。两份分析发现的需求前9大技术技能都是一样的,尽管顺序方面略有不同。

结果表明,相对于2017年上半年,R、Hadoop、Java、SAS及MatLab现在的需求略微下降,而对Tableau的需求则在上升。加上KDnuggets开发者调查这类的辅助性结果,我想这就是我预期的结论。R、Hadoop、Java和SAS均呈现出多年的下降趋势,而对Tableau则显示出明显的上升势头。

建议

基于这些分析的结果,以下是对当前和想要成为数据科学家的人提供的提升自我价值的建议。

  • 证明你可以进行数据分析并且专注机器学习,要变得非常擅长。
  • 对你的沟通技能进行投资。我建议去读读《Made to Stick(让创意更有粘性)》这本书来让你的想法产生更大影响。此外还可以用Hemmingway Editor这款app改进写作的清晰性。
  • 掌握一种深度学习框架。精通一种深度学习框架在精通机器学习中占据了越来越大的部分。深度学习框架在使用情况、流行度等方面的对比情况可以看我的这篇文章。
  • 如果你要走学习Python和R语言之间做选择的话,选Python。如果你对Python不感冒,那就选择R。如果你也懂R的话在市场上一定会更加抢手。

当雇主寻找懂Python技能的数据科学家时,他们可能也会预期应征者了解常见的python数据库库:numpy、pandas、scikit-learn以及matplotlib等。如果你想学习这里提到的工具的话,我建议你看看以下这些资源:

  • DataCamp 及 DataQuest——均为定价合理的在线SaaS数据科学教育产品,可以一边编码一边学习。这两个都教若干的技术工具。
  • Data School上面有各种资源,其中就包括了一套很好的YouTube视频,里面解释了数据科学的概念。
  • McKinney的《Python for Data Analysis》。这本书是pandas库的主要作者写的,聚焦的是pandas,同时也讨论了python基础、numpy以及scikit-learn的数据科学功能。
  • Müller & Guido的《Introduction to Machine Leaning with Python》。Müller是scikit-learn的主要维护者之一。这本书非常优秀,是学习用scikit-learn做机器学习的好读物。
  • 如果你寻求去学习深度学习的话,我建议先从Keras 或者 FastAI 开始,然后再转到TensorFlow或者PyTorch。Chollet的《Deep Learning with Python》是学习Keras的好资源。

除了这些推荐以外,我还建议你学习自己感兴趣的东西,尽管在决定如何分配学习时间方面显然有很多考虑因素。

LinkedIn

如果你要通过在线门户找数据科学家岗位的话,我建议你从LinkedIn开始——这个地方总是有最多的结果。

如果你在求职网站上寻找工作或者职位的话,关键字很重要。每个网站搜“数据科学”返回的结果数几乎是“数据科学家”的3倍。但如果你要找的就是数据科学家的工作的话,最好还是搜索“数据科学家”。

无论你去哪里找,我建议你要制作一份在线作品集来证明你擅长许多亟需的技能。我也建议你在LinkedIn档案上展示你的技能。

原文来自:towardsdatascience.com  编译自:36Kr

]]>
如何将数据可视化技术应用于广告投放? //www.otias-ub.com/archives/637562.html Tue, 26 Sep 2017 09:28:13 +0000 //www.otias-ub.com/?p=637562

果试着想象各行星运动的轨迹,你的脑海中会出现什么,是杂乱无章的线条还是一张按照经度变化排列的一维线图?这就是数据可视化最简单同时也是最经典的案例之一。

从托莱多到罗马的经度差异图

Michael Florent van Langren (1600–1675)

绘制于1644年

被认为是第一幅(已知的)统计图形

通过数据可视化工具,可以将原本枯燥无味的数据和表格,变得绚丽多彩。如何轻松掌握数据可视化技术,并将其更好地运用到日常的广告投放中?互动通产品研发部Tony深度分析了数据可视化在广告投放中的应用

什么是数据可视化?

数据可视化是指通过不同形状(form)、位置(position)、大小(size)、数值(value)、方向(orientation)、颜色(color)、质地(texture)的图形图像,将大型数据集中进行展示,并利用数据分析和开发工具发现其中未知信息的处理过程。

它的基本思想是将数据库中每一个数据项作为单个图形元素,把大量的数据集转化为数据图像,同时数据的各个属性值以多维数据的形式表示,方便使用者从不同的维度观察数据,对数据进行更深入的观察和分析。清晰有效地传达与沟通信息是数据可视化最重要的优势之一。

从原理上来看,数据可视化一般涉及二类数据(纬度和量度)的展示。因此,在Tony看来,总体来说数据可视化工具的理解和使用一般都不太复杂,只要选择适当的工具和模板,数据可视化其实非常简单。

目前主流的数据可视化工具有:Echarts,DataV,D3,Kibana,Tableau和Quick BI等。大部分数据可视化工具不仅支持拖拽式的便捷操作,同时兼顾数据展示和数据分析,能够满足企业日常的商业智能(BI,Business Intelligence)需求。部分可视化工具还支持生成h5格式的页面,方便用户在移动端进行查看和传播。

实现数据可视化应用的技术包括:JS(JavaScript),Flash,H5,SVG。在用到地图展示的时候还需要常常用到相关地图软件的API(Application ProgrammingInterface,应用程序编程接口)。

广告投放涉及流量方、投放方、代理方,在投放过程中,各方都需要对流量、竞价、曝光、点击进行监控,以便做出正确的决策。目前,业界的很多广告投放系统中,数据显示还是以二维表格的形式存在。如果加上数据可视化的应用,数据的清晰性和直观度以及系统本身的实用性都会大大增强。

Tony以广告投放不同阶段的需求为导向,展示了数据可视化技术在广告投放中的应用和效果。当然,一切的前提建立在数据实时搜集和处理的基础上,没有真实数据做依托,数据可视化只能流于形式。

投放前:确定平台前端的流量与曝光

通常,代理公司对大的平台方的流量有一定的预判,但是要准确评估不同平台方的差异,难度较大。同时市场中大量存在的规模较小的流量平台无法得到准确的认知和评估。通过气泡图(Bubble)模型,导入平台的流量分布数据,不同的颜色、大小的气泡,分别代表不同媒体的流量大小,有助于快速、全面地掌握各平台的流量分布情况。

确定流量后,还需要对流量方的曝光情况进行评估。在一定时间段内,PC端和移动端的曝光总体情况以及各平台方在不同渠道的曝光表现如何,这种曝光与平台方流量大小之间是否存在关联?这些问题没办法用三言两语简单说清楚,但对于广告投放的平台选择来说至关重要。

在数据可视化模型中,彩虹爆炸图(sunburst)呈现树形结构和发射状布局,层层发散,不同的圈层代表不同维度,同一圈层的不同面积、颜色代表不同的数值和分类。

以上述问题为例,图表的核心圈层代表总曝光,外一层代表不同的PC端/移动端,再下一层细分出各平台方。只需一张图表,就可以清晰展示出曝光总体分布情况。简单对比二者的彩虹爆炸图,就能轻松掌握和评估各平台在不同渠道的流量与曝光状况。

投放中:广告在投放平台的曝光和点击监控

在广告投放中,以流量、曝光、点击、竞价、成本为维度,做雷达图(radar)对广告投放进行监控时,按照正常思维,这个图形应该呈现同心环状分布,即高流量带来高曝光和高点击,同时,广告投放在该平台完成的竞价次数和成本也是最多的,因此广告的总投放成本最高。

实际上,情况要复杂得多。pv低的流量方,有可能出现高的曝光,虽然最终完成的竞价多,但整体成本可以控制的较低。综合掌握各流量方的流量、曝光和点击情况,才能在广告投放时做出更加科学、理性的选择。

实时监控是广告投放监控最理想的状态。在数据可视化中,应用较多的是以区域为纬度的实时动态展示。就曝光来说,在一张地图中展示各地区的实时曝光情况,能够实时对比广告在不同地区的投放效果。当然,在实现数据搜集和处理的基础上,除了区域这一维度之外,数据可视化还能实现其它纬度的定制化广告投放实时监控。

投放预测:基于投放数据分析的可视化

与展示相比,分析和预测在数据可视化中更为重要。广告投放完成后,会产生大量的投放数据,包括投放时间、投放效果等等。通过日历图(calendar),绘制不同时间、不同品牌的投放需求热度,进而预测投放趋势,就能有的放矢,为客户在下一轮的广告投放中占得先机。

“数据可视化虽然会用到很多技术,但是如果形成成熟的模板,即使是普通用户,通过简单的培训也能够掌握使用方法,这对广告投放是非常有益的。将来在我们系统中会加入更多可视化的内容。”

]]>
数据可视化“信息传达”和“视觉美观”的天平两端,你选择站哪边? //www.otias-ub.com/archives/595115.html Thu, 18 May 2017 17:28:39 +0000 //www.otias-ub.com/?p=595115
这篇文章来自数据可视化设计师Lisa Charlotte Rost,目前作为自由设计师为新闻社工作。数据可视化中,视觉美观常常能够促进对数据集的理解,从而实现数据集信息的呈现。但,如果是为美而美,效果往往适得其反。因此,数据可视化和数据美学艺术有时确实应该要有所区分。

天平两端,如何选择?

信息传达(Information Art)和美学设计(Information Design),需要区分对待吗?对此,交互设计师 Manuel Lima在2009年写了一篇文章,在推特上引起了激烈的讨论。有评论认为区分是必要的,能够推进这两个领域的发展;也有观点认为区分并不能够使任何一方受益,并且认为明确的区分难以实现。

其中,有评论反复提及:为了表达深刻见解,数据可视化必须要具有美感。网友Kim Rees在Manuel Lima的文章下评论:

可视化应该要给人浑然一体的感觉,既能传递信息,还要吸引人。就像建筑,有的建筑师可能仅专注于结构,而不是审美;也有的只注重审美,而忽视结构。仅有少数的伟大建筑师能够真正创造出兼具结构与美感的建筑。我个人坚信,美学对于条理情晰的数据可视化,相当关键。

在此前有人提出的“对信息艺术和信息设计作出区分,能够推进这两个领域的发展”的观点支撑下,我个人支持以上的评论。但是我想要在她观点的基础上做一些延伸。对此,我将使用Kim Rees提到的数据可视化的目标:

a)传递信息,使数据深刻并且提升读者对数据的理解,使数据更具意义。

b)美观,在视觉上能够愉悦读者。

对我来说,第一点——理解——是数据可视化的终极目标。这可以意味着对一个观点进行证明,对某一个话题进行概述,或者为了达到深刻的理解去优化一个探索性的数据可视化。

注:图表纵轴是数据可视化的理解力,横轴是数据可视化的美学成分。红色圆圈是数据可视化中最差的情况,只顾美学,不顾理解力;绿色圆圈是数据可视化的最好情况,作品的理解力达到最大值,同时也兼顾了美学成分。

传达信息的时候:实用+美观>单纯实用>单纯美观

如何增加对某一个数据可视化的理解?除了选择正确的数据点之外,美学可以促进理解——以更合适的方式来构建内容,让它变得更具可读性,或者是能够首先抓住读者的注意力。

但是美学元素的增加仅仅意味着在某种程度上能让读者达到更好的理解。这句话的意思是,同样深具意义,一个难看的图表会比一个可读性强的图表看起来差劲许多,而这主要归因于美学元素的添加。

但是一个深具意义的图表如果太过专注于美学和视觉上的创新的话(这会适得其反,降低可读性),反而会比那些“相貌平平”的图表更糟糕。举个例子,在对一个数据集进行设计时,如果条形图是最能被理解的方式,选择一个环形可视图也许看上去会更美,但也会增加理解的难度。设计界流传着这样一个不等式:

能够促进理解的审美元素>不具美感的意义呈现>降低理解的审美元素

或者,以另一种方式来表达:

意义表达+美感>仅表达意义>仅有美感

但是,只有在讨论数据可视化,以及为了达到让数据实现更具洞察力这个目的时,这个不等式才能成立。在数据艺术中,美学可以被允许,甚至有时是必须放在第一位的。“过多的美学元素”或者“仅有审美”也可以是一件好事。不再完全依靠于理解,可以极大程度地改善使视觉体验。

若是单纯为了艺术,不妨再果敢一点

注:图表纵轴是数据可视化的理解力,横轴是数据可视化的美学成分。绿色圆圈数据美学的最好情况,此时不考虑对数据理解。

一个例子:我找到一些可以愉悦视觉的NYT和Periscopic的图表——这些图表在视觉上令人愉悦,而这有助于传递数据的意义。但是Jorinde Voigt(德国艺术家)的图震慑到我了! “对信息而言,数据本身并不那么重要,但是它可以用来传递一个更高深、超群的体验”,我在几年前写的一篇大学论文中就提到了Jorinda Voigt的成就。

注:图为德国艺术家Jorinda Voigt的作品。

当然,我们要明白艺术不仅仅是美学。但是许多人完全是被数据可视化内含的美丽所吸引的。他们喜欢数据可视化,是因为它结合了“一些严肃的东西(数据)”和“一些美丽的东西(可视化)”。数据可视化使得他们能够接触到美学。他们购买了《数据流(Data Flow 2: Visualizing Information in Graphic Design)》这本书(主要讲述在图表设计中对信息进行可视化),被它的美观所惊艳并想要复制它。但是这导致为了让数据可视化更加美观,从而降低了可阅读性的结果。

注:图表纵轴是数据可视化的理解力,横轴是数据可视化的美学成分。上面的绿色圆圈表示的是数据可视化应该达到的最好情况,下面的绿色圆圈表示的是数据美学应该达到的最好情况。

我想让人们发现数据的艺术,坚守他们对于数据美学的热忱,而不再是将数据艺术作为数据可视化的售卖点。更切确地说:“可视化部分并不能告诉你任何关于数据点的信息。”

来自:镝次元数据传媒实验室

]]>
如何设计成功而有价值的数据可视化? //www.otias-ub.com/archives/572223.html Sun, 12 Mar 2017 02:45:12 +0000 //www.otias-ub.com/?p=572223
  【what】什么是数据可视化?

塔夫特所说,“图形表现数据。实际上比传统的统计分析法更加精确和有启发性。”对于广大的编辑、设计师、运营分析师、大数据研究者等等都需要从不同维度、不同层面、不同粒度的数据处理统计中,借助图表和信息图的方式为用户(只获得信息)、阅读者(消费信息)及管理者(利用信息进行管理和决策)呈现不同于表格式的分析结果。数据可视化技术综合运用计算机图形学、图像、人机交互等,将采集、清洗、转换、处理过的符合标准和规范的数据映射为可识别的图形、图像、动画甚至视频,并允许用户与数据可视化进行交互和分析。而任何形式的数据可视化都会由丰富的内容、引人注意的视觉效果、精细的制作三个要素组成,概括起来就是新颖而有趣、充实而高效、美感且悦目三个特征。

  【why】为什么要进行数据可视化?

无论是哪种职业和应用场景,数据可视化都有一个共同的目的,那就是准确而高效、精简而全面地传递信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。并且利用合适的图表直截了当且清晰而直观地表达出来,实现数据自我解释、让数据说话的目的。而人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍。因此,数据可视化能够加深和强化受众对于数据的理解和记忆。

 【how】如何实现可靠的数据可视化

数据可视化包括数据的采集、分析、治理、管理、挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,或许是二维图表、三维立体视图,不管是什么样的信息图,最后由前端工程师创建对应的可视化算法及前端渲染和展现的实现。如果仅仅是能够将数据转化成漂亮的图表,设计出固定维度、不同式样的图表来解释你的观点,并不说明这样的结局就足够好。这只是一个简单的开始,只是一个美好愿望的萌芽。如果要成功报告结果,将你所分析的度量和数据有效地转化为有商业价值的见解,使其能够为基于事实所做的决策提供支持,那么还需要做更多的功课。

色彩提升信息可视化的视觉效果。在信息可视化通过造型元素明确传达信息及叙述的基础上,把握好视觉元素中色彩的运用,使图形变得更加生动、有趣,信息表达得更加准确和直观。色彩可以帮助人们对信息进行深入分类,强调和淡化、生动而有趣的可视化作品的表现形式,常常给受众带来视觉效果上的享受。当然,视觉效果要将企业品牌的色调融合进去,和企业的品牌文化保持高度的一致,这是一个最基本的常识。比如,如果企业的品牌色调比较热衷红色,你设计的可视化效果,就要有意识地朝着这个基调靠拢。但没有必要吻合,因为红色的可视化效果,通常都包含警示的韵味,所以,红色适合做预警、提醒和突出信息的功能。

排版布局增强信息可视化的叙事性。我有酒,你有故事吗?排版布局四大基本原则:

(1)对比(Contrast):如果两个项不完全相同,就应当使之不同,而且应当是截然不同。

(2)重复(Repetition):设计的某些方面在整个作品中重复。

(3)对齐(Alignment):任何元素都不能在页面上随意安放。每一项都应当与页面上的某个内容存在某种视觉联系。

(4)亲密性(Proximity):将相关的项组织在一起,使它们的物理位置相互靠近相关的项将被看作凝聚为一体的一个组。

动态增加信息可视化的视觉体验。在信息可视化的视觉表达中,动态地将相互分离的各种信息传播形式有机地融合在一起,进行有关联、有节奏的信息处理、传输和实现。最终的目的是,为了实现数据之间的联动,解释数据表现之间驱动和联系的关系。通过图表样式和色彩的运动,满足受众的视觉感受,同时将信息内容更加深刻而精简地传达给阅读者,使整个信息传达的过程更加轻松便捷。对于数据可视化有诸多工具,如:ECharts、iCharts、D3js、Flot、Rapha?l等功能都十分强大,但对于非专业可视化而又经常与图表打交道的职场人士来说,一款轻便易学而又实用的可视化软件则显得十分重要。比如cognos、tebleue等。如果需要展现的数据结构不是特别复杂,而又要把数据展现的绚丽多彩,而且具有交互性,那么水晶易表是不二之选。

 1.谁是你的阅读者?

无论你是否在做一份传统的报表还是新式的信息图,首先问问自己有哪些阅读者看到这份报告?他们对将要讨论的事项了解多少?他们需要什么?、还有,他们会如何利用你要展示的信息和数据呢?而我在《一份靠谱的数据分析报告都有什么套路?》里讲过,明确清晰的分析目标和方法会有多重要,因为只有明确分析目标,才能有一个良好的驱动过程。无论是目标驱动还是分析过程驱动,后续的数据分析工作和分析报告里所要呈现的全部内容事项都是紧紧围绕着这个目标主题而服务的。

 2.规划数据可视化方案

数据可视化方案,是一定是能够解决用户特定问题的。既然是能够解决用户特定的问题,那么这样的高度,是在基于你在深入地理解了这些数据的现象和本质的基础之上。简单来说,就是你的可视化方案,不仅懂得并且能够很好地解释数据分析的结论、信息和知识。并且管理者能够沿着你规划的可视化路径能够迅速地找到和发现决策之道。

举例来说,当企业的业绩不达标时(企业的业绩是否达标,关系到企业最关键的利益和存亡。)可视化方案的设计路径应该是这样的:

Step1,从整体运营出发,明确有哪些关键因素会影响成交和业绩。

比如:有效名单、demo品质、客服服务、产品属性等,相应地去看这些关键因素对应的KPI的表现,对整体的业绩来讲,这些因素都会是驱动因素,这些因素对应的KPI都会是对STV有直接驱动和影响作用的。这些驱动数据的可视化是基础,也是寻找解决方案最终的出发点和落脚点。因为,这些数据的表现,是关乎运营成功与否的最直接视图。

Step2,对关键因素深入分析确定是什么因素导致了业绩没达成,发现和挖掘导致业绩未达标的根本原因和问题。

比如:

1、对比分析,逐一观测201601月-201612月全部关键因素对应的KPI的表现,对比成交业绩最高的月份和成交业绩最差月份的关键因素对应的KPI差异在哪里,能够快速定位出哪些方面、哪些因素导致业绩未达标。然后能够有针对性地驱动和帮助业务部门去改善。

2、追踪对成交和业绩有驱动和改善的行动方案的落地和实施进度,存在什么样的问题,是否存在行动方案的执行不力影响了业绩达标。

Step3,针对这些问题因素,有的放矢地去做改善和探索提升业绩之道。

否则,设计再商业绚丽的可视化图表,如果不能快速地得到信息和商业决策建议和方案就毫无意义。可视化仅仅成了虚假和欺骗,华丽而不务实的结果。基于准备好的全部的这些问题所得出的答案,就要开始定制你的数据可视化方案以满足每个决策者的特定要求。数据可视化始终都应该是为其受众专门定制的,这样的报告里只应包括受众需要知道的信息,且应将这些信息置于和他们有关并对他们有意义的背景下。

 3.给数据可视化一个清晰的标题。

当你的报告像一份报纸、杂志的新闻一样。从这个标题,就能给阅读者强烈的冲击。一个清晰的标题是能够很好地阐释报告和故事的主题,是对整个报告和故事概括的信息。当然,并不是鼓励运营分析人员去做“标题党”。好的标题,既不要模棱两可,也不要画蛇添足,只要解释清楚图表即可。这有助于帮受众直接进入主题。这样能让读者大致浏览文件,并能快速抓住核心所在。尽量让你的标题突出。

 4.将数据可视化和你的策略、方案联系起来

如果数据可视化的目的在于介绍能解决具体的、可衡量的、可执行的、有相关性和时效性问题的数据,那就在开场白里加上这些问题。稍后再和你的策略连接起来以理清这些数据的定位,因此,读者便能立刻明白可视化数据的相关性和价值。最终,他们便能更好地参与进来,并能够更明智地利用这些信息。数据可视化,最终时为了企业良好的运营而服务的,这是它的商业价值。如果你不关注企业的战略和行动方案,很难建立起具有联动价值的信息图。比如,企业执行的行动方案,通常是为了达成和实现企业的战略目标,通过这样的手段实现精益管理和精益运营。所以,可视化的解决方案要能够做到,行动方案对战略目标的驱动效果、个体、团队对部门整体指标、KPI的驱动和影响效果。只有建立起来具有联系的信息视图,才会获得有价值的数据可视化。

 5.明智地选择你的展示图表。

不管使用哪一类图表,bar图、折线图、雷达图等等,每一种图表都有它自身的优点和局限性。你无法找到完美的可视化图表。但你可以通过尝试混合展现方式让可视化表现再人性化一点点。所以的可视化效果,都应该尽可能简单精准地传达讯息。这就意味着:不论有多新潮、多好看或者多绚丽,这都不是设计数据可视化的初衷。诚然,我们在持续地并且永不满足地追求数据之美。但最佳的平衡点在于,用合适的数据可视化开阐释恰到好处的信息和知识的价值之美。

▪ 只用有关联能传达重要信息的且为你的受众所需要的图形。

▪ 无需填满页面的所有空白——太多杂乱的内容只会干扰对重要信息的接收,会让人太难记住,又太容易忽略。

▪ 恰当运用色彩,增加信息深度。同时要注意有些色彩具备潜在含义。举例来说,红色被认为是代表警告或危险的颜色。适合预警额。

▪ 不要使用太多不同类的图表、表格和图形。如果需要对比各种图表,要确保你阐述数据时使用的是同类的图表,这样才能便于互相比较。

 6.在恰当处备注文字说明

文字说明有助于用语言解释数据,并能在情境化图表的同时增加内容的深度。数字和表格或许仅能提供快照,而文字说明则让人对关键处了解更多,加以评论并强调其内涵。引导观看者去思考图形的主题,而不是方法论、图形设计、图形生成或其他东西。

▪ 避免歪曲数据原本的意图。

▪ 让庞大的数据集连贯一致。

▪ 吸引读者将不同的数据片段进行比对和比较,突出重点和优劣。

▪ 主旨要相当明确:描述、挖掘、作表、可视化自我解读。

来自:产品与项目微刊

]]>
用VR做数据可视化的正确姿势是什么? //www.otias-ub.com/archives/546373.html Wed, 14 Dec 2016 15:07:43 +0000 //www.otias-ub.com/?p=546373 数据可视化是少数几个 VR“布道者”非常喜欢说道的利用虚拟现实可能产生变革的领域之一。但是究竟应该如何做呢?现今的数据可视化领域又有什么问题呢?本文对传统的数据可视化的几个具体问题进行挖掘,讨论理解抽象信息方面的难题,并探讨VR如何改变这一切。

本文原作者Evan Warfel,虚拟现实数据可视化公司 Kineviz 的项目经理,曾经任 HID 环球集团数据科学家,毕业于U.C. Berkeley 的认知科学专业。 工作之余,他还研究人类制定决策的过程问题。

1481727976-9231-58483164ea3d1

谈论数据和虚拟现实的问题有点像鸡和蛋的问题——如果不知道人们会如何使用 VR 数据工具,就很难设计良好的VR数据工具。话虽如此,但虚拟现实可以帮助我们提升概率思维、多维数据的可视化、高密度信息的展示、以及提供情境使人们更全面地理解问题。

高维度数据的可视化

“图像是优秀数据分析的关键”——F.J.Anscombe

如果是二维或者一维数据集,相应的可视化方法非常简单,使用图或表格即可。

1481727976-3165-584831a3794d2

上面是著名的 Anscombe 四幅图,其中每个数据集有着同样的均值、相关系数、方差和最优拟合线。

上面的每一个数据集中,X 的均值都是 9,Y 的均值都是 7.50,X 的方差都是 11,X 和 Y 的相关系数是0.816,最优拟合线的方程都是 Y=3+5x。换句话说,这四个数据集即使在实际看来,他们本身是完全不同的,但在统计意义上他们却是相等的。然而这还是最简单的,因为我们只处理了二维数据。

如果是三维数据,你会想当然地使用三维图像。但是如果是更高维度的数据呢?比如 Excel 表中很多行很多列的数据,你可能就无从下手了。实际上,超过三维的数据集都不可能在超三维空间中进行可视化。

然而,还有其他表示维度的方法。比如说,可以用一个三角形三边的长度来表示一个数据的三个维度。如果你愿意,你还可以在三角形中间标注红蓝光谱或者明暗光谱中的颜色,这样你就可以在一个可视化图中展示五个连续维度。比较每一个三角形,你就可能发现一些异常或者一些隐藏模式和关系。这就是理论的原理所在。

Herman chernoff 在70年代发展了这种理论的变异形式,他不使用三角形的边长,他用卡通脸谱的不同特征来代表数据的不同维度(切尔诺夫脸)。

1481727976-8307-58483219ee196

图中显示了 1977 年洛杉矶的生活状况。四个脸部特征,加上地理分布和社区分布,这张图显示了一个 6维数据。

你的直觉应该会不喜欢这种数据表示的方法,因为它不好解释,看起来有点愚蠢,也似乎有些种族歧视的意思。但是我建议你再好好观察一下——你能看到贫穷和富裕之间的缓冲地带吗?

切尔诺夫脸应用不够广泛的一个原因在于,它看起来过于卡通化(科学可是非常严谨的,用这种卡通脸似乎不太适合)。虽然切尔诺夫脸有着这样的缺点,但是它强调了这样一个事实:即是他们看上去很直观,但是我们因为对脸型和表情有太多经验,所以对一个结构化的脸的评论会有任意性。

看下面的图片,Tim Cook 的脸的不同特征(比如眉毛的弯度),可以代表 Apple 不同年份年的各种财务信息。

1481727976-4008-5848327e70c13

三个 Tim Cook 脸的不同版本代表了 Apple 各年的财务信息。Tim Cook 的鼻子的宽度表示 Apple 的负债数量;Cook 嘴的开合程度代表了每年的利润;他眼睛的大小代表了每股收益;等等。

虚拟现实可以解决上述的一些问题。除了这些脸型表示,还有一些“切尔诺夫类”的技术可以应用于对物体的形状、移动、交互和分布的控制。比如,下图这个桌子的性质可以代表不同的数据维度:高度、桌面的面积、颜色、桌腿的长度、桌子的光洁度、桌子的类型、污点的位置等等。如果你有一个 15 维的数据,你可以用不同因素的维度来控制你桌子的形态。

1481727976-7164-584832aa6cafd

VR 的好处在于,它可以让你通过直观地比较两个桌子的高度或者桌面的摩擦力系数的不同来理解其代表的因子维度的不同。一些实验表明,维度间的差别程度的不同可以带来感知权重的不同。

另外,关于这种方法的研究已经覆盖到心理学和颜色感知的领域。研究者们花费了大量时间测量人们在不同的知觉中如何感知微小和巨大的区别。换句话说,借助 VR 和一些心理学知识,可以使人们理解复杂数据像逛宜家一样简单。

高密度的图像

由于一个数学史上不幸的意外,某种由点和连接线组成的东西也可以叫做图像,比如下图:

1481727976-8084-584832e93a5a7

维基百科的力导向图

图中每个点代表了一个维基页面,每条线代表着页面间的联系。

数据点之间抽象的关系用图像表示是非常直观的,尤其是在这些联系的类型和数量十分重要的情况下。比如,下图展示了酵母菌和酿酒酵母之间每个基因的关系。

1481727977-7598-58483332b62f5

左边是一个代表一个酵母菌基因组的节点边缘图;右边是基因的重要聚类图

有趣的是,上面这些图的内部都非常复杂。如果你去查找“巴拿马文件”的数据集,你会发现跟上面这些图一样,图像中的连接线非常复杂。

事实是,大多数图像会因为中心部分重叠在一起的复杂连接线而变得难以理解。但是我们最初是因为要看清事物间的关系才使用这些图像。

正如你可能想到的,三维图像可视化能让我们在理解上更加容易。比如下图是一个三维的可视化图像,展示了大脑中不同的连接网络。

然而,我们应该发现,这些数据的可视化图像仍然有过于密集的问题。即使作图者已经使用算法把连接线整合在一起了,我们还是很难从图像中明白对象之间究竟有怎样的联系。想象一下,如果你能够走进图中的大脑里,那你可能更容易就能理解脑中到底发生了什么。

内容提供式的数据可视化

请对比一下图表:

1481727977-8759-5848336d503ef1481727977-2985-5848337aa7def

两张图使用了同样的数据,但第一幅图却是 2015年 最误导人的图表之一。

上面的图表作为一张静态图像,其误导性来自于它改变了数据的大小、形状和比例。因为我们看到内容,会想到我们的日常体验。

使用虚拟现实进行数据可视化的一大好处是,我们可以不用仅仅展示静态表示图,每一张VR表示图都可以自动变成一种体验。这意味着读者可以根据自己的意愿来探索一张图。

VR的拯救作用

当然,VR 数据工具目前仍在初级阶段。下面是三个例子,可以生动地说明我上文中提到的内容。

CalcFlow

第一个要介绍的是 Calcflow,这是加州圣迭戈分校的数学系研发了用于对 3D 数学概念的可视化工具。目前,它建立了一系列交互式展示,人们可以通过展示直观地理解二重积分和粘性流体方程等问题。你可以体验到 VR 的一些好处:可以改变观察数据的尺寸,可以在数据中“穿梭”,是的数据更易理解。这种体验式的展示特点意味着用户可以做出自己的调整,并观察这些调整在多维中是如何改变结果的。

DeathTools

DeathTools 的数据可视化是将抽象的数字变成真实可触知的世界,我们对这样的可视化数据的理解则完全不同于原有的数字和图像。比如,它将最近中东冲突中的累计死亡人数用尸体袋数量来表示,不同于查看柱状图,你仿佛真的站在成排的尸袋中,真实地体验战争的死亡人数。

正如 DeathTools 创始人 Ali Eslami 所说:“我们的知识储备中缺少一种感知大数字的能力。我们无法理解和接受大量的死亡。比如1、2、14、20、50 这种数字我们经常会遇到,所以我们会理性地对他们形成一种思维模式。但是当我们遇到 1000、10000、20000 时,这些数字的概念化会越来越难。但是我们仍然可以使用日常中体验大尺寸物品的视觉模型来理解大数字的意义。”

Kineviz

最近,我正在 Kineviz 上使用VR基础上的 3D 图像工具。这个工具专门用来处理高信息密度数据的。并且,这个工具可以使用户直观地感受到数据的显著不同。

VR 的最大好处就是它可以使人们更轻易地感知数据间的差别,使得数据密度更低,更加直观。另外,VR也使得数据展示变得更加具有体验感,数据展示不再需要匹配一些预定的设置。最后,VR 可以让人们快速改变数据的尺寸,提高用户的空间感知力,实现过去很难想象的对数据规模的感知。

Via: roadtovr  雷锋网

]]>
17款工具,让你的数据更美观 //www.otias-ub.com/archives/532888.html Fri, 04 Nov 2016 10:30:35 +0000 //www.otias-ub.com/?p=532888   想让数据变得更好看?不必成为经验丰富的数据科学家,也不必成为平面设计师。

  有一些能让数据从简单的表格变成多种多样的图形,地图甚至词“云”。

并不是所有的工具都适合你,但这些工具确实很有用。

希望你不仅能从中学到新的技能和极具创新的工具,更能从中结合你自己的业务有新的发现。

1. Infogr.am

在Infogr.am网站中,你可以使用30多种图形和6种主题创建互动和可嵌入的图表。

1478255390-6626-3417eb9bbd90198644e556

  2. Fusion Tables

  谷歌Fusion Tables是一款数据管理应用,通过Fusion Table,用户可以快速生成相惜的图表,图形或者地图。用户还可以将图表与其他人协作并支持使用共有数据或私有数据。英国的《卫报》(Guardian)也使用这个工具哦~

1478255390-8534-3417eb9bbd90198644e557

  3. Piktochart

  Piktochart拥有大量免费的优质模版,可用于图表,报告,banner和演讲。

4. dygraphs

dygraphs是个开源的Java图表库,通过调用接口,用户可以直接把大型数据集制作成任何想要的形式。

1478255390-1936-3417eb9bbd90198644e558

  5. Timeline

  Timeline是由Simile发明的,可以让用户通过简单的滚动和水平拖拽而生成简单的交互时间轴。

1478255390-9103-3417eb9bbd90198644e559

  6. Leaflet

  Leaflet也是个开源的java库,用户可以创建友好互动的地图。

1478255390-2684-3417eb9bbd90198644e55a

  7. D3.JS

  D3.JS 是主要为基于HTML,SVG和CSS的操纵型文档设计的Java库。

1478255390-1800-3417eb9bbd90198644e55b

  8. Tagxedo

  Tagxedo 是一款简单的词云生成器。对于任意文本,都可以将单词提取出来,并根据其出现的频率调整单词的大小。

1478255391-9467-3417eb9bbd90198644e55c

  9. Easel.ly

  Easel.ly是一款非常简单好用的信息图形生成器,拥有好几百个模版,当然,如果你喜欢,也可以不用模版哦~

1478255391-5171-3417eb9bbd90198644e55d

  10. Creately

  Creately 可以制作有50多种图,包含几千个例子和形状库,支持实时协作。

1478255391-1423-3417eb9bbd90198644e55e

  11. Sisense

  Sisense 支持组合多个数据源,可以让用户从丰富的数据可视化数据中发现病分享见解。

1478255391-5457-3417eb9bbd90198644e55f

  12. Nuvi

  Nuvi是个高端的社交媒体可视化平台,用户可以创建实时可视化,监控主题或关键字并构建定制报告。

1478255391-7983-3417eb9bbd90198644e560

  13. Bime

  Bime是一个高端的数据和仪表盘云平台,其跨设备设计相当时尚。

1478255391-5730-3417eb9bbd90198644e561

  14. Color Brewer

  Color Brewer 由Penn State开发,是一款用于选择地图颜色的工具,用户可以用它来保证特殊区域的独立性。

1478255392-4945-3417eb9bbd90198644e562

  15. iCharts

  iCharts是一个可视化分析云平台,用户可以轻松嵌入,分享和收集图表。

1478255392-5737-3417eb9bbd90198644e563

  16. Better World Flux

  使用 Better World Flux可以通过观察社交,经济,政治指标来跟踪国家的发展,并发现重要的趋势和模式。

1478255392-7087-3417eb9bbd90198644e500

  17. Visual.ly

  Visual.ly 有一句话:无需经验和学习,按钮搞定信息图形和数据可视化。

作者丨康小胖

]]>
巴西里约奥运数据可视化图表居然可以这么酷炫 //www.otias-ub.com/archives/509782.html Tue, 23 Aug 2016 10:49:53 +0000 //www.otias-ub.com/?p=509782 数据新闻可视化+小游戏+移动交互,看《卫报》、BBC和CNN在本届奥运会上又使出了什么新花样。

1、英国《卫报》:将数视化进行到底

提起《卫报》的杀手锏,非数据新闻可视化莫属。

对于里约奥运会这场大型赛事,《卫报》启用了旗下的数据可视化团队对比赛中的运动数据进行分析。这已经不是该报第一次在奥运会运用这项技术。早在4年前的伦敦奥运会上,《卫报》就出版过“伦敦奥运会数据图表”用于统计分析比赛中的运动数据。而今年他们带着更先进成熟的技术来到了里约。

▲《卫报》数据可视化团队在里约奥运期间推出的专题作品

目前在里约的《卫报》数据可视化团队制作了3个可视化产品,内容分别是200米男子自由泳、400米女子自由泳和女子4×100米自由泳接力的数据分析,这些作品同步发布到《卫报》的官网和数据可视化团队的官方Twitter上,引起了很多用户的关注。

▲《卫报》数视化作品:孙杨是如何夺取200米自由泳金牌的

地址:http://www.theguardian.com/sport/ng-interactive/2016/aug/09/how-sun-yang-caught-up-with-chad-le-clos-to-claim-gold-in-the-200m-freestyle (复制到浏览器查看)

这些作品最精妙的地方在于可以动态展示一个运动员从比赛开始到结束的所有状态数据。比如最近在孙杨打败南非选手查德·勒·克罗斯夺得200米自由泳冠军后,《卫报》数据可视化团队制作了“孙杨在200米自由泳中如何在最后25米翻盘”动态产品,从该团队收集的8位决赛选手的数据,我们能看出其实查德·勒·克罗斯在开局时是最具有优势的。

▲各选手起跳反应时间分析(图中黄色为孙杨)

图文翻译:1号泳道来自南非的查德·勒·克罗斯起跳极好,孙杨和来自德国的保罗·比德尔落后了半拍

随后该作品用50米、100米、150米、200米作为节点,以领先者的成绩与他人做横向对比,来动态展示领先者的优势以及其他追赶者与他的差距。

▲前50米过程分析(图中黄色为孙杨)

图文翻译:查德·勒·克罗斯在最初的50米超越了世界记录0.84秒,英国的选手詹姆斯·凯在第八号泳道以一定的优势排在第三名的位置

▲50-100米过程分析(图中黄色为孙杨)

图文翻译:比赛到一半,查德·勒·克罗斯领先了近一秒,美国选手克诺尔·戴尔和英国选手詹姆斯·凯在争夺银牌

▲100-150米过程分析(图中黄色为孙杨)

图文翻译:在150米的时候,查德·勒·克罗斯还排在第一名的位置,美国选手克诺尔·戴尔仅落后于他0.1秒。位于第四泳道的孙杨从一个不利的开始后渐渐追上,处于第三名的位置

▲150-200米终点过程分析(图中黄色为孙杨)

图文翻译:孙杨在最后一刻拼尽全力赢得了金牌,查德·勒·克罗斯获得了银牌,美国选手克诺尔·戴尔获得了铜牌

同时,《卫报》数据可视化团队运用了细节图片来展示选手们的运动过程解析,通过使用比赛时的水上和水下照片来分析运动员的运动细节和速度。

▲各选手运动过程细节分析

不仅如此,他们还将运动员的成绩与每个金牌和世界纪录保持者做对比,做出数据可视化作品,通过宏观的比赛成绩数据,让人们更直接了解该运动员的综合水平。

▲ 参赛运动员成绩与奥运会记录/世界纪录对比

虽然目前《卫报》数据新闻可视化团队只涉足了游泳比赛的制作,但该团队负责人Gonzalez表示他们还会制作体操比赛的数据分析作品,并随着比赛的深入涉足更多项目。

2BBC:小游戏玩转大奥运

英国广播公司BBC近日推出了一款数据对比小游戏,轻松玩起了奥运。

该游戏使用了来自奥运会官方的超过10500名运动员的数据,包括身高、体重还有出生年月日等,用户只要输入身高、体重以及出生年月日等简单信息,就可以找到与自己信息匹配相似的运动员,趣味性十足。

▲ BBC小游戏:与你最匹配的奥运会运动员是谁?

地址:http://www.bbc.com/sport/olympics/36984887

(复制到浏览器查看)

该游戏还会告诉用户,有多少名里约奥运会运动员与其拥有同样的年龄、身高和体重。还会告诉大家一些不为人知的奥运小知识,如参加本届奥运会运动员中身高最矮的人是巴西体选手Flavia Saraiva ,她只有1.33米,而最高的运动员是中国男篮选手李慕豪,他有2.18米。此外本届运动员的平均身高为1.77米,等等。

▲ 游戏将个人身高与奥运会运动员身高、体重、年龄数据做对比

3美国CNN:报道粉丝们想看的新闻

今年里约奥运会,CNN尝试让记者运用Facebook messanger(一种社交聊天软件)和Kik等平台与用户进行互动的方式来报道奥运。

▲ CNN在社交平台Kik中的互动报道模式

这种方法最吸引用户的地方便是实时互动。通过跟随着记者的描述并回答问题,记者会发送不一样的消息给选择不同的读者群体,从而增强用户感官体验,将用户带进现场。这些记者的动态将会同步在CNN的官方奥运Twitter上。Masuma Ahuja也是这些记者中的一员,她的工作就是在Kik和Facebook Messanger上和她的的粉丝互动,然后向大家展示他们想要看到的里约。她认为这以后会演变成CNN报道的一种常规方式。

▲ Masuma Ahuja在CNN社交平台中的投稿

她认为这种报道方式十分轻松,“当我们觉得时机对的时候我们就放些东西上去。”

CNN在社交软件上与用户互动的尝试始于2016年4月份,当时CNN于Facebook上推出了聊天机器人与他们的2150万粉丝互动。负责该机器人的是CNN全球数据团队。CNN此举的目的是提供给观众们更多样化的和个性化的新闻体验,从而达到吸引用户和扩大其自身在全球影响力的目的,他们目前对该项目发展前景十分乐观。

4小结:大数据分析开启数字新闻大门

所谓“大数据”分析是指基于“总体”的巨量数据基础上致力于回答“是什么”的分析方式。 对于媒体而言,大数据分析能够有效地实现智能信息匹配,实现分析的高度智能化,真正帮助传统媒体实现媒介形态转型。以上三家国际媒体在本次里约奥运会中均是创新运用了新的报道方式,将大数据分析与新闻报道相结合,无论是数据新闻可视化,还是数据分析与匹配,某种意义上都预示着未来媒体报道的新趋势,开启了数字新闻的大门。

综合整理来源:

英国《卫报》官网http://www.theguardian.com/

BBC奥运官网http://www.bbc.com/sport/olympics/

digiday:How CNN juggles different mobile chat apps to cover the Olympics

来源:人民日报媒体技术

转自:传媒评论

]]>
搞懂5种数据可视化方法,胜任90%热门信息图设计 //www.otias-ub.com/archives/474515.html Sun, 22 May 2016 15:45:33 +0000 //www.otias-ub.com/?p=474515 导读:对数据可视化这块又进行了研究和心得的整理,跟大家分享下数据可视化常用的五种方式,希望能给大家带来思路的拓展。

●概念

◎借助于图形化的手段,清晰、快捷有效的传达与沟通信息。从用户的角度,数据可视化可以让用户快速抓住要点信息,让关键的数据点从人类的眼睛快速通往心灵深处。

◎数据可视化一般会具备以下几个特点:准确性、创新性 和 简洁性。

●常用五种可视化方法

下面从最常用和实用的维度总结了如下5种数据可视化方法,让我们来一一看一下:

一、面积&尺寸可视化

对同一类图形(例如柱状、圆环和蜘蛛图等)的长度、高度或面积加以区别,来清晰的表达不同指标对应的指标值之间的对比。这种方法会让浏览者对数据及其之间的对比一目了然。制作这类数据可视化图形时,要用数学公式计算,来表达准确的尺度和比例。

Examples:

a: 天猫的店铺动态评分

天猫店铺动态评分模块右侧的条状图按精确的比例清晰的表达了不同评分用户的占比。从下图中我们第一眼就可以强烈的感知到5分动态评分的用户占绝对的比例。

1463931903-2423-3417eb9bbd90189e551662
b: 联邦预算图

如下图,在美国联邦预算剖面图里,用不同高度的货币流清晰的表达了资金的来源去向,及每一项所占金额的比重。

1463931903-3532-3417eb9bbd90189e551e63
c: 公司黄页-企业能力模型蜘蛛图

如下图,通过蜘蛛图的表现,公司综合实力与同行平均水平的对比便一目了然。

1463931903-9774-3417eb9bbd90189e552800

二、颜色可视化

通过颜色的深浅来表达指标值的强弱和大小,是数据可视化设计的常用方法,用户一眼看上去便可整体的看出哪一部分指标的数据值更突出。

Examples:

a: 点击频次热力图

比如下面这张眼球热力图,通过颜色的差异,我们可以直观的看到用户的关注点。

1463931903-3751-3417eb9bbd90189e554301
b: 2013年美国失业率统计

在图中可以看到,通过对美国地图以州为单位的划分,用不同的颜色来代表不同的失业率等级范围,整个的全美失业率状况便尽收眼底了。

1463931903-2272-3417eb9bbd90189e554e02
c: 美国手机用户城市分布

图中红点是用iPhone的人,绿点是用安卓的人。这两张在微博上看到的图,第一张是美国一个城市的一览,第二张图特写了纽约的市中心,尤其是曼哈顿地区。我们可以看到在市中心和主干道的人用iPhone居多,而用安卓的人都在郊区。这也引起了人们的热议,有的说在美国富人都住郊区别墅,所以富人爱用安卓手机;有的反驳说曼哈顿地区的人几乎都用iPhone,说明富人喜欢用iPhone手机。不管结论如何,都足以说明用户都被这些图所吸引,所以可视化的方式效果真的很直观。

1463931903-2388-3417eb9bbd90189e555803
注:科学家统计了2年里30亿条含有地理数据的twitter推文,根据客户端总结出来的数据。

1463931904-2318-3417eb9bbd90189e556204

三、图形可视化

在我们设计指标及数据时,使用有对应实际含义的图形来结合呈现,会使数据图表更加生动的被展现,更便于用户理解图表要表达的主题。

Examples:

a: iOS手机及平板分布

如下图所示,当展示使用不同类型的手机和平板用户占比时,直接用总的苹果图形为背景来划分用户比例,让用户第一眼就可以直观的看到这些图是在描述苹果设备的,直观而清晰。

1463931904-3800-3417eb9bbd90189e556e05
b: 人人网用户的网购调查

下图可以看出,该数据可视化的设计直接采用男性和女性的图形,这样的设计让分类一目了然。再结合了颜色可视化(左面蓝色右面粉色),同时也采用了面积&尺寸可视化,不同的比例用不同长度的条形。这些可视化方法的组合使用,大大加强了数据的可理解性。

1463931905-4662-3417eb9bbd90189e557806

四、地域空间可视化

当指标数据要表达的主题跟地域有关联时,我们一般会选择用地图为大背景。这样用户可以直观的了解整体的数据情况,同时也可以根据地理位置快速的定位到某一地区来查看详细数据。

Examples:

a: 美国最好喝啤酒的产地分布

下图中,通过以美国地图为大背景,清晰的记录了不同州所产啤酒在1987-2007年间在美国啤酒节中获得的奖牌累计总数。再辅以颜色可视化的方法,让用户清晰的看到美国哪些州更盛产好喝的啤酒。

1463931905-4385-3417eb9bbd90189e558307

五、概念可视化

通过将抽象的指标数据转换成我们熟悉的容易感知的数据时,用户便更容易理解图形要表达的意义。

Examples:

a: 厕所贴士

下图是厕所里贴在墙上的节省纸张的环保贴士,用了概念转换的方法,让用户清晰的感受到员工们一年的用纸量之多。如果只是描述擦手纸的量及堆积可达高度,我们还没有什么显性化概念。但当用户看到用纸的堆积高度比世界最高建筑还高、同时需砍伐500多颗树时,想必用户的节省纸张甚至禁用纸张的情怀便油然而生了。所以可见用概念转换的方法是多么的重要和有效。

1463931905-9206-3417eb9bbd90189e558d08
b: Flickr云存储空间达1TB的可视化描述

Flickr对云存储空间升至1TB确实是让人开心的事情,但相信很多人对这一数量级所代表的含义并不清晰。所以Flickr在宣传这一新的升级产品时,采用了概念可视化的方案。从下图可以看出,用户可以动态的选择照片的大小,之后Flickr会采用动态交互的方式计算和显示出1TB能容纳多少张对应大小的图片。这样一来,用户便有了清晰的概念,知道这1TB是什么量级的容量了。

1463931905-9104-3417eb9bbd90189e559909
注意事项:

在总结了常见维度的数据可视化方法和范例之后,要再次总体强调下做数据可视化设计时的注意事项,总结了三点如下:

1)设计的方案至少适用于两个层次:一是能够整体展示大的图形轮廓,让用户能够快速的了解图表所要表达的整体概念;之后再以合适的方式对局部的详细数据加以呈现(如鼠标hover展示)。

2)做数据可视化时,上述的五个方法经常是混合用的,尤其是做一些复杂图形和多维度数据的展示时。

3)做出的可视化图表一定要易于理解,在显性化的基础上越美观越好,切忌华而不实。

总结:

作为设计师,除了掌握方法来有针对性的设计之外,还要在平时多留心积累素材,同时培养自己的创造力和专业素养,保持一颗好奇心,才能真正的设计出样式精美又实用的数据可视化图表。

作者丨小白鹿@aliued

]]>
用户行为数据可视化——行为序列图 //www.otias-ub.com/archives/470059.html Sat, 07 May 2016 11:07:48 +0000 //www.otias-ub.com/?p=470059 1462619226-8188-110941o0v30801gd001kv0

引子:

作为一名网站的用户研究工作人员,我曾经碰到过以下问题:

  • 深知服务器日志是一座金矿,但不知道该从哪里开始分析?
  •  辛辛苦苦盯着电脑一天,看了1000+条日志,越看越晕,看不出规律,找不到方向…
  •  在众多日志中,发现了一个异常动作,可是,这只是一个用户不小心点错了呢?还是由于设计导致的大量误操作呢?
  • 。。。。。。

经过一段时间的探索,发现将日志可视化,制作行为序列图,是一个非常直观有效的梳理思路&发现问题的方法,在此分享给大家~

二.什么是用户行为序列?行为序列图长啥样?

1.用户行为序列:

也可以叫做“基于时间序列的用户行为”,是某一时间段内,按照时间先后顺序记录的人从事某种活动的每一步行为。

在网站,一段时间内,一个用户从进入网站到离开网站过程中的每一步行为的记录,被我们记做一条用户行为序列。

如下图,就是一条用户行为序列。

1462619221-3404-110942vqqoqqzfip3r3tfi
这条用户行为包含12个步长,依次进行了搜索、添词、预估等动作。2.了解了用户行为序列,我们再来看一下行为序列图长啥样子?

刚才的那条共计12步的用户行为序列,转化为行为序列图,就是这个样子滴↓

(*其中,对每个动作都进行了数字编码&颜色标记,如:动作“search”被编码为“16”,并标记为“透明度为20%的红色”。具体操作方法请参考文章第四部分。)

1462619220-9323-110942sx5z1u54mxu55znx
是不是瞬间变得非常简单直观~如果有100条用户行为序列,那么这幅行为序列图是这个样子的↓,大数据尽收眼底,就是这种赶脚哦~

1462619224-6730-110942mvoew1h33mhf7mjn

三.那么问题来了,用户行为序列图有啥用呢?

直观~直观~还是直观

如果非要说出来的话,我总结了一下,对我们研究日志有如下帮助:

1.宏观全览大数据

2.根据需求灵活标注,便于观察规律

3.定位问题,通过颜色区分,一目了然

4.与统计数据结合,解释问题有数有据

5.大家都能看的懂

。。。(暂时想不出来了,欢迎补充)

四.下面我将详细说明一下如何一步一步将基于时间序列的用户行为可视化

第一步:获取数据

数据来源:通过数据后台,或请程序猿大哥帮忙跑出的日志,格式不限。

比如,它可以是这个样子的:

1462619221-1459-110942gwkv58s3w813ee28
第二步:清洗&整理数据1.清洗数据:

在数据提取阶段,偶尔会出现空白值的情况,建议把包含空白值的用户剔除掉,以免干扰以后的数据分析。

2.整理数据:

拿到的数据格式各异,需要进行整理才能符合我们做可视化的格式。我们需要将数据整理成这样的格式。

1462619220-3662-110942ti19jkd133362ukk
在EXCEL中,对动作进行数字编码,并使用数据透视表,将数据进行整理后变成如下形式:

1462619224-7488-110943aczf72okx7155xzz
OK,数据已经整理成了我们想要的形式。第三步:对不同动作进行颜色标记,以便通过色彩直观的了解用户行为规律和特点。

动作标记,需要根据需求再进行。对于特别关注的动作可以进行重点标记。如没有思路,希望通过看图找出一些规律,可以常识根据不同动作类型标颜色,如点击、翻页、输入等;也可以根据不同页面进行标记,如首页动作、结果列表页动作、详情页动作等,也可以根据功能模块进行标记,如查找功能,查看功能等。

*对于相似动作或者某一类型动作,可以使用同一色系的渐变色标注,这样可以使非常多的动作类型看起来更简洁,也更便于观察分析。

在excel中可以用“条件格式”进行标记,如下图:

1462619224-9322-110943g5ley3eey9m6543e
接下来,就是对这些行为按照不同维度进行标记&排序。你会发现一些规律、一些异常慢慢开始浮现~

五.以下是两个初步尝试的案例,供大家参考~

案例1:用户步长的直观分析

• 项目背景:

新产品上线,用户平均步长数是:11步,各模块点击率也OK,但从客户那里得到的反馈褒贬不一。PM希望了解一下问题出在哪里?

• 研究方法:

通过日志,对线上用户实际操作行为进行分析,绘制了用户行为序列图。

• 发现问题:

仅执行第一个关键动作就离开的用户占到将近一半!人们在反复尝试后,都不满意!所以,结果并不像平均步长等于11,那么令人欣慰!

1462619224-7522-110943kdnsiasadignnzga
案例2:用户页面切换的真实情况• 项目背景:

拿到一批用户的行为日志,希望可以从中探究一些规律,同时发现现有流程中的问题

• 研究方法:

以页面为维度,对动作进行标记,绘制用户行为序列图。

1462619223-1008-110944blz2slkadfm0mnjf
• 发现问题:挑选商品页的动作数(标记为绿色)少于预估&删除商品页的动作数(标记为黄色)。但我们希望用户精挑细选,然后快速决策,可见用户并不是按照我们的预期使用产品,里面肯定有一些体验问题,值得我们深入分析。

]]>
10款最受欢迎数据可视化工具 //www.otias-ub.com/archives/460872.html Sun, 10 Apr 2016 03:20:38 +0000 //www.otias-ub.com/?p=460872 在数字经济时代,人们需要对大量的数字进行分析,帮助用户更直观的察觉差异,做出判断,减少时间成本。当然,你可能想象不到这种数据可视化的技术可以追溯到2500年前世界上的第一张地图,但是,如今利用各种形态的数据可视化图表帮助用户减少分析时间,快速做出决策一直扮演着重要的作用。

1460258332-3416-3417eb9bbd90187058ac42

世界上的第一张地图(公元前550年)

这里给你推荐十款现今最受欢迎的数据可视化工具,供你参考:

1、Tableau

1460258333-8722-3417eb9bbd90187058cd43

Tableau

数据可视化工具除了图片美观之外,是否容易上手,海量数据的处理速度等都是考量工具优劣的标准。而Tableau以其高度的灵活性和动态性高居榜首。Tableau不仅可以制作图表、图形还可以绘制地图,用户可以直接将数据拖拽到系统中,不仅支持个人访问,还可以进行团队协作同步完成数据图表绘制。输出方便,同时Tableau也是免费的哦。

2、Excel

1460258333-4858-3417eb9bbd90187058dc44

Excel

额,笔者并没有疯掉。笔者恰恰想说的是Excel作为一种简单、方便、覆盖面广的office软件,无疑是数据可视化工具的典型。我们平时会经常使用Excel制作简单表格,实际上,Excel的功能十分强大,你完全可以用它来做一些让人眼前一亮的图表。

Excel可以说是典型的入门级数据可视化工具,但同时,它也支持3D的可视化展示,微软发布了一款叫做GeoFlow的插件,它是结合Excel和Bing地图所开发出来的3D数据可视化工具。GeoFlow的概念最早提出于2011年6月,据悉可以支持的数据行规模最高可达100万行,并可以直接通过Bing地图引擎生成可视化3D地图。

3、FusionCharts

1460258334-4044-3417eb9bbd90187058e645

FusionCharts

FusionCharts是Flash图形方案供应商InfoSoft Global公司的一个产品, FusionCharts可用于任何网页的脚本语言类似于HTML , .NET,ASP , JSP, PHP , ColdFusion等,提供互动性和强大的图表。

FusionCharts能够提供九十多种图表,带有JavaScript API,可以很容易的集成AJAX或者JavaScript。您可以在服务端建立复杂的图像,然后再流给客户端,从而有效降低服务器负载。

另外,FusionCharts支持基于Flash/JavaScript的3D图表,提供服务器端APIs,支持成千上万的数据点,并在几分钟内完成向下钻取

4、Modest Maps

1460258333-8452-3417eb9bbd90187058ef46

Modest Maps

很多人把Modest Maps当作一个简单的地图制作API,但实际上它是目前最小的可用地图库,只有10KB大小,你可以用它创建在线地图,设计者可以按照自己的设想定制,满足用户需求。

它是一个Flash和ActionScript的区块,且支持Python。

5、WolframAlpha

1460258332-6956-3417eb9bbd90187058fd47

WolframAlpha

WolframAlpha最初是由开发数学应用软件的沃尔夫勒姆研究公司研发的,Mathematica也是其中的代表,后来,Wolfram公司和Alpha公司合作打造了WolframAlpha,提供了一个简单的小工具生成器,就可以是数据可视化。同时WolframAlpha也被标榜为“计算型知识引擎”。

6、jqPlot

1460258333-6611-3417eb9bbd901870590548

jqPlot

jqPlot能够自动机算趋势线,但它也是一个jQuery绘图插件,提供了多种多样的图表样式。可以通过网站访问者进行调整的能力,互动点,相应地更新数据集。可以利用jqPlot来制作漂亮的线状图和柱状图,jqPlot提供Tooltips,数据点高亮和显示功能。

7、D3.js

1460258334-4300-3417eb9bbd901870590d49

D3.js

可以说,D3(Data-Driven Documents)是目前最受欢迎的可视化数据库之一,并用于很多表格插件中。D3.js是一个JavaScript库,特利用现有的Web标准,通过数据驱动的方式实现数据可视化。

D3.js允许绑定任意数据到DOM,然后将数据驱动转换应用到Document中。你可以使用它用一个数组创建基本的HTML表格,或是利用它的流体过度和交互,用相似的数据创建惊人的SVG条形图。能够轻松的兼容大多数浏览器,同时避免对特定框架的以来。

8、JpGraph

1460258334-2500-3417eb9bbd90187059184a

JpGraph

JpGraph是一款开源的PHP图表生成库,当然在使用之前你需要保证PHP打开了Gd2的扩展。然后我们只需从数据库中取出相关数据、 定义标题,图表类型,然后只需掌握JpGraph内置函数就可以得到你想要的炫酷图表。

同时,JpGraph是免费的

9、Highcharts

1460258334-2565-3417eb9bbd901870592a4b

Highcharts

Highcharts是一款功能强大、开源、美观、 图表丰富、兼容大多数浏览器的纯JavaScript图表库。Highcharts不需要像Flash和Java那样需要插件也可以运行,并运行的很快。其官网显示,全球100前企业中有67家都在使用Highcharts,同时Highcharts也提供云服务,可以提供图表生成,托管和分享等功能。

10、iCharts

1460258335-6025-3417eb9bbd90187059344c

iCharts

iCharts是一款可视化云服务工具,可以方便的制作高分辨率的可视化与信息图。iCharts有很多不同的图表类型,用户可以定制适合自己网站主题和颜色的方案。它可以拉离谷歌文档、Excel表格等数据,实现元素互动,iCharts是一款免费软件,但是你也可以付费,实现附加功能。

199IT大数据导航,汇集1000多款与数据相关的工具(http://hao.199it.com/ ),欢迎分享收藏!

]]>
2015年度10大Plotly数据可视化美图及工具介绍 //www.otias-ub.com/archives/452897.html Tue, 22 Mar 2016 17:05:48 +0000 //www.otias-ub.com/?p=452897 文章整理出了2015年最优秀的十个Plotly图表,这些交互式的图表使用Plotly的web app和APIs制作而成。

第十位. “2001-2014对同性婚姻的支持”

1458666322-3405-3417eb9bbd90185b074c3a
这些Tufte迷你图(sparklines)由Pew Research绘制。

制作这些图表运用了Python, R以及Plotly web app.

第九位. “在Facebook网络中的团体”

1458666322-1980-3417eb9bbd90185b07683b
这个网络图(network graph)由一个用户名为empet的数学家和教授绘制。

学习如何用Plotly在IPython Notebooks中制作这种网络图(how to make this network graph), 你也可以运用R和MATLAB来实现。

第八位. “美国国债收益曲线”

1458666322-5405-3417eb9bbd90185b076f3c
这个表面图(surface chart)由Plotly 的联合创始人chris绘制。

学习如何运用Plotly在Python里绘制这种3D曲线图(how to make this 3D surface chart ),你也可以在Plotly web app里用R或者Excel data实现。

第七位.“美国的水上游乐园”

1458666322-2338-3417eb9bbd90185b07753d
这个分级统计图(chloropleth map)由一个名为rozran00的博主绘制。

学习如何运用Plotly 在Python里绘制这种分级统计图(how to make this chloropleth map), 你也可以在Plotly web app里用R或者Excel data实现。

第六位. “聚类树状热点图”

1458666322-9059-3417eb9bbd90185b077c3e
这个聚类树状热点图(dendrogram heatmap)由一位名叫oxana的生物学硕士生绘制。

学习如何运用Plotly 在Python里绘制这种聚类树状热点图(Learn how to make this dendrogram heatmap),你也可以使用ggplot2来实现。

第五位.“历史上绘画大师对色彩的选择”

1458666322-2377-3417eb9bbd90185b07833f
这个气泡图(bubble chart)由brandnewpeterson绘制。

学习如何运用Plotly 在Python里绘制这种气泡图(how to make this bubble chart),你也可以或者在Plotly web app里用R, Matlab 或者Excel data实现。

第四位. “元素周期表”

1458666323-1317-3417eb9bbd90185b078a40
这个注释热图(annotated heatmap)由Plotly的软件工程师chelsea_lyn绘制。

学习如何运用Plotly 在Python里绘制这种注释热图(how to make this annotated heatmap) ,你也可以或者在Plotly web app里用R, Matlab 或者Excel data实现。

第三位. “合著科学家的合作网”

1458666323-7189-3417eb9bbd90185b079241
这个网络图由empet绘制。

学习如何运用Plotly 在IPython Notebooks里绘制网络图(how to make this network graph),你也可以用R和Matlab来实现。

第二位. “透气面”

1458666323-4987-3417eb9bbd90185b079a42
这个三维表面图(3D surface plot)由数据科学家 tarzzz绘制。

学习如何运用Plotly 在Python里绘制这种三维表面图(how to make this 3D surface plot) ,你也可以或者在Plotly web app里用R, Matlab 或者Excel data实现。

第一位. “城市间的客流”

1458666323-8673-3417eb9bbd90185b07a343
这个弦图(chord diagram)是empet在Python里绘制的。

学习如何用Plotly在Python中绘制这种弦图(how to make this chord diagram),下面是在R 或者Matlab中实现该操作可视化的编码。

来源: blog.plot.ly

作者:李华芳

199IT大数据导航,汇集超1000多款与数据相关的工具(http://hao.199it.com/ ),欢迎分享收藏!

]]>
Econsultancy:14个惊人的数据可视化例子 //www.otias-ub.com/archives/445205.html Mon, 07 Mar 2016 16:56:26 +0000 //www.otias-ub.com/?p=445205         199IT原创编译

        听起来炫酷,不过数据可视化确实是一门艺术,它用赏心悦目的方式展现复杂的数据。

        以这种方式展示数据能让数据更引人入胜,更容易理解,因此这在和客户或大股东交流时大有助益。

        为什么数据可视化如此重要

        2010年David McCandless在TED的演讲中说视觉是五官中接受信息最快也是最多的感官,“我们接受的信息中约80%来自视觉”。

        学生“看见”数据都会兴奋,更不用说决策者和企业了。

        Emre Soyer 和 Robin Hogarth曾经对三组经济学家就同一个数据集询问了同样的问题,结果显示:

  •         第一组专家看到的是数据和标准数据统计分析,72%的受访者得出错误结论;
  •         第二组专家看到的是数据,统计分析和图表,61%的受访者得出错误结论;
  •         第三组专家看到的只有图表,只有3%的受访者得出错误结论。

        调查结果显示视觉化的数据其实更强大。

        实时互联网数据

        这里显示了互联网各大网站的实时数据可视化图像,即使是在互联网行业工作的人也会惊叹不已。1

        网络巨头之战

        这个页面显示了各大网络巨头的实时收入。2

        百万推特地图

        这个页面是展示Twitter地理数据的好例子,它使用聚类搜索引擎显示全球各地具体推特话题。

        下图的关键词是“Terry Wogan”。3

        Tweetping

        直播全球各地推特情况,记录了每条推特的地理位置,因此地图播放时间越长,地理趋势越清晰。4

        聆听 Wikipedia

        这是一个用视觉和声音展示维基百科编辑的页面。铃声象征增加词条,弦声象征减少,音调随编辑规模改变,修改越多,音调越低。

        绿色圆圈象征来自非注册访客的编辑,紫色圆圈表示是自动机器人进行的修改。

        这个非常让人着迷,所以除非你准备好聆听一整天再去点击。5

        Google趋势

        Google趋势已经众所周知,这里想要展示的是像Google一样简洁的数据可视化。

        整个屏幕显示当前的趋势,点击关键词就可以进入相关的搜索结果页面。6

        “地球风”地图

        世界各地的风速、风向的可视化地图。拖动地球放大特定地区,就能获得更多细节。7

        NOAA气象图

        全球天气数据可视化图像,可以看到不同气象数据,如温度、降雨量、气压等。8

        “Every noise at once”

        这是一个散点图,展示了几乎所有你能想到的音乐风格,点击文本能听到30秒的音乐片段。

        由Echo Nest(刚被Spotify收购)的Glenn McDonald设计建造,他解释说:“往下是有机音乐,向上是机械和电子音乐;左侧更急促更大气,右侧更活泼。”9

        不再恐同

        网站实时显示了Twitter上所有仇视同性恋的语言。10

        网络攻击地图

        页面显示了全球正在发生DDOS攻击的地区,DDOS攻击就是通过利用合理的服务请求来占用过多的服务资源,从而使合法用户无法得到服务的响应。11

        航班地图

        游客必备,鼠标滑过机场就能了解航班可视化信息,例如出航班机及其实时状态。

        绿色代表正常,红色代表异常。12

        Spotify音乐地图

        这个交互式地图以城市为单位展示了全球的人们都在收听哪些音乐。13

        显然,伦敦的的朋友现在正在收听Grime。14

        世界人口

        极度简单却令人着迷, 这个网站以可视化的形式展示了全球人口实时的增长情况。

        点击 ‘watch as we increase’ 按钮,就能看到小火柴人儿实时的增长。15

        199IT.com原创编译自:Econsultancy 非授权请勿转载

]]>
数据可视化的5个步骤 //www.otias-ub.com/archives/432329.html Thu, 21 Jan 2016 13:28:01 +0000 //www.otias-ub.com/?p=432329 mXYZOcOh

数据被称作是最新的商业原材料“21世纪的石油”。

商业领域、研究领域、技术发展领域使用的数据总量非常巨大,并持续增长。就Elsevier而言,每年从ScienceDirect下载的文章有7亿篇,Scopus 上的机构档案有8万个、研究人员档案有 1 千 3 百万,Mendeley上的研究人员档案有 3 百万。对于用户来说,从这个数据海洋中抓到关键信息越来越难。

这也是数据可视化的用武之处:用简单易懂的可视化方式总结并呈现大型数据集,为读者提供有价值的信息。

许多先进的可视化方式(如:网络图、3D 建模、堆叠地图)被用于特定用途,例如3D医疗影像、模拟城市交通、救灾监督。但无论一个可视化项目有多复杂,可视化的目的是帮助读者识别所分析的数据中的一种模式或趋势,而不是仅仅给他们提供冗长的描述,诸如:“ 2000 年 A 的利润比 B 高出 2.9 % ,尽管 2001 年 A 的利润增长了 25 % ,但 2001 年利润比 B 低 3.5 % ”。出色的可视化项目应该总结信息,并把信息组织起来,让读者的注意力集中于关键点。

对于 Elsevier’s Analytical Services 的项目而言,我们一直在寻找提升数据分析和可视化的方式。例如,在我们对于研究表现的分析中有大量关于研究合作的数据;我们为 Science Europe 提供的报告(Comparative Benchmarking of European and US Research Collaboration and Researcher Mobility) 包含跨州合作以及国际合作的数据,这些数据不适合直接用二维表和X-Y图展示。为了探索数据背后的故事,我们使用了网络关系图来识别国家间的合作,并了解每个合作关系的影响。想了解我们的团队如何为政府部门、出资者、大学、研究者提供基于数据的材料,为研究方面的策略决定提供信息,可参阅 Telling stories with big data 一文。

本文提供一份包含五个步骤的数据可视化指南,为想用表格、图形来传播观察结果、解读分析结果的人士提供帮助。要记住,建立好的可视化项目是一个反复迭代的过程。

第1步- 明确问题

开始创建一个可视化项目时,第一步是明确要回答的问题,又或者试着回答下面的问题“这个可视化项目会怎样帮助读者?”

OEACsUP2

表 1 – 数据集中的三条记录

NR7lmzO0

图1-槽糕的可视化项目并不澄清事实,而是引人困惑。此图中包含太多变量。

清晰的问题可以有助于避免数据可视化的一个常见毛病:把不相干的事物放在一起比较。假设我们有这样一个数据集(见表1),其中包含一个机构的作者总数、出版物总数、引用总数和它们特定一年的增长率。图1是一个糟糕的可视化案例,所有的变量都被包含在一张表格中。在同一张图中绘制出不同类型的多个变量,通常不是个好主意。注意力分散的读者会被诱导着去比较不相干的变量。比如,观察出所有机构的作者总数都少于出版物总数,这没有任何意义,又或者发现 Athena University、Bravo University、Delta Institution 三个研究机构的出版物总数依次增长,也没有意义。拥挤的图表难以阅读、难以处理。在有多个Y轴时就是如此,哪个变量对应哪个轴通常不清晰。简而言之,槽糕的可视化项目并不澄清事实而是引人困惑。

 

第2步- 了解你的数据、从基本的可视化着手

确定可视化项目的目标后,下一步是建立一个基本的图形。它可能是饼图、线图、流程图、散点图、表面图、地图、网络图等等,取决于手头的数据是什么样子。在明确图表该传达的核心信息时,需要明确以下几件事:

  • 我们试图绘制什么变量?
  • X 轴和轴代表什么?
  • 数据点的大小有什么含义吗?
  • 颜色有什么含义吗?
  • 我们试图确定与时间有关趋势,还是变量之间的关系?

有些人使用不同类型的图表实现相同目标,但并不推荐这样做。不同类型的数据各自有其最适合的图表类型。比如,线形图最适合表现与时间有关的趋势,亦或是两个变量的潜在关系。当数据集中的数据点过多时,使用散点图进行可视化会比较容易。此外,直方图展示数据的分布。直方图的形状可能会根据不同组距改变,见图2。(在绘制直方图时,本质是在绘制柱状图来展示特定范围内有多少数据点。这个范围叫做组距。)

FFsLKM7f

图2-当组距变化,直方图的形状也发生变化。

组距太窄会导致起伏过多,让读者只盯着树木却看不到整个森林。

此外,你会发现,在完成下一个步骤以后,你可能会想要修改或更换图表类型。

第3步 – 明确要传达的信息,确定最能提供信息的指标

假设我们有另一个关于某研究机构出版物数量的数据库(见表 2 )。可视化过程中最关键的步骤是充分了解数据库以及每个变量的含义。从表格中可以看出,在 A 领域(Subject A),此机构出版了633篇文章,占此机构全部文章的 39% ;相同时间内全球此领域共出版了 27738 篇文章,占全球总量的 44% 。 注意,B列中的百分比累计超过 100% ,因为有些文章被标记为属于多个领域。

在这个例子中,我们想了解此机构在各个领域发表了多少文章。出版数量是一个有用的指标,不仅如此,与下面这些指标对照会呈现出更多信息:

  • 此领域的研究成果总量( B 列),以及
  • 此领域的全球活跃程度

由此,我们可以确定一个相对活跃指标,1.0 代表全球平均活跃程度。高于 1.0 代表高于全球水平,低于 1.0 代表低于全球水平。用B列的数据除以 D 列,得到这个新的指标,见表 2 。

5NcZS9tO

表2- 用B列的数据除以D列,得到新的指标:相对活跃程度(E栏)。

第4步- 选择正确的图表类型

现在我们可以用雷达图来比较相对活跃指数,并着重观察指数最高/最低的研究领域。例如,此机构在 G 领域的相对活跃指数最高(1.8),但是,此领域的全球总量远远小于其他领域(见图 3 )。雷达图的另一个局限是,它暗示各轴之间存在关系,而在本案例中这关系并不存在(各领域并不相互关联)。

46MRly2S

图3-相对活跃指数雷达图

数据的规范化(如本例中的相对活跃指数)是一个很常见也很有效的数据转换方法,但需要基于帮助读者得出正确结论的目的使用。如在此例中,仅仅发现目标机构对某个小领域非常重视没太大意义。

我们可以把出版量和活跃程度在同一个图表中展示,以理解各领域的活跃程度。使用图 4 的玫瑰图,各块的面积表示文章数量,半径长短表示相对活跃指数。注意在此例中,半径轴是二次的(而图3中是典型线性的)。图中可以看出,B 领域十分突出,拥有最大的数量(由面积表示)和最高的相对活跃程度(由半径长度表示)。

Fs3NKx85

图4- 玫瑰图。此图中各块面积表示文章数量,半径长短表示相对活跃指数(E列)。

第5步- 使用颜色、大小、比例、形状、标签将注意力引向关键信息

用肉眼衡量半径长度可能并不容易。由于在本例中,相对活跃指数的1.0代表此领域的全球活跃程度,我们可以通过给出1.0的参照值来引导读者,见图5。这样很容易看出哪些领域的半径超出参考线。

Ka6V4HHC

图5-带有相对活跃指数参考线的玫瑰图

我们还可以使用颜色帮助读者识别出版物最多的领域。如图例所示,一块的颜色深浅由出版物数量决定。为了便于识别,我们还可以把各领域名称作为标签(见图6)。

YFIK76NW

图6- 玫瑰图中的颜色深浅代表出版物数量(颜色越亮,出版物越多)

结论

数据可视化的方法有很多。新的工具和图表类型不断出现,每种都试图创造出比之前更有吸引力、更有利于传播信息的图表。我们的建议是记住以下原则:可视化项目应该去总结关键信息并使之更清晰直白,而不应该令人困惑,或用大量的信息让读者的大脑超载。

原作者:Georgin Lau and Lei Pan

翻译:王鹏宇

原文链接:https://www.elsevier.com/connect/a-5-step-guide-to-data-visualization

来自:数据工匠
]]>
2015年数据可视化十佳项目 //www.otias-ub.com/archives/430634.html Mon, 18 Jan 2016 07:52:01 +0000 //www.otias-ub.com/?p=430634 SHi4vV8Q

2015 年,优秀的可视化作品生机勃勃,我可以确定,明年也会有很多好作品。横跨不同主题和应用形式的项目大量涌现,但如果让我选一个年度主题的话,那一定是“教学”,不管是通过解释说明,模拟说明还是深刻分析的方式。有时候会感到可视化创作者很大胆,试着让读者们不再用惯有的思维方式来理解数据和统计学。我很喜欢这一点。

以下是我选出的 2015 最佳项目。按照惯例,排名不分先后。同时,也有很多不在这个名单上的作品,它们同样很优秀。

我们一起来看看它们。

 

1.亲爱的数据

这是一个值得跟踪的有趣项目,它涉及的两个话题——可视化和自我监测——引起了我的注意。

qSmRZdum

亲爱的数据是一个 Stefanie Posavec 和 Giorgia Lupi 做的一年项目。每个人会追踪一周中每天发生的事情,比如每个人接多少次电话,然后把这些数据可视化在一张明信片上。然后他们把这些明信片寄给对方—— Lupi 现居纽约而 Posavec 住在伦敦。

 

2.你来画:家庭收入如何预测孩子的大学入学几率

感觉今年似乎是挑战读者如何在一个更高的统计学视角上理解数据的一年。

lp9TBY9L

纽约时报 Upshot 的 Gregor Aisch, Amanda Cox 和 Kevin Quealy 请读者画一条反映家庭收入和上大学孩子数百分比的线。所以你能看到你自己画的线,真实数据画出的线和其他人是怎么看待这个关系的。

关于Upshot/New York Times 和数据假设,参见 this quick puzzle to test your pattern-finding ability (快速测试你的模式识别能力)和 3-D chart of the economy’s future(经济未来发展3D图)。

 

3.“黑”出你的科学荣耀

纽约时报的 538 也通过他们的可视化互动进行了一些数据科学教学活动。其中最好的一节课是教人们如何通过“窃取 P 值”( p-hacking )来从同一数据集中得到你想要的结果.

R3XSQt3B

这个项目发布的时候正是一个刚毕业的学生被曝出伪造数据的时候(hyperlink)。Christie Aschwanden和Ritchie King的重点不是怀疑一个荒唐的结果是如何通过了严格的同行评审的,相反,他们想说的是,科学地做研究并解释数据才是真正的难点(阅读更多)。

 

4.制作歌曲“你现在在哪里”

纽约时报的这个团队做了一个有关 Justin Bieber 的访谈,不仅不错,还很有趣。

pysq4BxF

尽管 Bieber 更像一个配角,因为 Diplo 和 Skrillex 才是详尽研究如何制作一首大卖歌曲的人,但是这个配在视频旁边的音乐可视化作品可以帮助你更好地理解音乐家们到底在说什么。

 

5.麻疹如何在接种了疫苗的儿童中传播及何时不传播

卫报的 Rich Harris,Nadja Popovich 和 Kenton Powell 展示了当一个国家的孩子们不接种麻疹疫苗时会发生什么。

nRfEBcyO

作为父母,我想把这整个列表做成交互式的。

 

6.机器学习的可视化介绍

机器学习似乎像一个有魔力的概念,仿佛意味着一个机器人可以不受你的教导去做奇怪的事。Stephanie Yee 和 Tony Chu 对此用一个可视化例子进行了解谜。

Pee3LjXW

这个可视化例子如卷轴般带着你一步一步了解机器是如何“学习”的。过渡图表让整个图衔接得非常顺畅。现有成果似乎是一个系列项目的第一部分,但是我们可能得等一段时间才能看到后面的。

 

7.第二次世界大战的结束

Neil Halloran 的这个项目的一部分是记录,另一部分是交互式可视化,二者无缝衔接在了一起。

qLDhR2Ca

我很惊讶地发现并没有很多人做这个类型的项目。当我意识到他们在做这样一个项目时,我非常希望这个能继续下去(阅读更多)。

 

8. 2014 年是有记录以来最热的一年

最直观的可视化这类数据的方式是单线图。但把线进行分解后,我们可以得到更多的信息。

Wi6YFWeP

彭博社的 Tom Randall 和 Blacki Migliozzi 做的这张动态图展示了月度平均气温。每条线代表一个完整的年份,随着时间由远到近,这条线在几英寸几英寸地升高。

 

9.网络效应

距离上一次看到 Jonathan Harris 的这类项目已经过去一段时间了

P58eBByY

他和 Greg Hochmuth 合作了这个项目,“网络效应”是对整个互联网的点评,可以让人通过一种奇妙而引人入胜的方式了解互联网的方方面面,一次花几分钟。

 

10.常用比喻

“比喻修辞是写作者常用的,在读者脑海中有特定形象的,一种工具和写作习惯”。Bocoup 数据可视化团队做的“常用比喻”项目研究了比喻修辞中常用的词。

vUk73u0g-2

如果你想了解电影里的性别角色和人物性格,这个项目正是你要找的那个。

 

原文链接:http://flowingdata.com/2015/12/22/10-best-data-visualization-projects-of-2015/

原文作者:NATHAN YAU

译者:Fibears

via:数据工匠(微信订阅号ID:shujugongjiang)

]]>
2015年数据可视化十佳项目 //www.otias-ub.com/archives/422926.html Mon, 28 Dec 2015 15:34:13 +0000 //www.otias-ub.com/?p=422926 2015年,优秀的可视化作品生机勃勃,我可以确定,明年也会有很多好作品。横跨不同主题和应用形式的项目大量涌现,但如果让我选一个年度主题的话,那一定是“教学”,不管是通过解释说明,模拟说明还是深刻分析的方式。有时候会感到可视化创作者很大胆,试着让读者们不再用惯有的思维方式来理解数据和统计学。我很喜欢这一点。

Lights of visualization
以下是我选出的 2015 最佳项目。按照惯例,排名不分先后。同时,也有很多不在这个名单上的作品,它们同样很优秀。

我们一起来看看它们。

1.亲爱的数据

这是一个值得跟踪的有趣项目,它涉及的两个话题——可视化和自我监测——引起了我的注意。

3417eb9bbd9017eb2a4e36
亲爱的数据是一个 Stefanie Posavec 和 Giorgia Lupi 做的一年项目。每个人会追踪一周中每天发生的事情,比如每个人接多少次电话,然后把这些数据可视化在一张明信片上。然后他们把这些明信片寄给对方—— Lupi 现居纽约而 Posavec 住在伦敦。

2.你来画:家庭收入如何预测孩子的大学入学几率

感觉今年似乎是挑战读者如何在一个更高的统计学视角上理解数据的一年。

3417eb9bbd9017eb2a5737
纽约时报 Upshot 的 Gregor Aisch, Amanda Cox 和 Kevin Quealy 请读者画一条反映家庭收入和上大学孩子数百分比的线。所以你能看到你自己画的线,真实数据画出的线和其他人是怎么看待这个关系的。

关于Upshot/New York Times 和数据假设,参见 this quick puzzle to test your pattern-finding ability (快速测试你的模式识别能力)和 3-D chart of the economy’s future(经济未来发展3D图)。

3.“黑”出你的科学荣耀

纽约时报的 538 也通过他们的可视化互动进行了一些数据科学教学活动。其中最好的一节课是教人们如何通过“窃取 P 值”( p-hacking )来从同一数据集中得到你想要的结果。

3417eb9bbd9017eb2a6438
这个项目发布的时候正是一个刚毕业的学生被曝出伪造数据的时候(hyperlink)。Christie Aschwanden和Ritchie King的重点不是怀疑一个荒唐的结果是如何通过了严格的同行评审的,相反,他们想说的是,科学地做研究并解释数据才是真正的难点(阅读更多)。

4.制作歌曲“你现在在哪里”

纽约时报的这个团队做了一个有关 Justin Bieber 的访谈,不仅不错,还很有趣。

3417eb9bbd9017eb2a7039
尽管 Bieber 更像一个配角,因为 Diplo 和 Skrillex 才是详尽研究如何制作一首大卖歌曲的人,但是这个配在视频旁边的音乐可视化作品可以帮助你更好地理解音乐家们到底在说什么。

5.麻疹如何在接种了疫苗的儿童中传播及何时不传播

卫报的 Rich Harris,Nadja Popovich 和 Kenton Powell 展示了当一个国家的孩子们不接种麻疹疫苗时会发生什么。

3417eb9bbd9017eb2a773a
作为父母,我想把这整个列表做成交互式的。

6.机器学习的可视化介绍

机器学习似乎像一个有魔力的概念,仿佛意味着一个机器人可以不受你的教导去做奇怪的事。Stephanie Yee 和 Tony Chu 对此用一个可视化例子进行了解谜。

3417eb9bbd9017eb2a803b
这个可视化例子如卷轴般带着你一步一步了解机器是如何“学习”的。过渡图表让整个图衔接得非常顺畅。现有成果似乎是一个系列项目的第一部分,但是我们可能得等一段时间才能看到后面的。

7.第二次世界大战的结束

Neil Halloran 的这个项目的一部分是记录,另一部分是交互式可视化,二者无缝衔接在了一起。

3417eb9bbd9017eb2a883c
我很惊讶地发现并没有很多人做这个类型的项目。当我意识到他们在做这样一个项目时,我非常希望这个能继续下去(阅读更多)。

8. 2014 年是有记录以来最热的一年

最直观的可视化这类数据的方式是单线图。但把线进行分解后,我们可以得到更多的信息。

3417eb9bbd9017eb2a973d
彭博社的 Tom Randall 和 Blacki Migliozzi 做的这张动态图展示了月度平均气温。每条线代表一个完整的年份,随着时间由远到近,这条线在几英寸几英寸地升高。

9.网络效应

距离上一次看到 Jonathan Harris 的这类项目已经过去一段时间了

3417eb9bbd9017eb2aa63e
他和 Greg Hochmuth 合作了这个项目,“网络效应”是对整个互联网的点评,可以让人通过一种奇妙而引人入胜的方式了解互联网的方方面面,一次花几分钟。

10.常用比喻

“比喻修辞是写作者常用的,在读者脑海中有特定形象的,一种工具和写作习惯”。Bocoup 数据可视化团队做的“常用比喻”项目研究了比喻修辞中常用的词。

3417eb9bbd9017eb2aad3f
如果你想了解电影里的性别角色和人物性格,这个项目正是你要找的那个。

原文来源:http://flowingdata.com

原文作者:NATHAN YAU

译者:Datartisan-Fibears

]]>
数据可视化和信息图成功的要素 //www.otias-ub.com/archives/401211.html Wed, 04 Nov 2015 16:48:37 +0000 //www.otias-ub.com/?p=401211 如果仅仅是能够将数据转化成漂亮的图表,或者是设计出20种不同式样的图表来解释你的观点,并不说明你应该利用所有这20种图表,甚至是其中一种。

113

如果要成功报告结果,将你所分析的度量和数据有效地转化为有商业价值的见解,使其能够为基于事实所做的决策提供支持,那么以下有几点指导方针:

29

1.确定你的目标受众。

无论你是否在做一份传统的报表还是新式的信息图,首先问问自己有哪些人将看到这份报告?他们对将要讨论的事项了解多少?他们需要什么?他们又想要知道什么?还有,他们会如何利用你要展示的信息呢?

37

2.定制数据可视化方案。

基于准备好的这些问题所得出的答案,就要开始定制你的数据可视化方案以满足每个决策者的特定要求。商业报告常常会被分发到每个人手上,只是“以防万一”有人会用得上。有时这份报告的部分内容会被切分开来,分别送给不同的人。这种做法只会更加混淆视听,加重决策者的负担。同时,还会使原本能为一个团队提供关于关键区别和见解的信息丢失或错失在对另一个团队有用的数据汪洋中。数据可视化始终都应该是为其受众专门定制的,这样的报告里只应包括受众需要知道的信息,且应将这些信息置于和他们有关并对他们有意义的背景下。

47

3.给数据可视化一个清晰的标签或标题。

既不要模棱两可,也不要画蛇添足,只要解释清楚图表即可。这有助于帮受众直接进入主题。

56

4.将数据可视化和你的策略联系起来。

如果数据可视化的目的在于介绍能解决具体的、可衡量的、可执行的、有相关性和时效性问题的数据,那就在开场白里加上这些问题。稍后再和你的策略连接起来以理清这些数据的定位,因此,读者便能立刻明白可视化数据的相关性和价值。最终,他们便能更好地参与进来,并能够更明智地利用这些信息。

66

5.明智地选择你的展示图表。

不管使用哪一类图表,都应该尽可能简单精准地传达讯息。这就意味着:

76

• 只用有关联能传达重要信息的且为你的受众所需要的图形。不论有多新潮或好看,只为了看上去更漂亮并不是无端多加一张图片的理由。

• — 不必填满纸上的所有空白——太多杂乱的内容只会干扰对重要信息的接收,会让人太难记住,又太容易忽略。

——• 恰当运用色彩,增加信息深度。同时要注意有些色彩具备潜在含义。举例来说,红色被认为是代表警告或危险的颜色。

• 不要使用太多不同类的图表、表格和图形。如果需要对比各种图表,要确保你阐述数据时使用的是同类的图表,这样才能便于互相比较。

• 确保信息图上的所有内容至少都有其用途。

6.使用标题让重点突出。

这样能让读者大致浏览文件,并能快速抓住核心所在。

86

7.在恰当处添加文字说明。

文字说明有助于用语言解释数据,并能在情境化图表的同时增加内容的深度。数字和表格或许仅能提供快照,而文字说明则让人对关键处了解更多,加以评论并强调其内涵。
93

被《纽约时报》称为是“数据界达·芬奇”的爱德华·塔夫特表示,图形显示应该:

• 展示数据。

• 引导观看者去思考图形的主题,而不是方法论、图形设计、图形生成或其他东西。

——• 避免歪曲数据原本的意图。

——• 在小空间内展示许多数字。

• 让庞大的数据集连贯一致。

• 吸引读者将不同的数据片段进行比对。

—• — 从宽泛概述到细微构造,都要将数据不同层面的细节展示出来。

——• 主旨要相当明确:描述、挖掘、作表或修饰。

• 将数据集的统计和语言描述紧密结合。[1]

根据塔夫特所说,“图形表露数据。实际上比传统的统计分析法更加精确和有启发性。”虽然他在1983年说这句话时网络时代还未到来,但塔夫特的建议依然行之有效——特别是在信息图方面。

[1] Tufte ER (1983). 定量信息的视觉呈现. 康乃迪克州:图形出版社。

以上引自:《智能大数据SMART准则:数据分析方法、案例和行动纲领》

]]>
八款卓越开源工具帮你搞定数据可视化难题 //www.otias-ub.com/archives/355822.html Fri, 12 Jun 2015 16:29:24 +0000 //www.otias-ub.com/?p=355822 数据可视化是指将表格或者空间数据转化为人类友好且直观可视形式的处理机制。目前市面上的多款开源工具能够帮助大家创建出实用且信息丰富的图形成果。在今天的文章中,我们将一同了解其中八种开源数据可视化工具。

rYvABbV

Datawrapper

BZJR7jb

Datawrapper是由来自欧洲的多家新闻机构所打造,其设计主旨在于帮助新闻机构以更简便的方式实现数据可视化处理。这款工具拥有基于Web的图形用户界面,且承诺帮助用户只需四步即可创建出一套图形。

要创建出图形成果,我们需要点击屏幕顶部菜单栏中的“New Chart”。接下来,大家可以将数据直接粘贴到文本框当中; 而后,该工具会对数据内容进行分析并显示出预览图。如果内容显示无误,我们就能够直接对结果进行发布。Datawrapper是一款完全开源的处理工具,大家可以从GitHub页面中下载并对其进行托管。此外,我们也可以直接在其网站上使用这款采取云托管形式的付费服务。

Chart JS

Chart JS是一套简洁的图表库。在开始创建图表之前,大家需要将这套库添加到自己的前端代码当中。完成这一步后,我们就能够使用该库提供的API进行图表添加与赋值了。大家可以点击此处查看更多技术细节信息。这款工具非常适合那些需要精确控制外观效果以及图表显示风格的用户,不过如果大家不想给自己增加太多工作量,那么最好还是选择其它更易于上手的方案。

Charted

nY7je2

作为一款由Medium产品科学团队打造的工具,Charted是目前我们能够找到的体积最为小巧的在线图形生成工具之一。大家可以直接将谷歌电子表格或者.csv文件(输入数据)的链接粘贴进去,该工具则会根据数据内容创建出对应图表。Charted每30分钟获取一次数据,从而确保图表始终保持最新状态。虽然提供免费在线方案,但大家也可以利用其源代码托管自己的版本。

D3

aEv6Vj3

D3主要用于处理数据驱动型文件。这是一套JavaScript库,能够帮助大家将随机数据整理到DOM(即文件对象模型)当中,而后对该文件进行数据驱动型转换。正如大家所知,DOM属于编程API、允许程序员们将文件作为对象进行访问,而且这些对象直接反映出其所对应的文件结构。D3提供的各API能够被应用于DOM元素并将其转换成HTML、SVG或者CSS文件。不过需要强调的是,这种方法可能更适合程序员而非普通用户,毕竟不是每个人都愿意通过编写代码来生成图形。

Dygraphs

INfABr

Dygraphs是一套灵活且基于JavaScript的图表库。Dygraphs的最大吸引力在于它能够处理大型数据集并生成可与最终用户交互的输出结果。要利用它建立相关图表,用户需要具备一定的Web编程背景知识,不过与本文前面提到的几款工具相比、它仍然算是容易上手的选项。感兴趣的朋友不妨点击此处查看其示例库,从而了解与其功能相关的更多内容。

Raw

Raw是一款基于Web的工具,允许大家轻松通过几个步骤将数据粘贴进来并创建出图形成果。由于以D3.js库为基础,Raw的使用方式非常简便而且能够囊括D3的所有优点于一身,从而帮助非程序员类用户享受到由此带来的便利。

Timeline

大家在实际工作中,肯定经常遇到需要将事件作为连续时间轴显示的情况。而Timeline这款工具正是为了这类任务而量身打造。要创建时间轴,大家只需要点击此处根据模板对自己的数据进行格式调整。将数据格式调整为谷歌电子表格之后,我们就能使用Timeline的生成器将其整理为图表了——就是这么简单!现在大家还可以将成果转化为嵌入代码,从而将其添加到网页当中。感兴趣的朋友可以点击此处查看视频教程,相信会让您的Timeline探索之旅变得更加轻松。

Leaflet

移动阅读已经成为当下构成高流量与高转换率的关键所在。Leaflet是一款轻量级且移动友好型JavaScript库,能够帮助大家创建出交互式地图方案。Leaflet在设计思路中强调便捷、性能与可用性水平。它能够在全部主流桌面及移动平台上直接运行,发挥现代浏览器当中对于HTML 5及CSS 3的全部支持优势且同样可以在传统浏览器中正常起效。它能够通过数量可观的插件实现扩展,拥有出色、易于使用且配备大量说明资料的API。源代码内容不仅简洁而且易于阅读,大家在使用过程中将始终沉浸在开发的乐趣里。

我希望今天的这份清单能够帮助大家找到最适合实际需求的解决方案。如果各位对数据可视化工具感兴趣,请点击此处查看这份涵盖范围更广的列表——其中的工具数量超过50款。

]]>
数据可视化,10张图看纽约的生活与经济 //www.otias-ub.com/archives/335442.html Thu, 26 Mar 2015 15:50:24 +0000 //www.otias-ub.com/?p=335442 纽约人收入、生活、人文地理经济是怎样的呢?

1、房租。纽约人支付着高昂的房租,平均每月1328美元。

450

2、失业。全市约44万人。

549

3、收入。纽约人年收入总共约4960亿美元。

645

4、按揭贷款人数约62万人。

746

5、噪音指数较高。

842

6、空气质量并不是很好。

938

7、高学历人数大约175万人。

1040

8、互联网使用率快速增加。

1164

9、生活质量指数显示大部分地区指数不高。

1238

10、大多数家庭使用燃气取暖。

1336

来源:赫芬顿邮报
作者:Harry Bradford

翻译:龚蕾

来自:36dsj

]]>
数据可视化:纽约地铁的数字地图 //www.otias-ub.com/archives/249028.html Fri, 27 Jun 2014 17:31:09 +0000 //www.otias-ub.com/?p=249028 纽约地图

这款名为“地铁视野”的手机应用利用计算机视觉技术把一组组数据形象地展示出来,让你一手掌握纽约的交通、人口和街区等信息。

如果你是一个痴迷于研究地图、都市化和数据可视化这类东西的纽约人,那么这款名为“地铁视野”的新手机应用在你看来一定美妙如诗;如果你对这些东西都不感兴趣,这款应用也能在你等地铁无聊的时候给你带来一点乐趣。

只要把你手上的智能手机对准任何一张纽约交通运输管理局发布的地图,“地铁视野”就能借助混合现实技术将纽约的人口、社区和交通等讯息叠加到地图上。在数据可视化这样的高科技问世前,这些讯息只能以无聊的数字方式呈现。

“这个应用正好结合了好几个我感兴趣的东西:计算机视觉技术、数据可视化、还有地铁”,比尔·林德梅尔(Bill Lindmeier)说。林德梅尔毕业于纽约大学创新与创业管理强化班(ITP),这个应用就是他为完成毕业论文设计的。“我最初的想法只是用数字描绘出纽约”他说。

“地铁视野”包含了六组主数据,这些数据以各种迥异的模式在应用中呈现出现。六组数据分别为

官方时刻表:根据交通运输管理局通用运输反馈规程(GTFS )的规范性行驶数据,估算出每辆列车大概的位置,地图上那些像吃豆人一样缓缓移动的彩色圆点就代表着正在行进的列车。

进出旅客数量:根据交通局提供的一整年的相关历史数据,估算出每个站的进出旅客数量。所以,你可以在应用上看到地铁系统在一定时间段内大概的旅客量,平均一天大概有8552646人次进出。

每个社区的平均收入、房租价格、人口密度,数据来自美国人口调查局

以英语为唯一家庭语言的人口占总人口的比重,数据同样来自美国人口调查局

 

林德梅尔被纽约地铁地图独特的视觉语言深深吸引,这版地图大体上还是以传奇设计师马西莫·维格纳利(Massimo Vignelli)的设计为基础。“人和地图本身就存在着不可分割的联系,我希望能好好利用这种联系,并在此基础上扩展,增加一些不同寻常的东西”,林德梅尔说。这款应用是在地铁里使用的(不需要联网),地铁这样的环境更能够让人们觉得它和自己密切相关——人们会感觉得到,不管是自己,还是身边的街头艺人,还是附近啼哭的婴儿,都是手机屏幕上显示的那一个个圆点。

数据可视化

“地铁视野”能够帮助人们更好地认识纽约市,也能让地铁出行不那么无聊,同时,它还有一些更为实际的用途:轻轻点击行程图上的站点,就可以看到该站两个方向接下来四趟车大概的到达时间,这个功能在没有LED时刻表的地铁站特别有用。

如果你有兴趣,可以上苹果商店看看这款“地铁视野”。

via:快公司

 

 

]]>
可视化图表表达的10个错误 //www.otias-ub.com/archives/240455.html Mon, 16 Jun 2014 01:29:48 +0000 //www.otias-ub.com/?p=240455 data-visualization-101-how-to-design-charts-and-graphs-promo-2

数据可视化是一个沟通复杂信息的强大武器。通过可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象。但如果数据可视化做的较弱,反而会带来负面效果。错误的表达会损害数据的传播,完全曲解他们

所以优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当然并非所有的图表制作者都精于此道。所以我们看到的图表表达中,各种让人啼笑皆非的错误都有,下面就是这些错误当容易纠正的例子:

1、饼图顺序不当

饼图是一种非常简单的可视化工具,但他们却常常过于复杂。份额应该直观排序,而且不要超过5个细分。有两种排序方法都可以让你的读者迅速抓取最多的重要信息

方法一:将份额最大的那部分放在12点方向,逆时针放置第二大份额的部分,以此类推。

charts-tip1_1

方法二: 最大部分放在12点,然后顺时针放置

charts-tip1_2

2、在线状图中使用虚线

虚线会让人分心,而是用实线搭配合适的颜色更容易彼此区分

 

chart-tip2

3、数据摆放不直观

你的内容应该符合逻辑并于直观的方式引导读者阅读数据。对类目进行按字母,次数或数值大小进行排序

chart_tip3

4、数据模糊化

确保数据不会因为设计而丢失或被覆盖。例如在面积图中使用透明效果来确保用户可以看到全部数据

chart_tip4

5、耗费读者更多的精力

要通过辅助的图形元素来使数据更易于理解,比如在散点图中增加趋势线

chart_tip5

6、错误呈现数据

确保任何呈现都是准确的,比如,气泡图的大小应该跟数值一样,不要随便标注

chart-tip6

7、在热图中使用不同颜色

一些颜色比其他颜色突出,赋予了数据不必要的重元素。反而你应该使用单一颜色,然后通过颜色的深浅来表达

chart-tip7

8、柱状过宽或过窄

柱子与柱子之间的间隔最好调整为宽的1/2

chart_tip8

9、数据对比困难

对比是呈现差异的有效方式,但如果你的读者不易对比时,效果就大打折扣了。确保数据的呈现方式一致,可以让你的读者对比

chart_tip9

10、使用三维图

尽管这些图看来让人振奋,但3D图也容易分散预期和扰乱数据,坚持2D是王道

chart_tip10

199it编译,附:Data_Visualization_101_How_to_Design_Charts_and_Graphs

]]>
信息图背后的心理学——数据可视化 //www.otias-ub.com/archives/226216.html Thu, 15 May 2014 09:57:46 +0000 //www.otias-ub.com/?p=226216 随着数据导向在企业中蔚然成风,数据展示类的信息界面也变得重要起来。

拥有可视化数据和交互式界面的它正成为商业用户手中重要的工具。更重要的是数据类信息界面也在以app的形式融入普通用户的生活,帮助管理日常活动,如预算追踪和健康管理。

那么是什么让数据类信息界面如此诱人?人们内心渴望,而又被数据类界面完美呈现的这些因素是什么?

控制欲

人们喜欢控制感。可以想象一下如果自己处于一个完全黑暗的环境内。很快你体内的“紧急开关”就将被启动,驱使你去了解周遭情况和了解你可以控制什么。

从进化的角度来理解,让周围环境处于我们掌控中,我们才更可能生存下来。潜意识会基于感知到的可控层级帮助我们堤防各种危险(打还是逃)。

数据类信息界面就给了我们这种控制感。不论是了解花销动态的个人财政数据界面还是帮助企业追踪营销预算的营销数据界面,都是提高你对情况的感知,给你基因内渴求的控制感。

数据可视化

This Marketo dashboard帮助市场团队对预算保持同步,确保花销可控。

大多数的数据界面使用如下三种策略来建立控制感:

提供事物的清晰认知,以建立确定性。 提供对未来进行预测及规划的资源 及时完成重要任务以避免最后关头的恐慌

数据可视化

Calvin and Hobbes by Bill Watterson

减少短期记忆

在Jakob Nielsen的“Short-Term Memory and Web Usability”一文中,指出人类在短期记忆中不能记住太多信息,特别是多个抽象的感念或者不寻常的数据。他引用的他人研究建议短期记忆的数量不应该超过七个,这些信息存在我们的大脑里面也只有20秒钟。

数据界面就是为了克服短期记忆的难题。通过在一个屏幕用户的眼睛跨度内呈现所有相关数据,减少对短期记忆的依赖。不需记忆任何东西,因为它们都在你眼前。

然而,在大多情况下,数据会多到在一屏之内显示不完。因此数据界面围绕短期记忆的限制做了如下三件事:

1.使用图表和图形,以减少短期记忆的负担

为了更好的理解这一点,对比如下两种展示数据的方式:一个表格和一张折线图。

数据可视化

数据可视化

记忆折线图中的上下趋势比表格中的准确数字要简单得多

2.在摘要/概览屏中提供深入了解的入口

在概览屏中提供了关键数据的快照,减少短期记忆的负担。但用户也可以深入了解如果他们需要特定数据的详细信息。

数据可视化

The RescueTime的概览提供了关键指标的鸟瞰图,并且可以进一步了解细节。

3.将数据分tab展示,并保证相关数据在同一个tab中。

将信息分解成可消化的小块,可以降低用户的认知负担。将相关的信息放到同一个tab下面,方便用户来分析他们。

数据可视化

Mint将数据分解成吐下tab:概览,交易,预算,目标,趋势,投资和如何更省。

更好用

保持简单!这一原则在商业和现实生活中同样适用。

比如有个库存管理系统。如果使用纸笔,将花费好几个小时来维持同步入库和出库订单的记录(更别提这么做需要的腿脚),有了数字化的数据界面,这些时间可以被大幅衰减。

数据可视化

Stitch Labs就是这样一个库存管理系统,可以让商家同时监控多个销售渠道的库存。

随着响应式设计的普及,这些数据信息将能够跨设备使用,让用户可以通过台式机、笔记本或其它移动设备访问该数据。

数据可视化

The FitBit dashboard可以在多个设备上使用。

结论

任何将数据类信息作为关键服务的产品,都需要将以上用户的心理需求牢记在心。用户喜欢控制感,她们的短期记忆很有限,他们喜欢简单的东西。这三个因素应该成为所有数据信息界面设计的基础。了解你们的用户需求,将它们加入你的设计实践中,这样你就能建立完美的数据信息界面。

]]>
数据可视化2.0 //www.otias-ub.com/archives/218652.html Sun, 04 May 2014 02:24:18 +0000 //www.otias-ub.com/?p=218652          许多技术和沟通方式都经历过痛不欲生却无法跨越的阶段,从音乐合成器到互联网,概莫能外。今天,数据可视化技术已经达到了上图中左侧图表的水平,该图表来自一家叫做JobVine的网站。

  该图表色彩鲜艳,虽然看上去像一张信息图,却让人有些费解。如今每个人都能利用特定的工具创作出音乐、网站、可视化数据等内容。在这种情况下,图表的泛滥并不奇怪。但凡事都有一个过程。20世纪初人类就发明了电音合成器,但在合成器变得物美价廉之前,并没有被广泛用于流行乐。UNIX操作系统高手统治了互联网30年,直到首个浏览器问世,出现了一种普通人就能学会的标记语言,这一格局才被打破。而数据可视化的历史和地图一样久远,过去它一直拥有特定的用户群,且制图过程非常耗时。

  今天,是数据可视化最好的时代,也是最坏的时代。现在,普通人可以利用诸如IBM公司的Many Eyes等网站以及Tableau Public等软件,轻松上传海量数据,定制自己的可视化图表。而相对廉价的编码工具,如JavaScript和HTML,让业余的编程人员都能做出复杂甚至具备互动功能的图表。但这种“民主化”也炮制出很多次货。所幸,根据以往经验,未来应该是光明的。

  让我们先来回顾一下事情的经过。起初,世界各地的爱好者掌握了不断更新的技术,并强迫世界接受他们所谓的创造力。比如,20世纪80年代,桌面出版系统(desktop publishing)问世后,新闻业开始在出版品上广泛使用20种颜色及31种字体。

  接着,大家开始滥用新工具,全然不顾是否实用和合理,就盲目跟风。(比如用Twitter来直播婚礼?开玩笑吧!)这种滥用的表现形式之一就是“高大上”的图表。《纽约时报》就是这一做法的先驱,它曾根据地区分布,发布过一个“超级碗”比赛期间,Twitter高频词的可视化结果。结果显示,匹兹堡最高频的词是“钢人队”,亚利桑那州最高频的词是“红雀队”,而中场休息时,高频词则是“斯普林斯汀”,因为当时他正在做表演。《纽约时报》此举无异于下血本让人飞上太空,只为确定地球上每个大洲的形状。

  然而,人们终将更加娴熟地使用这些技术,并在相关领域取得突破性成果,带来良性发展。数据可视化服务的青春期也许有些尴尬,但它正在走向成熟。例如,在上方的另一个图,是由JunkCharts重新设计的谷歌薪资情况的图表。JunkCharts是一家网站,在某种程度上它也是数据可视化发烧友最常光顾的社区,发烧友们制作出堪称范例的图表,并对其优点展开讨论。

  与JobVine提供的图表相比,JunkCharts图表标记更为精准,也更简明易懂。它没有无关的图解或颜色。无疑,网站创始人冯启思(Kaiser Fung)是视觉化大师爱德华·塔夫特(Edward Tufte)的门徒。塔夫特在他的权威著作《定量信息的视觉显示》(The Visual Display of Quantitative Information)、《视觉解释》(Visual Explanations)和《构想信息》(Envisioning Information),以及“一日课”项目中反复强调了克制、简洁、公平和精确这几项原则。

  但是,如今塔夫特的原则亟待补充。毕竟,《定量信息的视觉展示》首次出版于1983年,当时是PC时代的开端,只有简单的数字图表工具、电子制表软件,连彩印技术都还在萌芽中。该书没有预见到社会化分享造成的数据可视化大爆炸。更重要的是,他也没能预言到,究竟有多少信息图表只是哗众取宠而已?因此,即使塔夫特的学生用各种方法证明上面右侧图表更胜一筹,普通读者还是会觉得这张表无聊透顶。如果要发一张图表到Twitter和Facebook上,你觉得他们会选哪一张?

  因此,今天顶尖的数据可视化工作者正在努力超越塔夫特,试图在信息与设计、精准与精彩、知识点与卖点之间找到平衡。以凯瑟琳·穆尔布兰登(Catherine Mulbrandon)为例,她既是一位经济学家,也是一位交互设计师,在她的网站(VisualizingEconomics.com)和最近自行出版的新书《美国收入图解指南》(An Illustrated Guide to Income in the United States)中,她向读者呈现了数百种制作精良的信息图表,其精简性与它们所代表的数百万数据形成鲜明对比。书中最受欢迎的例子是一个树状图,该图展示了美国劳动统计局10年间跟踪的各行各业的变化。蓝色代表收入增长,收益越多,颜色越深,反之亦然,只是用粉色代表。其中最粉的部分就是制造业及信息业,后者令人意想不到。它给读者带来深远的冲击力,这也是所有伟大图像的魔力所在。另一位才华横溢的大师柯克·戈尔兹伯里将此称为极乐点——它能让读者眼前一亮,想做深入研究。

  大卫·麦坎德利斯(David McCandless)在他的网站,以及著作《异想世界》(The Visual Miscellaneum)和《信息之美》(Information is Beautiful)中做着同样的事。麦坎德利斯是一名数据记者,常常在《连线》或《卫报》等国际出版物上发表文章。有时他会选择一些好玩的题材——比如同时做两个可视化图表,一个是关于如何调制出受欢迎的鸡尾酒,一个是关于如何缓解宿醉。但同时他也擅长处理严肃信息。他曾做过一个很清晰的图表,内容是一个人可以通过改变日常的19种习惯,在一年内减少8吨碳排放。他还有一个关于直接和间接用水的图表,证明将农耕用水也算进来的话,日常活动中用水量最大的并非洗澡或洗衣服,而是煮鸡蛋。

  在数据可视化这条道路上,并非只有穆尔布兰登和麦坎德利斯两人,还有马丁·瓦滕伯格(Martin Wattenberg)、费尔南达·维埃加斯(Fernanda Viégas)、杰·索普(Jer Thorp)、内森·姚(Nathan Yau)和杰里米·霍华德(Jeremy Howard)等。但在未来,我们需要更多这样的人才,以及更成熟的创作工具。

  人类正在以空前的速度制造数据。如果没有可视化,数据的理解将越发困难。懂得更好地将数据可视化的人会赢得竞争优势,因为他们具备独特的洞察力。因此,复杂的信息图成为董事会议标配不过是时间问题。每个管理团队都希望公司的产品销售情况能做可视化处理,并有互动功能,包括谁买的,花多少钱买的,什么时间买的,当时天气如何,他们还买了什么等细节。承载这些信息的表格几乎无法分析,但有了数据可视化,对大数据做有意义的分析也会成为可能。

  优秀的可视化数据也能将复杂的想法具象化。其原形是病毒视频“美国财富的不均等”,这一视频戏剧性地将美国人的收入差距形象化地呈现在观众面前。其他例子还包括美国无人机轰炸事件及其死亡人数的可视化,或是财富500强企业的实际税率可视化,以及地球到火星距离的可视化。

  大卫·麦坎德利斯的新书名为《知识之美》(Knowledge is Beautiful,Harper Design出版社预计2014年出版)。我认为麦坎德利斯的书名以及内容的演变,很好地概括了这一学科发生的蜕变——从混杂到信息,再到知识。

  这是数据可视化的走向和必经之路。未来,数据可视化或将成为人类弄懂海量数据的惟一方法。而站在未来回顾今天,应该就像今天我们对上世纪90年代末网站和新浪潮时期合成器的看法一样吧。(译/牛文静 校/王晨)

作者:斯科特·贝里纳托

]]>
数据可视化专家的七个秘密 //www.otias-ub.com/archives/167775.html Tue, 05 Nov 2013 08:47:07 +0000 //www.otias-ub.com/?p=167775 数据可视化的道路上充满了不可见的陷阱和迷宫,最近ClearStory Data的两位数据可视化开发人员分享了他们总结出来的数据可视化开发的7个不宣之秘,普通开发者了解这些方法能提升视野,少走弯路。

 

数据可视化, 特别是基于Web的数据可视化的时代已经到来了。 类似JavaScript的可视化库如D3.js, Raphaël, 以及Paper.js, 以及最新浏览器所支持的如Canvas和SVG, 以及使得那些过去只能由计算机专家和专业设计人员开发的复杂的可视化变得越来越简单了。

 

数据可视化如今成为了很多网站项目的必备功能。 而类似于Platfora, DatameerClearStory Data以及Chartio等初创公司则可以利用基于浏览器的分析平台融到数百万美元的投资。

 

数据可视化是数据探索以及数据表现的重要方式, 然而, 对于数据可视化的开发者来说, 依然有很多挑战要去面对。 这些迎接这些挑战的方法, 则是很多专业的数据可视化开发者不愿意让别人知道的秘密。 ClearStory Data的两位数据可视化开发人员Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他们总结出来的数据可视化开发的7个秘密以及在实践中如何应对的方式。 IT经理网编译如下:

 

秘密一: 现实中的数据往往很丑

 

大部分的数据可视化的教程, 都会让你轻松地从一个原始数据集开始。 无论你是学习基本的柱状图还是力导向的网络图, 你的数据都是干净的,经过整理的数据。 这些完美的JSON或者CSV文件就像电视里的厨艺节目中的灶台那样干净整洁。而实际上, 当你在处理现实中的真正的数据是, 你80%的时间得用来搜寻, 获取, 载入, 清洗以及转换你的数据。

这样的过程, 有时候可以用自动化的工具来完成。 不过, 差不多任何需要针对两个以上的数据集进行清洗的工作总会需要或多或少的人工的工作。有很多工具能够把XLS文件转化为XML的格式或者把时间戳转换为其他日期格式。但是, 要想把一个公司的内部使用的销售类型与竞争对手进行比对, 或者对输入错误进行检查, 或者对不同的Encoding或者OCR产生出来的文字进行检查时, 就只能靠手工来处理了。

 

工具及处理方式:

 

1)在数据可视化项目中给数据清洗留出足够的时间, 特别是在需要处理多个数据源, 需要手工录入或者OCR数据, 进行不同类别的配比, 或者需要处理一些非标准格式时, 需要留出更多的时间。

 

2)Google Refine (编者:需要翻墙)是一个很好的数据清洗工具, 尽管在有些地方, 特别是处理非表格化数据时有些不足。 此外, 还有一些数据清洗专用的工具如Data Wranger 和 Mr. Data Converter。 不过, 很多的数据清洗工作仍然需要你熟悉脚本语言如Python或者需要你在Excel里进行一些手工工作。 记得把你的脚本存档, 你以后肯定用得上。

 

3)用简单的一些散点图或者直方图来发现一些超正常范围的错误数据。

 

秘密二: 柱状图往往更好

clip_image002

和柱状图比起来, 气泡图可以在同样的空间表现更多地数据, 饼图可以更清晰地表现整体和局部的关系, 树状图能够更好地表现分层的结构。然而, 这些图在简单明了方面都无法与柱状图相比。

 

在考虑数据可视化设计方案时, 我们要问自己的第一个问题就是:“这个方案比柱状图好吗?” 如果你需要在一个单一维度上可视化一个可量化的数据集,那么很少有别的方式能比得上柱状图。 类似的, 时间序列最好表现为线状图, 而散点图一般用来表现两个线性度量的相关性。 在数据可视化设计中, 使用这些从18世纪以来就一直在使用的图风险最低。 而柱状图对于进行数据比较的可视化来说是最佳方式。 因为我们人眼最习惯的比较方式就是将两个东西并排比较。

 

关于柱状图优先, 其实揭示了数据可视化中一个最大的秘密, 那就是, 那些最酷的可视化往往用处反而最小。 最求新奇以及美观的可视化往往带来一个问题,那就是数据的可理解问题。 很多柱状图的替代图迫使人们用他们并不擅长的方式进行比较, 如比较面积, 角度, 色彩, 或者透明度等。 这些比较, 说好听的, 是增加了比较的难度,说的严重一些, 可能会对数据进行扭曲, 导致使用者得出错误的结论。

工具及处理方式:

 

1)不要轻易抛弃那些传统的可视化方式, 如果这些方式能够表现你的数据。 先试试柱状图或者线状图, 如果你的数据真的需要其他的再考虑其他图。

2)理解其他形式的图的表现优势, 比如, 气泡图支持更多地数据范围, 饼图支持局部全局的对比, 树状图能够支持分层结构等等。

3)柱状图是可视化最容易的图形之一, 你可以手工编写一段HTML代码, 仅仅使用CSS或者很少量的JavaScript, 或者从Excel里面的一个公式, 就可以生成一个有效的柱状图来。

 

秘密三: 真实数据不可替代

 

对一个数据集进行清洗和格式化已经很繁琐了, 如果你需要设计一个基于多个数据集的可视化呢? 比如你需要把公司不同部门的数据进行可视化, 而这些部门各自有各自的数据库, 而且你也没有时间手工把每个数据集进行清洗。 这时候, 人们的第一想法可能是抓一些Demo的数据来进行可视化。 而且你的可视化库里可能就有一些标准的样本数据。

 

很不幸, 真实数据不可替代。 Demo数据一般遵循正态分布而且数据量有限。 是为了展示可视化用的。 而一个看上去完美的柱状图,并不能帮助你解决那些数据缺失, 异常数据或者现实中的真实问题。 如果你过度依赖Demo数据, 当你用真实数据时, 你就会发现你的数据可视化设计并不能真正满足你的数据分析或者数据表现的需求。

 

工具及处理方式:

1)如果你无法访问整个数据集, 不妨先试试从真实数据集中随机取些样本数据。

2)保留无效或者缺失数据, 如果你的数据集在可视化前不准备进行数据清洗, 那么也不要清洗样本数据。

3)真实数据集也许过大。 在你使用样本数据时,在生成最终的可视化图前, 等比例调整样本数据规模。

 

秘密四:细节的地方才最头痛

clip_image004

如上图, 当你水平排列数据标识时, 数据标识会看不清, 如果旋转90度, 数据标识是看清楚了, 不过又浪费了很大一块空间。 选择一个合适的数据标识格式对有些可视化来说是个解决方案, 不过也不是对所有方案都适用。

 

设计数据标识, 注释或者横轴纵轴通常都是在初始可视化后才考虑的。 不过这些元素对可视化来说非常重要, 而且可能会很困难或者需要大量时间才能把它们做好。 特别是在你无法事先预知你的数据的情况下。

 

在设计你的可视化的时候, 你需要留出相当部分的空间以便你可能需要添加标识只用, 通常要在你的图周围留出相对较大的空间。 横纵轴上的标识要保证它们不相互覆盖而且可读。 如果必要的话, 可以将标识进行旋转来增加可读性。 如果有一块空间标识过于集中, 而你又需要这些标识可读, 你可以让考虑把标识离它们所指的元素远一些, 然后用连接线把标识和元素连起来。 另外一种方式就是把标识整合成一个组, 用标识工具提示的方式来进行可视化。 如果标识的文字过长, 可以考虑进行缩写或者把超出的文字剪掉等方式。

类似的, 对图的注释也需要事先计划好。 最简单的方式就是在可视化中保留一部分区域来方便添加注释。 不过, 这样意味着你的图所占的部分就会减小。 为了保留空间, 把注释放在图上的空白部分。 或者把注释做成可拖拽, 这样用户可以把注释移开来看注释遮盖的部分。

 

工具及处理方式:

1)在设计时把数据标识, 数据轴及注释的空间在图上留好。

2)对数据标识, 定义最大字符数, 超出部分需要裁掉。 把相近的标识组合在一起, 在用户点到时再显示。

3)对长注释, 可以考虑用滚动或者展开的方式

4)无论如何, 不要忽视这些元素。 数据标识在你专注图形设计的时候, 可能不是你的最主要考虑, 不过它们对可视化的用户来说非常重要。

 

秘密五:需要的时候才用动画

可视化的设计者经常希望能够在最终设计上加上动画。 动画是一种连接数据和变化趋势的非常有用的工具。 不过动画也常常会导致对你的数据的错误理解。 你需要对它会如何影响你的最终效果进行评估, 而不是简单地在最后加上动画效果。 动画最适合表现的, 是揭示数据如何在不同状态下组合在一起, 如何随时间变化或者是如何相互影响的等场合。

 

一般的设计原则是, 动画要简单, 可预测并且可以重新播放。 让用户能够多次播放动画, 可以让他们看到动画元素从哪里开始到哪里停止。 要避免不同元素在移动中互相覆盖, 不要让元素的运动不可预测。 对于复杂的动画, 研究表明, 可以把动画分解为几个不同的阶段,在每个阶段暂停一会给用户一些时间来体会。 这样有助于提高用户的理解。

 

工具及处理方式:

1)尽可能让动画简单

2)如果动画复杂或者有很多动画元素, 可以考虑分阶段动画

3)一开始动画往往能够给人新鲜感, 不过会很快让用户感到厌倦。 不要仅仅因为你会加动画就在你的可视化你加上动画。

 

秘密六: 数据可视化不是分析

 

数据可视化可以产生一些分析结果, 不过需要指出的是, 可视化是一个辅助分析的工具, 而不是数据分析的替代, 它也不是统计的替代: 你的图形可能揭示了一些数据差异或者数据的相关性。 不过, 要得出存在这些差异和相关性的可靠结论, 还需要运用统计的方法。 要对你的数据真正了解, 需要分析的技能, 以及专业的知识。 不要指望可视化能够给你这些。 因此, 在进行可视化项目的时候, 要调整客户或者你的CEO的期望值。

 

工具及处理方式:

1)除非你就是数据分析师, 你对数据可视化得出的结论不要轻易下判断。 如果需要进行结论, 最好找一个统计师或者专业人士一起验证后再给结论。

2)一些细小的设计改变, 比如调色板的变化, 对某个变量的可视化方式等, 都可能改变可视化得出的结论。 如果你用可视化进行分析, 一定要试试多种可视化方式, 而不要依赖于一种方式。

3)Stephen Few的 书“Now You See It”里面介绍了利用可视化进行商业分析的方式, 包括对开发者如何设计可供分析使用的可视化工具的一些建议, 读者可以参考

 

秘密七: 数据可视化不仅仅是编程

 

现在大量的可视化编程库和教程使得普通的人员在进行基于Web的可视化中, 也可以设计出高质量的可视化产品。 然而, 要想真正设计一个能够提供深入见解, 或者能够清楚表达的可视化产品, 除了编程之外, 还需要很多其他的技能。 比如图像设计, 数据分析, 交互设计, 以及对人们认知的了解等待。 这些技能, 是那些可视化编程库提供不了的。(参考本站文章:数据可视化是科学, 也是艺术

 

不过, 好消息是,如果你坚持采用一些数据可视化的基本原则的话。

 

你也不需要对这些技能了解太多。对于初学者来说, 需要坚持一些最基本的原则, 比如, 尽量使用柱状图, 不要把圆半径设置按线性比例设定(编者: 在面积比较时会给用户错误理解), 设计要简单(不要用3D, 少用动画, 不要用阴影)等。 按照一些好的可视化样本, 初学者也可以创造出好的可视化作品来。

文章来自IT经理网

]]>
数据可视化交互布局 //www.otias-ub.com/archives/146733.html Sun, 01 Sep 2013 16:55:57 +0000 //www.otias-ub.com/?p=146733 每一天从我们睁眼开始,我们就开始不断地接收着这个世界传递给我们的各种信息,海量的信息不断地充斥着我们的眼球、大脑。如此庞大的信息库,我们平时都在看什么呢?不知道各位有没有这样的经历,走在大街上,你最容易被什么样的人群所吸引呢?毋庸置疑,必然是精心打扮的女生!

接下来我们来看个“栗子”,逛超市的时候,满是商品的货架上,如图

1

你会关注哪个商品呢?我相信,我们的大脑永远在选择最简单、最直接的、最特别的呈现形式的事物,因为这些信息不需要经过大脑的转换,够直观!不知道各位,小时候有没有看过寓言故事类型的连环画,那些可爱的卡通人物,场景,完全直观地活灵活现地展示了一个个场景在眼前,我们完全沉醉于其中,这都说明,人的大脑喜欢直接的信息传递。

今天的我们生存在一个大数据的时代,密密麻麻的数字,庞大的数据库,充斥了我们的大脑,请问各位还会有兴趣去挖掘这些数据里潜在的秘密吗?我猜应该没有吧!大家的时间太宝贵了,于是有了数据可视化,数据可视化的使命跟职责就是让我们能从可视化的图标里看到数据的关系,本质,趋势。

数据可视化就是通过可视化手段将枯燥的数据图形化,直观化展示给用户。

明白了数据可视化的使命,让我们来看看当前业界的可视化平台都是如何树立自己品牌形象且抓住用户去使用这个平台的呢?

1.“数据可视化”交互布局

  • 首页——上下结构布局

26

通过目前线上比较知名的国内外数据分析平台首页设计,不难发现,其首页的架构分为上下布局,更多的是通过Banner图来展示自己的特性,其次再通过一个个案例来进行事例说明,或者摆出各种合作伙伴Logo来提升自我品牌形象。首页的轮播Banner图通常起到的作用是介绍该平台的数据分析的特点,通常通过这几个方面来展示Banner图,数据的呈现的速度、数据容量、用户体验、服务品质、分析的维度、多种自定义设置配置——人性化设置,其次首页也不可缺少的就是“新手指引”。

3

4

5

 

  • 内页——结构布局

根据多个案例分析,视觉可视化的交互基本分为两类:

下图属于信息层级关系很明确,不是直观展示数据,缺点:数据隐藏很深,很难让用户产生兴趣继续查看;优点:可承载数据量大。
27

下图属于信息扁平化呈现,数据展示直观,缺点:承载数据量少;优点:数据展示直观,用户容易在查看的过程中挖掘自己的兴趣点。
25

2.“数据可视化”设计元素

认知心理学和图形设计

信息可视化的两大基础是认知心理学和图形设计,认知心理学是理论基础,图形设计是实践操作。可视化不仅仅是视觉上的,该领域的研究人员也尝试着将听觉、嗅觉和触觉融合进去(比如针对残障人士的设计)。在《信息可视化的基本过程和与主要研究领域》一文中,作者将视觉上的可视化变量分为 7 种:位置、形状、大小、方向、色彩、纹理、灰度,有时候也会将色彩分为色相、亮度和饱和度。基本上所有的信息可视化应用都是一个或多个变量的组合。不同的视觉变量在呈现数据各有优劣(从认知角度),如下表所示:

——文案内容摘自百度百科知道

24

  • 数据可视化——呈现形式

通常目前数据可视化的表现形式,我们最熟悉的有饼图、直方图、散点图、柱状图,而这些都是最原始的统计图表。

饼状图
用圆内各个扇形的大小表示各部分量占总量的百分之几
6

直方图
将一个变量的不同等级的相对频数用矩形块标绘的图表(每一矩形的面积对应于频数)
7

柱状图
是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析
8

散点图
用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式
9

 

  • 数据可视化——呈现方法

a. 将指标值图形化
一个指标就是一个数据,将数据的大小以图形的方式呈现。比如用柱状图的长度或高度表现数据大小。
10

b. 将指标图形化
一般用与指标含义相近的ICON来表现
11

c. 将指标关系图形化
当存在多个指标时,挖掘指标之间的关系,并将其图形化表达,可提升图表的可视化深度。

借助已有的场景来表现
联想自然界或者社会现象里有无与指标关系类似的,然后借助此场景来表现数据。比如下图,是统计全球使用操作系统分布图,首先分为windows、mac还有其他操作系统,windows又包含XP、2003等多种子系统。
12

构建场景来表现
指标之间往往具有一些关联特征,如从简单到复杂,从低级到高级,从前到后等,如无法找到相对应的场景,也可以自己构建。支付宝新出的个人年度账单中,在描述付款最多的三项时,构建了一个领奖台的形式:
13

d. 将时间和空间可视化
时间:通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,地图作为主要背景呈现所有信息点
空间:当图表存在地域信息并且需要突出的表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点
28

e. 将数据进行概念转换
所谓的数据概念转换,即我们生活中喝水的时候通常只会说喝一杯水,但不会说喝30ML的水,一个确实的数据展示,我们是难以感知的,但是用一个杯子来概念转换,我们很容易感知到其大小。

如果只看左半部分中国烟民的数量:32000000,知道数据量级很大,但具体有多大却很难感知;直到看到右半部分:中国烟民数量超过了美国人口总和,这样一对比,对数据的感知就加深了。
27-(2)

f. 让“图表”动起来
数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。实现动态化通常以下两种方式: 交互和动画。

小结:

数据可视化的可以分为以下几个步骤:
16

  • 数据可视化——视觉元素分析

接下来我们来看看目前线上的数据可视化平台视觉设计:
17181920

通过这些案例,我们会发现设计上都有普遍的共性:

a. 在颜色的使用上都偏暖色系;
b. 颜色的数量上不超过5种;
c. 颜色使用上基本保持识别度高的色彩,如红、绿、蓝、黑、灰;
d. 背景色使用上以白,灰为主;
e. 字体的使用上只使用一种字体

推荐

“数据可视化”信息图制作工具

在茫茫的文字海洋里解读你的疑问,已经是过时的形式了,并且也是低效率的工作方式了。上篇大篇幅的介绍了数据可视化平台的设计展示形式,其目的与意义都是为了给用户带来方便,让大量的数据信息直观地展示给用户,为用户提供更易解读,更有乐趣,更加美观,快捷的获取信息的方式。但是可视化的图形制作却也大大地为难了设计师,这里为广大苦恼的感性的悲催的视觉设计师们提供一些小工具——轻松制作超赞的信息图形。

infogr.am
Infogr.am仍然是面向非设计师的信息图形设计工具。它允许用户将数据传到网站上并将其解读成图表模式,允许用户自定义图形,并提供更多智能化界面展示信息。
29

StatSilk
StatSilk有网页版和桌面客户端,为用户提供了具有更强交互性的,自定义极高的和栩栩如生的图形、图标、地图和其他可视化数据制作精美的信息图形。
30

看到这里是不是挑起了你的兴趣了呢?

当然,还有众多的在线制作信息图的网站等着你去尝试:
1.Stat Planet:能让你做出很炫的互动信息图,成品可以输出成互动型或者静态图片。缺点是只能用网站本身提供一些调研数据,制作成自己的图表。
2.Hohli:简单易用,设计很人性化。你可以简单的选择图表类型,添加数据,调整尺寸,颜色,预览成品。用它做出来的图表漂亮,精致。
3.Many Eyes:这里提供的图表/形很精美,看起来很专业。
4.Wordle:能把纯文本通过特别的排列做成图形,你可以导入整本书,一个小段落等等。
5.Tableau:用于Windows平台的免费制作图表软件。它做出来的图表色彩鲜艳,很独特。
6.GapMinder:Adobe公司出品的制作图表的软件,并且提供很多行业的数据,如美国农业,美国城市发展数据等。

感谢你的阅读,本文由 腾讯ISUX 版权所有

]]>
数据可视化的七个秘密 //www.otias-ub.com/archives/139061.html Thu, 08 Aug 2013 10:16:25 +0000 //www.otias-ub.com/?p=139061 数据可视化,特别是基于Web的数据可视化的时代已经到来了。类似JavaScript的可视化库如D3.js,Rapha?l,以及Paper.js,以及最新浏览器所支持的如Canvas和SVG,以及使得那些过去只能由计算机专家和专业设计人员开发的复杂的可视化变得越来越简单了。

数据可视化如今成为了很多网站项目的必备功能。而类似于Platfora,DatameerClearStoryData以及Chartio等初创公司则可以利用基于浏览器的分析平台融到数百万美元的投资。

数据可视化是数据探索以及数据表现的重要方式,然而,对于数据可视化的开发者来说,依然有很多挑战要去面对。这些迎接这些挑战的方法,则是很多专业的数据可视化开发者不愿意让别人知道的秘密。

  秘密一:现实中的数据往往很丑

大部分的数据可视化的教程,都会让你轻松地从一个原始数据集开始。无论你是学习基本的柱状图还是力导向的网络图,你的数据都是干净的,经过整理的数据。这些完美的JSON或者CSV文件就像电视里的厨艺节目中的灶台那样干净整洁。而实际上,当你在处理现实中的真正的数据是,你80%的时间得用来搜寻,获取,载入,清洗以及转换你的数据。

这样的过程,有时候可以用自动化的工具来完成。不过,差不多任何需要针对两个以上的数据集进行清洗的工作总会需要或多或少的人工的工作。有很多工具能够把XLS文件转化为XML的格式或者把时间戳转换为其他日期格式。但是,要想把一个公司的内部使用的销售类型与竞争对手进行比对,或者对输入错误进行检查,或者对不同的Encoding或者OCR产生出来的文字进行检查时,就只能靠手工来处理了。

  工具及处理方式:

1)在数据可视化项目中给数据清洗留出足够的时间,特别是在需要处理多个数据源,需要手工录入或者OCR数据,进行不同类别的配比,或者需要处理一些非标准格式时,需要留出更多的时间。

2)GoogleRefine(编者:需要翻墙)是一个很好的数据清洗工具,尽管在有些地方,特别是处理非表格化数据时有些不足。此外,还有一些数据清洗专用的工具如DataWranger和Mr.DataConverter。不过,很多的数据清洗工作仍然需要你熟悉脚本语言如Python或者需要你在Excel里进行一些手工工作。记得把你的脚本存档,你以后肯定用得上。

3)用简单的一些散点图或者直方图来发现一些超正常范围的错误数据。

  秘密二:柱状图往往更好

\

  和柱状图比起来,气泡图可以在同样的空间表现更多地数据,饼图可以更清晰地表现整体和局部的关系,树状图能够更好地表现分层的结构。然而,这些图在简单明了方面都无法与柱状图相比。

在考虑数据可视化设计方案时,我们要问自己的第一个问题就是:“这个方案比柱状图好吗?”如果你需要在一个单一维度上可视化一个可量化的数据集,那么很少有别的方式能比得上柱状图。类似的,时间序列最好表现为线状图,而散点图一般用来表现两个线性度量的相关性。在数据可视化设计中,使用这些从18世纪以来就一直在使用的图风险最低。而柱状图对于进行数据比较的可视化来说是最佳方式。因为我们人眼最习惯的比较方式就是将两个东西并排比较。

关于柱状图优先,其实揭示了数据可视化中一个最大的秘密,那就是,那些最酷的可视化往往用处反而最小。最求新奇以及美观的可视化往往带来一个问题,那就是数据的可理解问题。很多柱状图的替代图迫使人们用他们并不擅长的方式进行比较,如比较面积,角度,色彩,或者透明度等。这些比较,说好听的,是增加了比较的难度,说的严重一些,可能会对数据进行扭曲,导致使用者得出错误的结论。

  工具及处理方式:

1)不要轻易抛弃那些传统的可视化方式,如果这些方式能够表现你的数据。先试试柱状图或者线状图,如果你的数据真的需要其他的再考虑其他图。

2)理解其他形式的图的表现优势,比如,气泡图支持更多地数据范围,饼图支持局部全局的对比,树状图能够支持分层结构等等。

3)柱状图是可视化最容易的图形之一,你可以手工编写一段HTML代码,仅仅使用CSS或者很少量的JavaScript,或者从Excel里面的一个公式,就可以生成一个有效的柱状图来。

  秘密三:真实数据不可替代

对一个数据集进行清洗和格式化已经很繁琐了,如果你需要设计一个基于多个数据集的可视化呢?比如你需要把公司不同部门的数据进行可视化,而这些部门各自有各自的数据库,而且你也没有时间手工把每个数据集进行清洗。这时候,人们的第一想法可能是抓一些Demo的数据来进行可视化。而且你的可视化库里可能就有一些标准的样本数据。

很不幸,真实数据不可替代。Demo数据一般遵循正态分布而且数据量有限。是为了展示可视化用的。而一个看上去完美的柱状图,并不能帮助你解决那些数据缺失,异常数据或者现实中的真实问题。如果你过度依赖Demo数据,当你用真实数据时,你就会发现你的数据可视化设计并不能真正满足你的数据分析或者数据表现的需求。

  工具及处理方式:

1)如果你无法访问整个数据集,不妨先试试从真实数据集中随机取些样本数据。

2)保留无效或者缺失数据,如果你的数据集在可视化前不准备进行数据清洗,那么也不要清洗样本数据。

3)真实数据集也许过大。在你使用样本数据时,在生成最终的可视化图前,等比例调整样本数据规模。

  秘密四:细节的地方才最头痛

\

如上图,当你水平排列数据标识时,数据标识会看不清,如果旋转90度,数据标识是看清楚了,不过又浪费了很大一块空间。选择一个合适的数据标识格式对有些可视化来说是个解决方案,不过也不是对所有方案都适用。

设计数据标识,注释或者横轴纵轴通常都是在初始可视化后才考虑的。不过这些元素对可视化来说非常重要,而且可能会很困难或者需要大量时间才能把它们做好。特别是在你无法事先预知你的数据的情况下。

在设计你的可视化的时候,你需要留出相当部分的空间以便你可能需要添加标识只用,通常要在你的图周围留出相对较大的空间。横纵轴上的标识要保证它们不相互覆盖而且可读。如果必要的话,可以将标识进行旋转来增加可读性。如果有一块空间标识过于集中,而你又需要这些标识可读,你可以让考虑把标识离它们所指的元素远一些,然后用连接线把标识和元素连起来。另外一种方式就是把标识整合成一个组,用标识工具提示的方式来进行可视化。如果标识的文字过长,可以考虑进行缩写或者把超出的文字剪掉等方式。

类似的,对图的注释也需要事先计划好。最简单的方式就是在可视化中保留一部分区域来方便添加注释。不过,这样意味着你的图所占的部分就会减小。为了保留空间,把注释放在图上的空白部分。或者把注释做成可拖拽,这样用户可以把注释移开来看注释遮盖的部分。

 工具及处理方式:

1)在设计时把数据标识,数据轴及注释的空间在图上留好。

2)对数据标识,定义最大字符数,超出部分需要裁掉。把相近的标识组合在一起,在用户点到时再显示。

3)对长注释,可以考虑用滚动或者展开的方式

4)无论如何,不要忽视这些元素。数据标识在你专注图形设计的时候,可能不是你的最主要考虑,不过它们对可视化的用户来说非常重要。

秘密五:需要的时候才用动画

可视化的设计者经常希望能够在最终设计上加上动画。动画是一种连接数据和变化趋势的非常有用的工具。不过动画也常常会导致对你的数据的错误理解。你需要对它会如何影响你的最终效果进行评估,而不是简单地在最后加上动画效果。动画最适合表现的,是揭示数据如何在不同状态下组合在一起,如何随时间变化或者是如何相互影响的等场合。

一般的设计原则是,动画要简单,可预测并且可以重新播放。让用户能够多次播放动画,可以让他们看到动画元素从哪里开始到哪里停止。要避免不同元素在移动中互相覆盖,不要让元素的运动不可预测。对于复杂的动画,研究表明,可以把动画分解为几个不同的阶段,在每个阶段暂停一会给用户一些时间来体会。这样有助于提高用户的理解。

工具及处理方式:

1)尽可能让动画简单

2)如果动画复杂或者有很多动画元素,可以考虑分阶段动画

3)一开始动画往往能够给人新鲜感,不过会很快让用户感到厌倦。不要仅仅因为你会加动画就在你的可视化你加上动画。

  秘密六:数据可视化不是分析

数据可视化可以产生一些分析结果,不过需要指出的是,可视化是一个辅助分析的工具,而不是数据分析的替代,它也不是统计的替代:你的图形可能揭示了一些数据差异或者数据的相关性。不过,要得出存在这些差异和相关性的可靠结论,还需要运用统计的方法。要对你的数据真正了解,需要分析的技能,以及专业的知识。不要指望可视化能够给你这些。因此,在进行可视化项目的时候,要调整客户或者你的CEO的期望值。

  工具及处理方式:

1)除非你就是数据分析师,你对数据可视化得出的结论不要轻易下判断。如果需要进行结论,最好找一个统计师或者专业人士一起验证后再给结论。

2)一些细小的设计改变,比如调色板的变化,对某个变量的可视化方式等,都可能改变可视化得出的结论。如果你用可视化进行分析,一定要试试多种可视化方式,而不要依赖于一种方式。

3)StephenFew的书“NowYouSeeIt”里面介绍了利用可视化进行商业分析的方式,包括对开发者如何设计可供分析使用的可视化工具的一些建议,读者可以参考

  秘密七:数据可视化不仅仅是编程

现在大量的可视化编程库和教程使得普通的人员在进行基于Web的可视化中,也可以设计出高质量的可视化产品。然而,要想真正设计一个能够提供深入见解,或者能够清楚表达的可视化产品,除了编程之外,还需要很多其他的技能。比如图像设计,数据分析,交互设计,以及对人们认知的了解等待。这些技能,是那些可视化编程库提供不了的。

不过,好消息是,如果你坚持采用一些数据可视化的基本原则的话。

你也不需要对这些技能了解太多。对于初学者来说,需要坚持一些最基本的原则,比如,尽量使用柱状图,不要把圆半径设置按线性比例设定(编者:在面积比较时会给用户错误理解),设计要简单(不要用3D,少用动画,不要用阴影)等。按照一些好的可视化样本,初学者也可以创造出好的可视化作品来。

via:IT中国

]]>
斯坦福:数据可视化与美学设计【视频】 //www.otias-ub.com/archives/133544.html Sat, 20 Jul 2013 04:19:27 +0000 //www.otias-ub.com/?p=133544 ]]> 文本流可视化经典之作 //www.otias-ub.com/archives/129619.html Thu, 04 Jul 2013 15:28:16 +0000 //www.otias-ub.com/?p=129619 AT&T的Emden R. Gansner、胡一凡和Stephen North在Graph Drawing 2012上发表了一篇关于文本流可视化的文章,无论是文章解决的问题、采用的方法、最终结果甚至写作手法都堪称一流,因此此文被评为当年的Best Paper。

论文的目标是如何帮助用户领会大规模文本流数据隐含的知识,作者提出了一种可视化分析方法,重点考虑三个方面的问题:如何分析并可视化流数据;通常时间相近的消息语义上更相似;用户需要浏览文本细节的工具。为此作者开发了TwitterScope系统,动态监测Twitter上发布的消息,经过实时语义分析、聚类与可视化映射、以及动态更新视图等过程,不仅为用户呈现了Twitter中相关话题的整体视图,而且能让用户查看历史记录和消息内容,系统界面如图1.

图 1  TwitterScope系统界面

在文本分析过程中,论文比较了LDA和TD/IDF方法,发现尽管LDA理论上结果更准确但是在Twitter这种短文本的分析上效果并不理想,因此最终采用了TD/IDF方法。由于消息动态到达,话题中的关键词权重会动态变化。系统设计了一个时间窗N,对当前时间之前的N条消息进行分析,当N很大时,话题的变化较小。当两条消息相似性超过一定阈值(默认0.2)时,则用边相连,边的权重为二者相似性大小,最终分析的结果形成图结构。聚类和可视化映射都采用了经典的方法,MDS用于高维投影,模块化聚类根据权重将相似的消息聚拢。由于MDS具有良好的距离保持特性,高维空间中相似的节点在平面上仍然距离更相近。图2显示了对各类别消息添加色调之后用地图隐喻的可视化结果,每块区域即为一个“国家”。

 

图2 地图隐喻

在动态布局上,作者下了一番功夫来保证新增加的节点不会对先前的视图造成很大的变化,即所谓mental map perservation.作者分两步来实现,首先确定新视图中每个节点的位置,其次由于每个节点其实是图片,所以尽量保证图片有较少的形变(Procrustes变换)。

真正原创性的工作是对散落分布的图元的可视化上。由于可能存在很多话题,不同话题之间的消息并不相连(不相似),因此需要消除不同“国家”之间的重叠或拉近不同“国家”之间的距离。论文采用polyminoes算法检测“国家”之间是overlap或underlap,并引入距离因子充分利用可视化空间,实践表明这种方法能够快速收敛。图3展示了初始重叠的图元经过三次迭代后的最终结果。

 

图3 空间压缩算法迭代结果

论文给出了很多实例表明其方法的有效性,例如图 4,从中不仅能看到历史时刻的话题主要描述的内容“Thailand”,”kill”, “Bombing”,而且点击具体的tweet可以引导用户进入具体的网页查看关于此话题的具体新闻。

图4 可视化案例

]]>
警惕“数据可视化” //www.otias-ub.com/archives/127610.html Tue, 25 Jun 2013 16:50:30 +0000 //www.otias-ub.com/?p=127610

迷彩通常意味着与周围环境协调一致。在一个世纪之前,战舰想躲避潜艇时不会用这一招,因为在不断变幻的海天背景之下,船首波与主烟囱会时刻暴露出战舰的位置。于是炫幻迷彩应运而生,这种迷彩由弯弯曲曲的线条和五颜六色的花纹,以很抽象的方式显示出来。采用炫幻迷彩的战舰不难定位,难的是在程序繁琐的拦截中,发射鱼雷之前需要潜望镜操作手迅速判断出战舰的航速与航向。也就是说,设计炫幻迷彩的目的就是造成误判,有证据表明这种策略确实有效。

现在让我们讨论一下数据可视化,这是数字导向新闻报道中近来最炙手可热的操作手法,不过这也让我们想起弗洛伦斯•南丁格尔(Florence Nightingale)这样的人物。她不仅是史上最著名的护士,而且是最漂亮的可视化技术“鸡冠花图”(Coxcomb diagram)的创始人。另外,她还是首位当选英国皇家统计学会(Royal Statistical Society)的女性会员。

数据可视化用复杂数据生成强大而精美的图像。它就像行文技巧一样:它能带来舒适的体验,如果应用得当,能成为一种发挥积极作用的武器;但另一面,它充满诱惑,并可能具有欺骗性。我们对于数据可视化的经验少于在修辞方面的经验,在这方面还处于懵懂状态,很容易可视化冲昏头脑。数据可视化被等同于统计版炫幻迷彩的情形太多了——富有冲击力的形象吸引了我们的注意力,而这要么不能传递有用信息,要么会在很大程度上误导我们。

举一个危害相对不大的例子,比如《纽约客》(The New Yorker)最近上线的地铁不平等在线地图。文中说:“纽约有不平等问题。”接着该文请我们点击不同的地铁地图,这会让我们看到一幅截面图,截面图显示出沿着不同地铁线路乘客收入中位数分布的波峰和波谷。这一结果看上去十分漂亮,但是它所提供的信息远远比不上一幅地图本来能提供的信息量。这其实是一件打着统计分析幌子的艺术品。

更有名的例子,是戴维•麦坎德利斯(David McCandless)令人印象深刻的动画“债务方块(Detris)”。在这个动画中,巨大的方块缓缓落下。为了向那个令人上瘾的电脑游戏“俄罗斯方块”(Tetris)致敬,背景音乐采用了8位音轨。这些方块的大小表示相应的美元金额。在“600亿美元:2003年伊拉克战争耗费成本估值”的方块之后,随之而来的是“3万亿美元:伊拉克战争总成本估值”。在这之后则是沃尔玛(Walmart)营收、联合国(UN)预算、金融危机成本以及许多其他项目。

这一动画纯粹是一种炫幻迷彩。这完全把统计学的苹果和统计学的桔子放在一起进行了比较。例如,与伊拉克战争有关的比较并不是第一眼看上去的那种“过去和现在的比较”,而是美国国防部(DoD)曾经估计的可能花销与一种涵盖因素更多的宏观估值的比较,后者包括了死亡战士生命的在财务估值,另外还包括了一万亿美元的“宏观经济损失”。伊拉克战争确实是一场灾难,但完全没必要为了证明这一观点而在统计上采取调包手法。

麦坎德利斯告诉我们,信息可以是十分美妙的。不幸的是,误导性信息也可能同样美妙。或者,正如统计大师麦克•布拉斯特兰德(Michael Blastland)所说:“我们很有可能会犯下与过去常犯的统计错误一样的错误,只是表现形式更漂亮一些。”

那些漂亮的鸡冠花图也不例外。它们确实展示了克里米亚战争(Crimean war)中人员大量致死的原因,并且无可辩驳地证明了改善卫生条件能拯救人们的生命。但是南丁格尔传记作家休•斯莫尔(Hugh Small)声称,南丁格尔选择鸡冠花图的目的是为了专门证明以上观点。实际上,简单的直方图原本能呈现得更清楚一些,但是就南丁格尔的目的而言,直方图的问题在于因果关系表现得太过清晰,因为读者会从直方图得出结论,冬天来临与糟糕的卫生条件导致的死亡人数同样多。南丁格尔展示数据的方式是极有控制力的。这样的呈现方式不是为了传递信息,而是为了说服读者。我们观赏当代数据可视化图案之时,应该铭记这一点。

via:ftchinese

]]>
百度UED:数据可视化6步法 //www.otias-ub.com/archives/122193.html Sat, 08 Jun 2013 14:30:13 +0000 //www.otias-ub.com/?p=122193 1

 

在当前互联网,各种数据可视化图表层出不穷,本文尝试对数据可视化的方法进行归纳,整理成6步法。

 

一般的数据图表都可以拆分成最基本的两类元素: 所描述的事物及这个事物的数值,我们暂且将其分别定义为指标和指标值。比如一个性别分布中,男性占比30%,女性占比70%,那么指标就是男性、女性,指标值对应为30%、70%。

 

 1.  将指标值图形化

一个指标值就是一个数据,将数据的大小以图形的方式表现。比如用柱形图的长度或高度表现数据大小,这也是最常用的可视化形式。

传统的柱形图、饼图有可能会带来审美疲劳,可尝试从图形的视觉样式上进行一些创新,常用的方法就是将图形与指标的含义关联起来。

比如Google Zeitgeist在展现top10的搜索词时,展示的就是“搜索”形状的柱形,图形与指标的含义相吻合,同时也做了立体的视觉变化:

2

 

2. 将指标图形化

一般用与指标含义相近的icon来表现,使用场景也比较多,如下:

3

 

3.将指标关系图形化

当存在多个指标时,挖掘指标之间的关系,并将其图形化表达,可提升图表的可视化深度。常见有以下两种方式:

 

借助已有的场景来表现

联想自然或社会中有无场景与指标关系类似,然后借助此场景来表现。

比如百度统计流量研究院操作系统的分布,首先分为windows、mac还有其他操作系统,windows又包含xp、2003等多种子系统。

根据这种关系联想,发现宇宙星系中也有类似的关系: 宇宙中有很多星系,我们最为熟悉的是太阳系,太阳系中又包括各个行星, 因此整体借用宇宙星系的场景,将熟知的windows比喻成太阳系,将xp、window7等比喻成太阳系中的行星,将mac和其他系统比喻成其他星系,表现如下:

4

 

构建场景来表现

指标之间往往具有一些关联特征,如从简单到复杂、从低级到高级、从前到后等等。如无法找到已存在的对应场景,也可构建场景。

比如百度统计流量研究院中的学历分布,指标分别是小学、初中、高中、本科等等,它们之间是一种越爬越高,从低等级到高等级的关系,那么,这种关系可以通过构建一个台阶去表现,如下:

5

 

支付宝新出的个人年度账单中,在描述付款最多的三项时,构建了一个领奖台的形式:

6

小结

根据之前3步,可将指标、指标值和指标关系分别进行图形化处理。

以最简单的性别分布为例,可以得到一个线性的可视化过程,如下:

7

以上图示为供参考的线性化过程,实际可视化思考中,将哪类元素进行图形化或者图形化前后的顺序可能均有不同,需根据具体情况处理。

4. 将时间和空间可视化

时间

通过时间的维度来查看指标值的变化情况,一般通过增加时间轴的形式,也就是常见的趋势图。

空间

当图表存在地域信息并且需要突出表现的时候,可用地图将空间可视化,地图作为主背景呈现所有信息点。

Google Zeitgeist在2010和2012年的年度热门回顾中,都是以地图为主要载体(同时也结合了时间),来呈现热门事件:

8

5. 将数据进行概念转换

 

先看下生活中的概念转换,当我们需要喝水时,通常会说:给我来一杯水;而不会说:给我来30ml的水。在这里,30ml是一个实际数据,但是难以感知,所以用一杯的概念来转换。

 同样在数据可视化,有时需要对数据进行概念转换,可加深用户对数据的感知。常用方法有对比和比喻:

 对比

下图是一个介绍中国烟民数量的图表:如果只看左半部分中国烟民的数量:32000000,知道数据量级很大,但具体有多大却很难感知;直到看到右半部分:中国烟民数量超过了美国人口总和,这样一对比,对数据的感知就加深了。

9

比喻

下图是一个介绍雅虎邮箱处理数据量的图表,大意是每小时处理的电子邮件大小有1.2TB,相当于644245094张打印的纸。

 这又是一个很大的数据,但到底有多大? 在这里用了一个比喻的手法:644245094张纸,如果把每一张纸首尾对接,可以绕地球4圈多。到这里,能较深刻感受到雅虎邮箱处理的数据量之大,为地球节省了很多纸张。

 更进一步地,还将这个比喻进行了图形化表现。

10

6.让图表“动”起来

数据图形化完成后,可结合实际情况,将其变为动态化和可操控性的图表,用户在操控过程中能更好地感知数据的变化过程,提升体验。

 实现动态化通常以下两种方式: 交互和动画。

 

交互

交互包括鼠标浮动、点击、多图表时的联动响应等等,如下是百度统计流量研究院的时间分布图,采用左图右表的联动形式,左图中,鼠标浮动则显示对应数据,点击则切换选择:

11

动画

包括增加入场动画、交互过程的动画、播放动画等等。

入场动画:即在页面载入后,给图表一个“生长”的过程,取代“数据载入中”这样的提示文字。

交互动画:用户发生交互行为后,通过动画形式给以及时反馈。

播放动画:一般来是提供播放功能,像看视频一样,让用户能够完整看到数据随时间变化的过程。下图是Gapminder在描述多维数据时,提供随时间播放的功能,可以直观感受到所有数据的变化。

12

 

总结

数据可视化形式多样,思考过程也不尽相同。以上6步法,是基于“数据”层面(区别于信息可视化),梳理思考过程,总结设计方法,为后续可视化提供可借鉴的思路。

VIA:百度商业用户体验部

]]>
不要忽视数据可视化的实用价值 //www.otias-ub.com/archives/104571.html Mon, 08 Apr 2013 13:39:00 +0000 //www.otias-ub.com/?p=104571

如果说10年前的营销人员挣扎的是不知道鼠标背后点击的是一条狗还是一个人的话,10年后的今天已经有越来越多的研究数据充分表明网民已经无限近似于人民,网民言行的代表性也约等于人民的真实言行。互联网和移动应用的发展带给消费者越来越丰富多彩和高效便捷的“线上”生活,微博、微信、签到、点评、搜索……,如果说曾经“线上”与“线下”有“线”的分隔的话,现在,这两者的疆界已经越来越模糊,越来越紧密的相互粘连,水乳交融的交织出了每一个消费者完整而真实的生活中的每一天。

消费者的言行包含着对品牌/产品的看法、购买的场合、喜欢/不喜欢品牌/产品的原因,都通过各种设备投射到网上,成为了消费者表达的大数据。这些数据内容广而杂、分布散乱无规律、更新频率高、变化速度快。而这些特点反过来也体现出了现实消费者动态的购买决策过程。消费者在选择中可能会受到来自多方面的影响,比如朋友推荐、他人使用经验的干扰、广告的刺激、价格优惠的吸引,这不是一个简单的线性的过程,而大数据非结构化和无标度的特征恰如其分的体现出了购买决策的复杂性和多变性。

这无疑是营销人员的一个巨大福音,因为大家再也不用为找不到新品定位,找不到新品体验,找不到消费者喜爱的新品推广方式,找不到与消费者可能的接触点而发愁了,因为这些信息几乎全部都可以在网上找到答案。如果说过去的传统调研是带着目的去创造问题验证答案,现在营销人员已经可以转变思路为:带着目的去收集回答研究对策。网络上关于一切你想知道的答案都已经提前摆在了那儿,而你所要做的是用正确的思路找到这些答案,进而用高效的方法找出答案背后带给营销的启示。

成千上万消费者的表达,使得数据“仿佛一夜之间从一个矜持单纯的娇羞少女变成了一名热情奔放的娇艳女郎,不再难以追求。找到数据不再是个难题,如何分析数据才是最大的难题。因此,大数据时代需要的并不是数据,而是解读数据的正确方法,通过这一方法找到数据之间的关联,找到背后的消费者洞察,需要的是大数据(Big Data)带来的”大主意“(Big Idea),而非大数据本身。

消费者表达数据的”无标度“(scale-free)和”非结构化“(unstructured)特征,要把消费者表达数据的价值体现出来,因此,不能够简单的套用在抽样数据前提下形成的分析思路和方法。要从市场研究的结构化数据分析思路转变为数据挖掘的思路。方法上要从挖掘数据和数据之间的相关关系出发,从鸟瞰的角度来了解消费者的整体行为特征。

分析非结构化的消费者表达数据,数据可视化工具的作用巨大。非结构化数据通过可视化工具处理之后,视觉效果通常都让人非常震撼。但这并不是可视化的设计之美,而是可视化工具生动的展示出了数据之美。可视化工具把消费者大数据代表的“小世界”缩微化,使这个“小世界”能够作为一个整体展现在营销人员的面前,让营销人员从鸟瞰的角度,看到数据之间的自然分布状态,看到关于某个话题消费者不同的想法,以及这些想法背后的相关关系。这个缩微的消费者表达世界,可以让营销人员清晰看到整体消费者的状态,正在出现的趋势,弥补因为“盲人摸象”造成的认知局限。显微镜的出现发现了微生物世界充满的生命力和活力,互联网则像镜子一样把消费者表达的数据投射出来,可视化的工具则把投射在互联网上的消费者表达数据背后代表的影响消费者选择的“影响力”形象的展现出来,帮助营销人员更好的理解市场,理解消费者,发现潜在的市场机会点,同时更好的从营销角度提出策略假设,辅之以其他方法验证这些策略。

上图所示的是对于餐饮产品消费者的表达意见关系图(局部)。从图中的节点可以明显的看到不同的聚类。如果放大节点显示出各节点代表的消费者意见,可以清晰地看到不同类型的意见有明显的关联关系。这些聚类体现出了消费者对于特定话题的想法,意见,也折射出了背后的消费者的兴趣和爱好。一定意义上,这些聚类综合体现了消费者的需求和心理特征,为营销人员进行市场细分提供了基于消费者自然表达的充分线索和依据。

在我们的实践中,通过收集消费者表达数据,并从营销的角度对这些消费者数据进行分析和处理,在此基础上通过可视化工具进行进一步的分析展示,通过这些可视化工具展现的结果,进而从营销的角度进行假设,带着假设的问题回到消费者原始表达中,可以清晰的了解消费者的需求,兴趣和爱好。这些基于消费者表达,通过可视化工具的帮助形成的消费者研究成果,和企业经营者的市场运作经验以及通过线下研究得到的发现高度吻合,同时还能够发现传统问卷研究难以发现的机会点。更重要的是这些发现能够从营销角度具备落地的可操作性。

通过视觉可视化工具来分析消费者表达数据,揭示的不仅仅是数据之美,更是发现数据背后的消费者洞察,是驱动生意的那一对隐形的翅膀!

 

]]>
数据可视化DIY的几个最好的工具 //www.otias-ub.com/archives/58565.html Tue, 24 Jul 2012 04:15:39 +0000 //www.otias-ub.com/?p=58565 【数据可视化DIY的几个最好的工具】1.Google fusion tables 2.Tableau Public 3.Google spreadsheet charts 4.Datamarket 5.Many Eyes 6.Color Brewer 7. Chartsbin 8. iCharts 9.Geocommons

]]>
美妙的可视数据地图 //www.otias-ub.com/archives/53937.html Wed, 27 Jun 2012 16:40:12 +0000 //www.otias-ub.com/?p=53937 每个人在一天的生活中,所有的行动都会留下相应的数据,就像走在松软的沙滩而留下的脚印一样。如果在这些数据中加入地理这个元素,把该数据可视化并且范围为放大到某个国度的所有人,那就会形成Allintee此次大家所带来的这些美妙的可视数据地图(美国)。


可视化互联网分布

每个人在一天的生活中,所有的行动都会留下相应的数据,就像走在松软的沙滩而留下的脚印一样。如果在这些数据中加入地理这个元素,把该数据可视化并且范围为放大到某个国度的所有人,那就会形成Allintee此次大家所带来的这些美妙的可视数据地图(美国)。


失业分布

一家国际的比萨外送餐厅连锁店原材料的快递路线

美国电力网络路由

周五晚纽约披萨快递的路线

纽约公共交通路径

飞机的飞行路径

遗体在异地被运送到回乡的路径

美国牛肉的进口和出口

美国的城镇和城市的所有人

ps:QQ同时在线分布图(喜欢的朋友可点击此)

]]>
8coupons:2011年团购市场沉浮:融资、并购和上市–数据信息图 //www.otias-ub.com/archives/20486.html Sat, 17 Dec 2011 07:29:09 +0000 //www.otias-ub.com/?p=20486 8coupons:2011年团购市场沉浮:融资、并购和上市--数据信息图

via:internet2share

]]>
为何付费应用仍占主导地位?–数据信息图表 //www.otias-ub.com/archives/20477.html Sat, 17 Dec 2011 02:29:05 +0000 //www.otias-ub.com/?p=20477 现在,似乎整个互联网行业都在由付费模式向免费增值模式过渡。免费增值模式的内容不仅有在线游戏,还包括网站和移动应用等。虽然很多人都已将免费增值模式看成理所当然,应用开发者们也正在通过应用内购买、移动广告、奖品、优惠等方式为其免费应用寻求货币化途径,但必须指出的是,我们仍处于典型的过渡阶段,免费应用在顶级平台所有移动应用中所占的比例仍不到一半。

从下面的信息图中我们可以看到,售价高于或等于50美元的应用比例约为0.3%,售价介于1美元和50美元之间的应用比例为32.6%,22%的应用售价介于0至0.99美元之间,而免费应用的比例为45%。也就是说,超过一半的移动应用仍需付费才能下载。

该信息图还显示,前50强的应用开发者仅贡献了应用商店中5%的内容,或许他们之所以成为顶级开发者的部分原因一是产品少,二是产品质量高。也正因为这样,才有了大量垃圾应用的涌现。

在成千上万个开发者中,真正有所建树、声名显赫的很少,似乎高产量的应用输出并无太大实质性意义。免费增值模式的关键是将免费消费者转变为付费消费者,是一个先搭台再唱戏的过程,如果台都没搭好,就更谈不上把戏唱好了。

为何付费应用仍占主导地位?

]]>
Womma:线下和线上的口碑营销–数据信息图 //www.otias-ub.com/archives/20306.html //www.otias-ub.com/archives/20306.html#comments Fri, 16 Dec 2011 01:49:15 +0000 //www.otias-ub.com/?p=20306 线下和线上的口碑营销

  • 在美国,每天有33亿次的品牌提及次数,并产生了24亿次的与品牌相关的转化;
  • 90%的与品牌相关的转化发生在线下;
  • 66%的与品牌相关的转化是“非常正面的”;
  • 在线评级中基本上能够获得满分5分中的4.3分;
  • 购物决策因素中,口碑54%、网站上的信息47%、朋友发送的邮件42%、在线评论31%;
  • 59%的美国人认为,线下面对面的交流可信度更高;
  • 49%的美国人认为,在线的口碑宣传具有较高的可信度;
  • 55%的人推荐某家公司是因为这家公司的客户服务;
  • 27%的消费者会因为优质的客户体验而多支付15%的费用;

转自:internet2share

]]>
//www.otias-ub.com/archives/20306.html/feed 1
分享:科技如何改变生活?-数据信息图 //www.otias-ub.com/archives/19912.html //www.otias-ub.com/archives/19912.html#comments Tue, 13 Dec 2011 03:46:11 +0000 //www.otias-ub.com/?p=19912

转自:36Kr

]]>
//www.otias-ub.com/archives/19912.html/feed 2
BestVendor:程序员/开发人员实际在用哪些工具–数据信息图 //www.otias-ub.com/archives/19866.html Mon, 12 Dec 2011 01:01:13 +0000 //www.otias-ub.com/?p=19866 BestVendor.com 的工作人员在全球范围内采访了 500 名重要开发人员,在调查询问他们实际使用的工具后,制作了一张信息图,伯乐在线进行了简要编译。少数中坚工具占主导地位,如 git 、 Eclipse、AWS 、Dropbox、MySQL 和 Google Analytics 。但也有一些惊喜,比如:23%的开发人员使用 Notepad++ 文本编辑器, 8%的开发人员使用 Heroku 的网站托管服务。

所有受访的开发人员是从来自世界各地的员工数不到 100 人的公司。员工不多,并不说明公司不入流。

他们所在地区

美国 48% 、欧洲 23% 、亚洲 11% 、美洲(不含美国)9% 、澳大利亚 4% 、 中东 2% 、非洲 1%

他们所在行业

科技 83% 、个人服务 5% 、金融 2% 、教育 2% 、艺术和娱乐 2% 、基础设施 1% 、 制造业 1% 、 健康 1% 、其他 2%

这张信息图覆盖 10 个方面的工具:Bug 追踪、数据库、开发框架、集成开发环境(IDE)、项目管理、存储、文本编辑器、网站分析、网站托管(Web Hosting)、版本控制。各方面的工具使用百分比。

 

编译:伯乐在线

]]>
Bundle:美国人的电子产品消费 –数据信息图 //www.otias-ub.com/archives/19676.html Thu, 08 Dec 2011 10:01:16 +0000 //www.otias-ub.com/?p=19676 你是否有乱买电子产品的坏习惯?根据Bundle.com的调研,在美国,在电子产品上最败家的人群当属加州圣何塞市50到65岁之间的单身男性。

根据美国政府、银行和其它第三方的批量匿名数据,Bundle按城市、年龄、家庭类型和收入水平分析了美国人在电子产品上的消费情况。有些结果在预期之中(比如随着家庭成员的增加,月均电子产品支出额也相应提高),但有些结论则不大符合人们的想象。比如,威斯康星州的麦迪逊市的月人均支出就压过了华盛顿州的西雅图市,以及50到65岁人群在这方面比年轻人花费更多。

转自:


yeeyan

]]>
Intuit:美国手机支付行业–数据信息图 //www.otias-ub.com/archives/19661.html Thu, 08 Dec 2011 03:29:20 +0000 //www.otias-ub.com/?p=19661 Intuit最近发布的信息图表显示,手机支付方式发展迅速,将在2015年成为美国主流支付手段。

去年在美国最有影响力的支付方式是信用卡和借记卡,当时手机支付方式仅占5%的市场份额;值得注意的是,信用卡、借记卡和其他支付方式所占份额均呈增长趋势,但现金支付方式影响力开始下滑。预计2015年人们通过现金达成的交易额将下滑至1万亿美元,而其他支付方式交易额将达2.7万亿美元,成为最值得信赖的支付手段。

美国智能手机覆盖率已超过40%,有37%企业家通过智能手机达成交易。但目前来看,仅四分之一的iPhone或Android用户愿意用手机购物,主要原因是他们担心信息安全问题(其比例达64%),46%用户仅将手机作为打电话或发送邮件的设备而非具有其他用途的工具。

来自:gamerboom

 

 

]]>
Business MBA:Google数字的背后–数据信息图 //www.otias-ub.com/archives/19620.html //www.otias-ub.com/archives/19620.html#comments Thu, 08 Dec 2011 00:29:24 +0000 //www.otias-ub.com/?p=19620 2010年,Google的收入达到了293亿美元。换句话说,这比全世界最贫穷的28个国家的国内生产总值(GDP)的总和还要多。尽管算上Google所有的产品和服务,97%的收入仍然来自于广告。Google已经在日益增长的移动领域上取得了丰硕成果,在广告收入中,有25亿美元都来自移动广告,并且这个数字可能在2011年底翻倍。

Google的收入有时来源于一些不太合法的产品和服务(比如一些律师,保险,发薪日贷款和信用卡的服务)对Adwords关键词的付费。在九月,Google因默许加拿大药店对美国居民做处方药类广告而被罚款5亿美金。

使Google的收入如此庞大的原因是他们每个月接收超过10亿的独立访客,这相当于全世界人口总数的七分之一。总体来说,这些人在Google的网站上花了超过2000亿分钟(相当于38万年)。这就是说每个访客每月的访问时间超过200分钟。

为了让这一切成为可能,Google消耗了超过2.6亿瓦特的持续供电来供应它的数据中心的运转。这相当于核电站平均输出功率的四分之一。在2010年,Google消耗了超过20亿千瓦时的能量,这占到胡佛水坝一年发电量的50%。

转自:guokr

]]>
//www.otias-ub.com/archives/19620.html/feed 2
Lab42:社交媒体情感状态更新—数据信息图 //www.otias-ub.com/archives/19631.html //www.otias-ub.com/archives/19631.html#comments Wed, 07 Dec 2011 16:55:49 +0000 //www.otias-ub.com/?p=19631 社会化网络快要淹没我们的生活。当我们遇到知音我们不是促膝而谈,而是要QQ号,加微博;当我们遇到心动的人,或许不是在她楼下用鲜花蜡烛和甜言蜜语感动她,而是在Facebook上like一下。甚至,当我们结束一段恋情的时候只是在微博上发送一条“今年我得过光棍节了”顺便@了她。对于情感生活,或许社会化网络比我们更了解我们。

]]>
//www.otias-ub.com/archives/19631.html/feed 1
日本社交网络GREE–数据信息图 //www.otias-ub.com/archives/19606.html //www.otias-ub.com/archives/19606.html#comments Wed, 07 Dec 2011 13:29:17 +0000 //www.otias-ub.com/?p=19606
  • 1.3亿的用户规模,横跨多个平台;
  • 商业模式:社交网络、问答网站(广告营收);社交类游戏(道具购买);
  • 2012年的计划:覆盖日本、北美、中国、亚太地区、欧洲、拉丁美洲市场;
  • ]]>
    //www.otias-ub.com/archives/19606.html/feed 1
    Slingshot:Google vs. Bing 自然搜索结果的平均点击率-数据信息图 //www.otias-ub.com/archives/19584.html Wed, 07 Dec 2011 00:15:46 +0000 //www.otias-ub.com/?p=19584 2011年8月份搜索引擎优化服务公司Slingshot提供了最新的监测数据,主要监测内容为美国Google、Bing自然搜索结果中排名第一位至第十位关键词的点击价值。 Slingshot最近制作的Google vs. Bing 自然搜索结果的平均点击率的信息图:

    ]]>
    Besssemer Venture Partners:2011年云计算报告【数据信息图】 //www.otias-ub.com/archives/19443.html Sun, 04 Dec 2011 09:32:03 +0000 //www.otias-ub.com/?p=19443

    ]]>
    Mbaonline:社会化媒体招聘–数据信息图 //www.otias-ub.com/archives/19440.html Sun, 04 Dec 2011 09:08:30 +0000 //www.otias-ub.com/?p=19440

    在我们的概念中,在Linkedin上找工作的人比在Facebook上找工作的人要多的多。但跟据Jobvite的一个研究,有1840万人已经利用Facebook帮他们找到了工作,而只有1020万人在Linkedin上找到了工作。

    所以,社会化招聘这个方向上是很有的。但具体玩法上则要见仁见智了。而且一个值得关注的现象就是,千万不要低估了通用型SNS的力量,人人网做招聘比优士网、天际网要有优势,也更有效率。这是一个之前没有引起足够重视的一个市场机会。

    现在在美国,社会化媒体已经占据了找工作的重点阵地,而且它可以保证24小时*7天的高速运转。但很遗憾的是,绝大多数人还是不知道该如何使用它。中国又何尝不是呢?

     

    Via Tech2IPO 作者吾初整理

    ]]>
    移动学习 – Go Study–数据信息图表 //www.otias-ub.com/archives/19345.html //www.otias-ub.com/archives/19345.html#comments Fri, 02 Dec 2011 19:44:54 +0000 //www.otias-ub.com/?p=19345 关于移动学习体验的信息图表。
    喜爱移动学习的孩纸学得更多,学得更好。

    ]]>
    //www.otias-ub.com/archives/19345.html/feed 1
    Android市场的发展历程–数据信息图 //www.otias-ub.com/archives/19041.html Tue, 29 Nov 2011 03:00:11 +0000 //www.otias-ub.com/?p=19041 追随苹果的App Store的成功可不是一件容易的事情,但Android市场的发展证明Android已经成长为一个值得苹果重视的竞争对手。Android的开源性和手机终端选择的多样性吸引开发商和消费者的亲睐。全球有超过2亿部Android设备激活,在2011年9月Android市场提供超过295000应用软件下载。专家预测Android市场将在应用软件增长和年均下载量上超过App Store。预测2011年Android市场的下载量为 81亿。

    ]]>
    高质量网站内容对SEO至关重要–数据信息图 //www.otias-ub.com/archives/18973.html Mon, 28 Nov 2011 00:19:34 +0000 //www.otias-ub.com/?p=18973

    信息小结

    1.“熊猫”算法的影响日益显现

    今年2月24日,Google开始测试“熊猫”算法。在不到一年的时间内,“熊猫”算法经历了6次重要更新。随着“熊猫”算法的不断测试和更新,与优质内容相关的关键词也在急速增长,从去年年底的132个增至现在的355个,增长率超过150%。而且,有优质内容的商业网站“着陆页”、经常更新的博客和Twitter在Google的自然流量中增长极快,取得了更佳的排名表现。

    2.创造社交内容也是SEO,内容也变得更加“社会化”

    “社会化”因素正成为衡量“有价值内容”的一个重要标准。Bing就在这么做,它们用Facebook的“喜欢”作为登录用户的排序标志。Google也曾放话,Google+1按钮对排名的影响作用将变大。Twitter用户发表的的Tweet也是Google为内容编制索引的一条捷径。数据更能说明问题。每天在网络上被分享的内容高达2700万条,超过20%的社交信息中带有指向内容的链接,60%的分享内容中直接提到了品牌和产品的名称。

    3.品牌效应

    品牌能够传递一个不错的故事,而故事离不开内容的支撑。据调查,50%的消费者倾向于点击那些经常出现在搜索结果中的品牌的链接。当被外界问到“Google是否会为品牌的搜索结果增加权重”,Google反垃圾内容团队负责人Matt Cutts表示,“如果你想打造一个很棒的网站,那么请先在该领域变成权威”。

    4.内容正在改变搜索和用户

    内容本身也正在影响搜索的排序方式和消费者的选择。有52%的消费者表示,他们的购买决定受到了博客的影响;另一方面,57%的营销者是通过博客招揽新客源。60%的商业策略制定者表示,品牌内容对他们的产品决策有很大帮助;消费者方面,61%的人群倾向于从提供客户内容的商家那里购买产品或服务。42%的消费者通过浏览相关文章或博客内容来决定潜在的购物对象。强调亲身体验的时尚消费行业中,也有约20%的消费者依照搜索引擎检索到的博客内容来购物。

    “内容为王”的趋势正在得到越来越多营销者的认同。92%的营销者认为,“内容创造”的策略对SEO“十分有效”或是“有一定作用”。在细节上,50%的营销者认为网页的形式对SEO更加有效;40%的营销者认为关于商业机构自身概况的“白皮书”对SEO贡献更加明显。但有一点是肯定的,未来营销者对内容建设的投入将进一步扩大。据预测,这一数字将达到惊人的125亿美元!

    SEO的新趋势已经明晰,打造“独有的价值内容”,你准备好了吗?

    ]]>