TMDb电影数据分析

背景

在电影上映之前,我们可以说一部电影的成功吗?

鉴于制作成本超过1亿美元的电影仍然会失败,这个问题比以往任何时候都更加重要。

TMDb数据集

此数据集来源Kaggle TMDB 5000 Movie Dataset,共计4803部电影,主要为美国地区一百年间(1916-2016)的电影作品。

下面是其包含的特征简要介绍:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
budget                  电影预算
genres 电影类型
homepage 电影主页
id 电影ID
keywords 电影关键词
original_language 电影原始语言
original_title 电影原始标题
overview 电影剧情摘要
popularity 电影流行度
production_companies 电影出品公司
production_countries 电影出品国家
release_date 电影档期
revenue 电影票房
runtime 电影时长
spoken_languages 电影语言
status 电影状态
tagline 电影标语
title 电影标题
vote_average 电影平均评分
vote_count 电影评分次数
cast 电影演员列表
crew 电影参与人列表

由于本文是分析影响电影票房、评分的特征,所以这里我选取了下面这些可能跟票房、评分相关的特征:

1
2
3
4
5
6
7
8
9
10
11
12
13
budget                  电影预算
genres 电影类型
popularity 电影流行度
production_companies 电影出品公司
production_countries 电影出品国家
release_date 电影档期
revenue 电影票房
runtime 电影时长
title 电影标题
vote_average 电影平均评分
vote_count 电影评分次数
actors 电影演员列表
director 电影导演

需要注意的是,由于电影年份的跨度很大,如果考虑很大的时间跨度,会引入很多影响电影票房的因素,不利于发现规律,因此,我只选取2000年以后上映的电影。

另外,我还去掉了其中评分人数过少、票房、预算为0的电影,这些异常数据会影响最后的统计效果。

TMDb电影数据分析

下面我从影片类型、导演、主演、档期等因素来分析其对票房、评分的影响。

票房TOP10

我们可以看出,这十部电影的预算是亿级(美元)的,票房是十亿级的,属于高投入高收入的影片。

票房、预算和投资回报率(ROI)变化趋势

2000年至2015年间,电影制作的经费投入并没有显著增长,但票房收入呈上升趋势,相应地,ROI从2000年的1.4升到了2015年的2.5,电影行业正处于稳步上升的阶段。

评分TOP10

  • TOP10的评分比较接近
  • 没有明显的某个类型占比很大。
  • TOP评分跟票房的关联性也不大

评分变化的趋势

电影评分随年份变化的趋势不明显,总体上在6.25上下小幅度波动。

票房、评分的影响因素

下面我计算了开支、流行度、时长、评分数、年份跟票房、评分的相关性。

  • 票房与预算、评论数的相关性较大,但评论数和票房一样,只能等到电影上映后才知道具体数值。
  • 评分与票房、预算、热度、评论数的相关性都不大。

类型数目统计

首先我们先看下上映电影的类型,如果一个电影有多个类型,那么每个类型都会计算一次。

  • 影片有18种类型,剧情、喜剧、惊悚、动作这4种类型的影片最多,西部片和纪录片最少。
  • 剧情片数目较多,毕竟不少类型电影都可以说包含剧情这一元素。

类型跟预算、票房以及ROI的关系

这个统计可以很明显的看出,动作、冒险、家庭、科幻、幻想、动画等类型的电影票房非常高,为了更加公平的对比,下面比较一下它们的投资回报率(ROI)。

  • 从投资回报率可以看出,纪录片的投资回报率遥遥领先,如果为了能获得更好的收益,可以考虑去投资拍摄纪录片!
  • 需要注意的是,历史、战争、西部电影的投资回报率非常低,其中历史和西部两种类型的电影的投资回报率甚至小于1,大家投资这类电影需要非常谨慎。

类型和评分的关系

  • 纪录片不但ROI位于首位,评分也是遥遥领先。
  • 这里和前面的票房、ROI正好相反,前面ROI比较低的历史、战争、西部电影在这边平均评分普遍较高,如果单纯为了高评价,不考虑投资回报率,大家可以考虑去拍摄这几类电影。

档期的分布

下面统计了不同月份的上映电影数目,其中9月和12月数目偏多。

档期跟票房的关系

其中5-7月的票房有一个高峰。

档期跟评分的关系

导演平均票房分析

下面统计了导演平均票房分布。

典型的长尾分布,极少数导演的吸金能力特别强。

导演平均评分分析

下面统计了导演平均评分分布。

导演的评分近似正态分布,在6-7分之间的人最多。

主演平均票房分析

我们知道电影主演对票房的贡献有轻重之分,如果忽略这一点,使用和电影类型一样的计算方法,则计算结果可能会显示常演配角的人比常演主角的人的票房更高。这里尝试通过一个加权系数体现这个区别。

1
2
3
4
5
#按不同权重统计演员的票房:
r4 = [0.4, 0.3, 0.2, 0.1] #如果有4位主演,按此加权,以下类似
r3 = [0.4, 0.3, 0.3]
r2 = [0.6, 0.4]
r1 = [1]

主演平均评分分析

下面统计了主演平均评分分布。

主演的评分近似正态分布,在6-7分之间的人最多。

结论

票房相关

  • 2000年至2015年间,电影制作的经费投入并没有显著增长,但票房收入呈上升趋势,相应地,ROI从2000年的1.4升到了2015年的2.5,电影行业正处于稳步上升的阶段。
  • 票房与预算、评论数的相关性较大,但评论数和票房一样,只能等到电影上映后才知道具体数值,所以想要获取高票房,增加投入是比较好的选择。
  • 纪录片的投资回报率遥遥领先,如果为了能获得更好的收益,可以考虑去投资拍摄纪录片!
  • 历史、战争、西部电影的投资回报率非常低,其中历史和西部两种类型的电影的投资回报率甚至小于1,大家投资这类电影需要非常谨慎。
  • 其中5-7月的票房有一个高峰。
  • 只有极少数导演的吸金能力特别强。
  • 只有极少数主演的吸金能力特别强。

评分相关

  • 评分与票房、预算、热度、评论数的相关性都不大。
  • 纪录片不但ROI位于首位,评分也是遥遥领先。
  • 这里和前面的票房、ROI正好相反,前面ROI比较低的历史、战争、西部电影在这边平均评分普遍较高,如果单纯为了高评价,不考虑投资回报率,大家可以考虑去拍摄这几类电影。
  • 导演的评分近似正态分布,大部分导演的平均评分在6-7分之间。
  • 主演的评分近似正态分布,大部分主演的平均评分在6-7分之间。
赞赏一杯咖啡
0%