IMDB电影数据集和可视化分析

一、IMDB简介

IMDB(Internet Movie Data Base,互联网电影数据库)是目前全球互联网中最大的一个电影资料库,里面包括了几乎所有的电影,以及1982年以后的电视剧集。IMDB的资料中包括了影片的众多信息,演员、片长、内容介绍、分级、评论等等,我们用的最多的也就是IMDB数据集中电影的得分信息。

二、数据集内容

数据结构

IMDB-Movie-Data.csv

IMDB-Movie-Data.csv 数据集包含了互联网电影资料库(IMDB)中2006年至2016年之间TOP1000的电影数据,数据集发布时间为2023年05月04日。数据集的数据结构如下:

- Rank:序号
- Title:影片名
- Genre:电影题材(逗号分隔)
- Description:简要的电影内容描述
- Director:导演
- Actors:主要演员(逗号分隔)
- Year:发行年份
- Runtime(Minutes):电影时长
- Rating:电影评分(0-10分)
- Votes:投票数量
- Revenue(Millions):票房(百万)
- Metascore:电影评论分数(0-100分,越高表示评价越正面)

imdb_top_1000.csv

Poster_Link - Link of the poster that imdb using
Series_Title = Name of the movie
Released_Year - Year at which that movie released
Certificate - Certificate earned by that movie
Runtime - Total runtime of the movie
Genre - Genre of the movie
IMDB_Rating - Rating of the movie at IMDB site
Overview - mini story/ summary
Meta_score - Score earned by the movie
Director - Name of the Director
Star1,Star2,Star3,Star4 - Name of the Stars
No_of_votes - Total number of votes
Gross - Money earned by that movie

movie_metadata.csv

包含28个变量,涉及5043部电影,跨越100年的66个国家。其中有2399个独特的导演名字,以及成千上万的演员/女演员。数据项包括:

color, director_name, num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes

数据集版权许可协议

Database Contents License (DbCL) v1.0

参考《常见版权许可协议》

三、可视化分析样例

对所给的IMDB-Movie-Data.csv 数据进行分析并进行可视化,可以使用折线图、柱状图、饼图、散点图等适合的图形化方式,要求分析内容包括:

1.统计IMDB评分各评分段的影片数。

2.各年票房变化的趋势。

3上榜IMDB的次数最多的导演的前5位、前10位。

4.影片上榜的次数和影片的评分的相关性。

5.票房和Mate评分的相关性。

6.时长和Mate评分的相关性。

安装

conda create -n datamining python=3.10
conda activate datamining 
conda install pandas
conda install numpy
conda install pyecharts

执行

工程目录下执行:python main.py

生成:result.html

应用程序来源

作者:Ambrose

来源:IMDB: 基于numpy,pandas,并使用pyecharts库进行可视化的IMDB电影大数据分析 (gitee.com)

四、获取案例套件

需要登录后才允许下载文件包。登录

发表评论