一、IMDB简介
IMDB(Internet Movie Data Base,互联网电影数据库)是目前全球互联网中最大的一个电影资料库,里面包括了几乎所有的电影,以及1982年以后的电视剧集。IMDB的资料中包括了影片的众多信息,演员、片长、内容介绍、分级、评论等等,我们用的最多的也就是IMDB数据集中电影的得分信息。
二、数据集内容
数据结构
IMDB-Movie-Data.csv
IMDB-Movie-Data.csv 数据集包含了互联网电影资料库(IMDB)中2006年至2016年之间TOP1000的电影数据,数据集发布时间为2023年05月04日。数据集的数据结构如下:
- Rank:序号
- Title:影片名
- Genre:电影题材(逗号分隔)
- Description:简要的电影内容描述
- Director:导演
- Actors:主要演员(逗号分隔)
- Year:发行年份
- Runtime(Minutes):电影时长
- Rating:电影评分(0-10分)
- Votes:投票数量
- Revenue(Millions):票房(百万)
- Metascore:电影评论分数(0-100分,越高表示评价越正面)
imdb_top_1000.csv
Poster_Link - Link of the poster that imdb using
Series_Title = Name of the movie
Released_Year - Year at which that movie released
Certificate - Certificate earned by that movie
Runtime - Total runtime of the movie
Genre - Genre of the movie
IMDB_Rating - Rating of the movie at IMDB site
Overview - mini story/ summary
Meta_score - Score earned by the movie
Director - Name of the Director
Star1,Star2,Star3,Star4 - Name of the Stars
No_of_votes - Total number of votes
Gross - Money earned by that movie
movie_metadata.csv
包含28个变量,涉及5043部电影,跨越100年的66个国家。其中有2399个独特的导演名字,以及成千上万的演员/女演员。数据项包括:
color, director_name, num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
数据集版权许可协议
Database Contents License (DbCL) v1.0
参考《常见版权许可协议》
三、可视化分析样例
对所给的IMDB-Movie-Data.csv 数据进行分析并进行可视化,可以使用折线图、柱状图、饼图、散点图等适合的图形化方式,要求分析内容包括:
1.统计IMDB评分各评分段的影片数。
2.各年票房变化的趋势。
3上榜IMDB的次数最多的导演的前5位、前10位。
4.影片上榜的次数和影片的评分的相关性。
5.票房和Mate评分的相关性。
6.时长和Mate评分的相关性。
安装
conda create -n datamining python=3.10
conda activate datamining
conda install pandas
conda install numpy
conda install pyecharts
执行
工程目录下执行:python main.py
生成:result.html
应用程序来源
作者:Ambrose
来源:IMDB: 基于numpy,pandas,并使用pyecharts库进行可视化的IMDB电影大数据分析 (gitee.com)