哪些电影最经典?数据科学告诉你哪些电影最受欢迎
经典电影人人喜欢,但是对于电影这样的艺术作品进行价值评判往往是非常困难的。首先电影审美是一个非常主观的概念,一千个影迷心中有一千零一个哈利波特。更何况,在这个大片如流水、明星似牛毛的娱乐时代,电影的数量、种类层出不穷,即便有金球奖、奥斯卡这样的专业奖项,依然是众口难调。
如何才能评价一部电影的价值,成了影迷心中最难的问题。是看票房,还是看小金人?是看烂番茄、Metacritic、豆瓣上的总评分,还是看观影人数?是看是否入选IMDb等各大网站的Top榜单,还是看有没有受到罗杰•埃伯特等知名影评人的青睐?标准太多,信息量太大,这实在让人无所适从。
不过没有关系,人搞不定的事情,那就让计算机来帮你搞定吧!最近,芝加哥西北大学复杂系统研究院联席主任路易斯•阿马拉尔(Luis Amaral)教授率领的科学团队(其他两名作者为马克斯·沃瑟曼(Max Wasserman)和我)就发表了这样一项研究。结合互联网上的众包数据,利用数据挖掘、复杂网络分析等手段,我们找出了比网友打分和专家评论更能反映电影作品重要性的指标。这项成果已于1月20日在《美国科学院院刊》(PNAS)上发表[1]。
电影是否“重要”,谁说了算?
那么你也许会问了,先不管这数据分析是个什么玩意儿,研究团队要怎么定义电影的“重要性”呢?首先票房、观影人数这一类的数字肯定是不行的。像《复仇者联盟》、《变形金刚》这样的商业大片,虽然上映时火爆异常、吸金无数,冲击力(Impact)自然十足,但要放到整个电影发展史来看,其影响力(Influence)就很难说了。而且,《穆赫兰道》《欢乐糖果屋》等Cult片的拥趸自然也会反对以票房论成败。
当年的票房滑铁卢,如今的不朽经典,电影的重要性究竟要如何衡量?
那么奥斯卡之类的电影奖项呢?小金人由美国电影艺术与科学学会颁发,评选的六千多名会员全部都是业内资深人士,这可够权威了吧?好是好,可惜奥斯卡只评选当年上映的电影,提名的影片也就那么几个,最终获奖名单极易受到流行时尚、商业宣传的左右,因此在评估影片的长远影响方面,它仍是力有不逮。每年奥斯卡都会引发诸多争议,也从侧面印证了这一点。
那么,到底该怎么办?我们的研究团队几经寻觅思索,终于发现了一个最接近理想的标准,那就是美国国会图书馆保存的国家影片登记表[2]。1988年,美国政府成立了美国国家电影保护局,每年年底评选25部“文化上、历史上和艺术上具有重要性”的美国电影,收录进国家影片登记表加以保存。最为重要的是,参选电影必须上映至少十年以上,这就确保了入选的电影必须经过时间的沉淀,最大程度地避免了潮流、商业运作的影响。
电影也有“引用”网络
找到了这个相对可靠的“重要性”评价标准之后,研究团队的下一个任务便是要找出哪些变量是预测电影能否入选国家影片登记表的最佳指标。仔细考量之后,研究团队认为电影的重要性能够从它的“品质”、在大众中的“冲击力”和对其他电影的“影响力”几个方面体现出来。
“品质”可以由“专家意见”和“大众点评”反映,埃伯特评分(Ebert’s Rating)这样的单个专家评分,Metacritic Score这样众多专家评分的汇总,以及IMDb上影迷评分的数据都可以作为参考。“冲击力”则可以通过IMDb上的评分人数来衡量。
而衡量某一个电影对其他电影的“影响力”就不那么好办了。电影不像科学论文,它们不会在片尾字幕里打上“参考文献”列表,把对本影片产生过影响的电影一一列出。不过,万能的互联网还是不会让我们失望的。
互联网电影数据库(Internet Movie Database, IMDb.com)是亚马逊(Amazon)旗下的一个网站,拥有极为详实的电影资料,从演员表、票房收入到剧情梗概,巨细无遗。而其中最末尾也是最不被人们注意的一栏,其实隐藏着非常丰富的信息,那就是由网友们提交的电影之间的“联系”(Connection)。
一代代电影人都是看着上一代电影人的作品成长的,那些经典电影自然会对后来的电影产生深远的影响,其中的经典桥段也可能在之后的电影中有所体现。而火眼金睛的网友们发现了这种联系,便会把它提交到IMDb网站上。根据提交原因,这些联系可分为“参考”、“恶搞”、“放映”、“续作”等等类别。
比如,1977年上映的传世之作《星球大战:新希望》中唐僧一般唠叨的机器人C3PO,他其实是以1927年科幻电影开山鼻祖之一《大都会》里的机器人为范本设计的,因此我们便可以认为《星球大战》“参考”了《大都会》。同理,我们也可以认为《北京遇上西雅图》“参考”了《西雅图未眠夜》,《舌尖上的中国2》“参考”了《人类星球》。而《当哈利遇到莎莉》里直接出现了《卡萨布兰卡》的片段,这就算是“放映”。《怪物史莱克》则“恶搞”了许多经典的动画角色和桥段。我们可以认为,这些“联系”其实就是电影之间的“引用”。
电影的引用网络。t为两部电影的年份间隔,越往下的电影越老。图片来自参考文献1
在这个数据库中,15425部影片组成的电影引用网络里一共可以找到42794个联系。越重要、越经典的电影,拥有的“引用”数自然也越多,《绿野仙踪》、《惊魂记》、《教父》、《公民凯恩》等影迷们津津乐道的名作都有着成百上千的“引用”。
最佳指标:长间隔引用次数
有了这个引用网络之后,我们就可以利用复杂网络分析的手段,来计算某一部电影对其他电影的“影响力”了。研究团队从这个网络中计算生成了两个数字指标,一个是根据PageRank算法[3]给出的分数,另一个则是时间跨度超过25年的被引用次数,我们称之为“长间隔引用次数”。为什么不直接使用总引用数呢?这是因为研究团队通过观察经验分布和与零模型对比发现,很多电影被引用都是在大约25年之内,超过25年以后就无人问津了。而对于某些电影,不管它多老,总还会收到新的“引用”。因此我们认为,时间跨度在25年以内的“引用”可能更多受到潮流的影响,而长时间跨度的“引用”更能说明作品经受住了时间的考验。
接下来,研究团队使用Probit回归模型和随机森林两种机器学习算法,分别计算了埃伯特评分、Metacritic Score、IMDb评分、IMDb评分人数、PageRank分数以及长间隔引用次数这六个指标是否能够预测电影能否入选美国国家影片登记表。
结果表明,长间隔引用次数在两个算法下的表现都是最优,它超过了总引用次数和PageRank分数,更是远胜于影评专家的个人意见。研究团队根据“长跨度引用”的个数,制定了一张“最具影响力”的电影榜单,排在前十位的电影分别是《绿野仙踪》(1939)、《星球大战》、《惊魂记》、《卡萨布兰卡》、《乱世佳人》(1939)、《金刚》(1933)、《科学怪人》(1931)、《教父》、《公民凯恩》和《2001:太空漫游》。值得一提的是,在作者提交论文的六个月后,《欢乐糖果屋》已于2014年年底入选国家影片登记表。这样一来,这张榜单上前40部电影里,除了《德州电锯杀人狂》、《七年之痒》和《罗丝玛丽的婴儿》之外,其余37部均已入选。另外我们的研究结果也显示,来自Metacritic Score和IMDb的网友平均打分预测力超过了单个专家意见,这也再次证实了两句老话:“人多力量大”,“三个臭皮匠,赛过诸葛亮”。
根据“长间隔引用”次数得出的美国电影排名,最后一栏为影片入选美国国家影片登记表的时间。
由此看来,在预测电影的重要性方面,数据科学的效果还是最好的,而大众评审的综合评分也比专家的个人意见更加可靠。虽然目前的评价方法还要依靠网友手动提交电影之间的“联系”,计算25年后的“引用率”也需要相当漫长的等待,不过这依然是数据科学与复杂网络理论在文艺作品评价方面一次有趣的尝试。