抓取页面内容
1
| url = 'https://top.baidu.com/board?tab=movie'
|
1
| response = requests.get(url)
|
解析页面内容
电影标题
1 2
| title = re.findall('<div class="c-single-text-ellipsis">(.*?)</div>', response.text) title
|
[' 隐入尘烟 ',
' 独行月球 ',
' 邪不压正 ',
' 无人区 ',
' 人生大事 ',
' 哥斯拉 ',
' 神探大战 ',
' 侏罗纪世界3 ',
' 明日战记 ',
' 魔女2 ',
' 倩女幽魂 ',
' 紧急宣言 ',
' 翻译官 ',
' 顽石之拳 ',
' 英伦对决 ',
' 片场杀机 ',
' 寄生虫 ',
' 决战要塞 ',
' 感觉 ',
' 我们是一家人 ',
' 疯狂试爱 ',
' 再生号 ',
' 火山口 ',
' 我的空姐女友 ',
' 美味关系 ',
' 狂暴野人 ',
' 泰坦尼克号 ',
' 宫锁沉香 ',
' 让子弹飞 ',
' 坏种 ']
电影类型
1
| tmp_res = re.findall('<div class="intro_1l0wp">(.*?)</div>', response.text)
|
1 2
| type_ = tmp_res[::2] type_
|
[' 类型:农村 ',
' 类型:搞笑、科幻 ',
' 类型:搞笑、爱情 ',
' 类型:剧情、犯罪 ',
' 类型:全部 ',
' 类型:冒险、科幻 ',
' 类型:动作、悬疑 ',
' 类型:动作、科幻 ',
' 类型:科幻、动作 ',
' 类型:动作、科幻 ',
' 类型:剧情、爱情 ',
' 类型:动作、惊悚 ',
' 类型:剧情 ',
' 类型:剧情、传记 ',
' 类型:动作、惊悚 ',
' 类型:剧情、动作剧情片 ',
' 类型:搞笑、剧情 ',
' 类型:动作、剧情 ',
' 类型:动作、搞笑 ',
' 类型:剧情、家庭 ',
' 类型:剧情、网络电影 ',
' 类型:悬疑、惊悚 ',
' 类型:剧情 ',
' 类型:爱情、剧情 ',
' 类型:全部 ',
' 类型:科幻、喜剧 ',
' 类型:灾难、剧情 ',
' 类型:爱情、剧情 ',
' 类型:喜剧、动作 ',
' 类型:剧情、悬疑 ']
电影主演
1 2
| actor = tmp_res[1::2] actor
|
[' 演员:武仁林、海清 ',
' 演员:沈腾、马丽 ',
' 演员:姜文、彭于晏 ',
' 演员:徐峥、黄渤 ',
' 演员:朱一龙、杨恩又 ',
' 演员:亚伦·泰勒-约翰逊、卡梅隆·CJ·亚当斯 ',
' 演员:刘青云、蔡卓妍 ',
' 演员:克里斯·帕拉特、布莱丝·达拉斯·霍华德 ',
' 演员:古天乐、刘青云 ',
' 演员:申诗雅、李钟硕 ',
' 演员:刘亦菲、古天乐 ',
' 演员:宋康昊、李秉宪 ',
' 演员:张译、王俊凯 ',
' 演员:埃德加·拉米雷兹、罗伯特·德尼罗 ',
' 演员:成龙、皮尔斯·布鲁斯南 ',
' 演员:西岛秀俊、常盘贵子 ',
' 演员:宋康昊、李善均 ',
' 演员:安德烈·马斯连基、叶甫盖尼·塞格诺夫 ',
' 演员:多姆纳尔·格里森、欧文·沃尔 ',
' 演员:卡琳娜·卡普尔、卡卓儿 ',
' 演员:储毅、胡彪 ',
' 演员:刘青云、林熙蕾 ',
' 演员:莎伦·卡罗西亚、莎伦卡罗西亚 ',
' 演员:杜俊泽、何静 ',
' 演员:李伟燊、Erra Fazira ',
' 演员:Jeff Ryan ',
' 演员:莱昂纳多·迪卡普里奥、凯特·温丝莱特 ',
' 演员:周冬雨、陈晓 ',
' 演员:姜文、葛优 ',
' 演员:麦肯娜·格瑞丝、卡拉·布欧诺 ']
电影简介
1 2
| summary = re.findall('<div class="c-single-text-ellipsis desc_3CTjT">(.*?)<a', response.text) summary
|
[' 《隐入尘烟》是由李睿珺编剧并执导,武仁林、海清领衔主演的农村题材电影,于2022年2月10日在第72届柏林电影节首映。该片讲述了在西北农村,一对农村夫妇艰辛而温馨的一段生命旅程。 ',
' 2033年,为了抵御小行星的撞击,拯救地球,人类在月球部署了月盾计划。陨石提前来袭,全员紧急撤离时,维修工独孤月(沈腾 饰)因为意外,错过了领队马蓝星(马丽 饰)的撤离通知,一个人落在了月球。不料月盾计划失败,独孤月成为了“宇宙最后的人类”,开始了他在月球上破罐子破摔的生活... ',
' 北洋年间,北京以北。习武少年李天然目睹师兄朱潜龙勾结日本特务根本一郎,杀害师父全家。李天然侥幸从枪下逃脱,被美国医生亨德勒救下。李天然伤愈后,赴美学医多年,并同时接受特工训练。1937年初,李天然突然受命回国。“七七事变”前夜,北平,这座国际间谍之城,华洋混杂,山头林立。每时每刻充满诱惑与杀机。一心复仇的李天然,并不知道自己被卷入了一场阴谋,亦搅乱了一盘棋局。彼时彼刻,如同李小龙闯进了谍都卡萨布兰 ',
' 小有名气但利欲熏心的律师潘肖(徐峥饰),凭借扎实的法律知识和巧舌如簧的庭辩技巧,成功帮盗捕国家珍禽阿拉泰隼并残忍杀害一名警察的西北盗猎团伙老大(多布杰 饰)洗脱罪名。老大承诺十天后付清余款,潘肖则要求对方用一辆红色轿车抵押。在此之后,他驾驶着新车踏上从西北荒漠返回大都会的路程。谁知路上险情不断,先是和一对开卡车拉茅草的哥俩(王双宝 & 巴多 饰)发生摩擦,导致人伤车损,接着又不慎撞飞一个似乎拦车求 ',
' 《人生大事》是由韩延监制,刘江江执导,朱一龙领衔主演,杨恩又、王戈、刘陆、罗京民主演的电影,该片于2022年上映。该片讲述刑满释放的殡葬师三哥在一次出殡中遇见了孤儿武小文,意外地改变了三哥对职业和生活态度的故事。 ',
' 新版《哥斯拉》由2010年《怪兽禁区》(Monsters)的导演加雷斯·爱德华兹(Gareth Edwards)执导,和1998年索尼的那部完全无关,将更忠于日本原作,让哥斯拉和其他怪兽(不止一个)对打。在今年圣迭戈Comic-Con动漫展上,华纳公司曾曝光了一小段新《哥斯拉》的片花,反响非常强烈。改编自1954年日本电影《哥斯拉》,围绕一位人类大兵的生活展开。讲述了沉睡的古代巨型怪兽被人们意外唤 ',
' 《神探大战》是由韦家辉执导,刘青云、蔡卓妍、林峯、李若彤、谭凯、陈家乐、汤怡、何珮瑜等主演的犯罪动作悬疑电影。该片讲述了自封“神探”的凶手与真正的“神探”鬼才之间展开的斗智斗勇的港式七宗罪故事。该片原定于2022年4月2日在中国大陆上映,后延期上映,新档期择日公布。 ',
' 《侏罗纪世界3:统治》由环球影业出品的科幻惊悚电影,科林·特雷沃罗执导,克里斯·帕拉特、布莱丝·达拉斯·霍华德领衔主演,杰克·约翰逊、杰夫·高布伦等主演。该片于2022年6月10日在美国与中国内地上映。《侏罗纪世界3》讲述了自从恐龙进入了人类世界,侏罗纪公园已经不复存在的故事。 ',
' 《明日战记》的故事设定在2055年,那时候的地球深受污染和全球变暖问题的困扰,一颗陨石击中地球,带来一种快速生长的触须类外星生物,它在净化地球的同时,也在杀死一切生命。拯救地球的任务落在了一支精英部队身上。在与外星生物作战的同时,他们也发现了一个惊天阴谋…… ',
' 《魔女2》是朴勋政执导和编剧的科幻动作电影,由申诗雅、金多美、赵敏秀、李钟硕和晋久等主演,预计于2021年在韩国正式上映。 ',
' 很多年以前,他矢志要成为一个优秀的猎妖师,他选择了黑山做他修行和圆梦之旅的起点。那时,燕赤霞很年轻,黑山已经是一座很老的大山,那里有更老的精灵妖怪,它们过着原始的生活,粗糙简单却充满杀戮气息。他在黑山经历一场又一场的凶险恶斗,村民们都害怕进入黑山和这间寺院被称为“兰若寺。他的剑变得更可怕,他的力量也更强大,他自信可以战胜一切,直到那一天,他遇上了她和他们的悲痛故事由此开始。很多年以后,黑山山下的所 ',
' 《紧急宣言》是一部航空灾难题材的电影,讲述了飞机在面临历史上罕见的灾情时,机长判断无法正常运行后无条件宣布紧急着陆命令而展开的故事。 ',
' 《翻译官》是由秦海燕编剧的剧情电影。该片讲述了老金带领小文等翻译学院的毕业生到非洲某地实习,返程时却在机场遭到绑匪绑架。老金和小文与绑匪斗智斗勇,让绑匪从暴力不沟通,转变为谈判沟通,凭借翻译的职业优势带领大家打通了回家之路。 ',
' 《顽石之拳》是由五家独立电影联合投资拍摄,乔纳森·加库波维兹执导的传记片,埃德加·拉米雷兹,罗伯特·德尼罗出演,该片于2016年8月26日在美国上映。该片讲述了拳击手罗伯特·杜兰的职业生涯。 ',
' 该片根据史蒂芬·莱瑟1992年出版的小说《中国佬》(The Chinaman)改编。讲述了身经百战的越战退伍老兵(成龙 饰)退役之后在伦敦唐人街开了家餐馆。当小女儿被爱尔兰恐怖团伙残害,正义得不到伸张的情况下,悲愤之中他再度举枪为女复仇。 ',
' 《停拍》是2011年上映的日本伊朗电影,由阿米尔·纳得瑞执导,西岛秀俊,常盘贵子等主演。影片讲述了热爱电影的电影导演秀二,为了替哥哥还债,不得不沦落成为一名黑帮打手的故事。 ',
' 基宇出生在一个贫穷的家庭之中,和妹妹基婷以及父母在狭窄的地下室里过着相依为命的日子。一天,基宇的同学上门拜访,他告诉基宇,自己在一个有钱人家里给他们的女儿做家教,太太是一个头脑简单出手又阔绰的女人,因为自己要出国留学,所以将家教的职位暂时转交给基宇。就这样,基宇来到了朴社长家中,并且见到了他的太太,没过多久,基宇的妹妹和父母也如同寄生虫一般的进入了朴社长家里工作。然而,他们的野心并没有止步于此,基 ',
' 苏德战争爆发,靠近波兰边境的白俄罗斯小城布列斯特要塞最先遭受德军炮火突袭,但守卫部队于弹丸之地牵制了数十倍于自己的德军兵力。战争进行到第30天,最初打响战斗的布列斯特守备部队仍在坚守,并一直向后方总部发出“这里是要塞,正在战斗”的讯息。在已经失守的布列斯特要塞的地道里坚持战斗一年多的最后一名苏军战士,被德国人发现时,他被德国人从地穴中押出来刺眼的阳光让他几乎失明 ',
' 父亲突然离世,傻小子一夜之间变的自由和暴富,对爱情和事业全靠“感觉”来把握,结局证明这样做是完全错误的。 ',
' 《我们是一家人》是由Sidharth·Malhotra执导的爱情和剧情片,Nominath Ginsberg、Diya Sonecha参加演出。讲述了关于后妈的故事。 ',
' 该片主要讲述了,六个线索人物错综交织,为毒品和百万美金相互争斗的故事。无厘头女作家“鲍菊”屡次试爱,每每受挫。奇葩黑帮三人组交易受阻,又丢失百万钱财。俊男毒枭初来中国,就被重伤放倒。毛贼侦探替人消灾,不料摊上三条人命。时尚老鸨伶牙俐齿,双刀火拼黑帮,好色副导色字当头,失手杀妻,智斗侦探。本风马留不相干的一群人,被卷入了一系列的复杂的事件中。 ',
' 汤有亮一家游玩途中遭遇严重车祸,汤当场身亡,妻子程希文和一双儿女侥幸逃生,只是女儿汤乐儿双眼从此失明。转眼十年过去,时间并未治愈汤氏一家心中的创伤,他们久久沉浸在失去丈夫和父亲的悲痛之中。乐儿不愿母亲继续折磨自己,她尝试着将一家人的经历写成小说,而书中的情节和现实截然相反。在小说里,乐儿和母亲、弟弟死于车祸,父亲则活了下来,成为一个由菲佣照顾起居的盲人。父亲相信鬼魂的存在,时刻期盼与妻儿重逢。 ',
' 13岁的莎伦是父亲罗萨里奥——月亮公园小摊摊主的唯一希望。莎伦擅长唱歌,尤其是那不勒斯新民歌的类型,对她来说就像一张成名的入场券,于是她从小就在父亲的小摊前为客人表演。 ',
' 林茜不仅有份令人艳羡的空姐工作,还有个英俊帅气的男朋友周豪。原本幸福快乐的她在一次飞行归来,却发现最好的闺蜜凌琪和周豪上了床,伤心欲绝之后选择独自去旅行,一次尴尬的意外结识了某公司总裁韩子杰,韩子杰为了俘获她的芳心宁愿放弃公司的巨大利益,而他的霸道和温柔让林茜心中逐渐升起异样的情感... ',
' 这部电影讲述了一对情侣Jack和Sharifah的爱情故事。两家庭都是美食世家,双方爸爸都是厨师。Sharifah是马来人,电视台节目制作人,她父亲Rahim是电视台烹饪节目的马来名厨,两父女合作无间。而Jack是华人,一名大厨师,他的父亲“龙哥”是酒楼老板大厨,经营祖传三代的旧式茶楼,一心培植Jack为酒楼继承人。但是,二人的爱情因为是异族的关系,遭受双方爸爸的不谅解和强烈反对。两个名厨父亲互看 ',
' 特效化妆师马丁因为殴打事件被迫寻求催眠治疗控制脾气。因为母亲神秘离世,马丁返回老家,而那里不久后就发生了怪物杀人类事件。当地警长确信马丁与此事件脱不了干系,马丁自己也意识到,这些都与他的恶梦有关。 ',
' 1912年4月10日,号称 “世界工业史上的奇迹”的豪华客轮泰坦尼克号开始了自己的处女航,从英国的南安普顿出发驶往美国纽约。富家少女罗丝(凯特温丝莱特)与母亲及未婚夫卡尔坐上了头等舱;另一边,放荡不羁的少年画家杰克(莱昂纳多迪卡普里奥)也在码头的一场赌博中赢得了下等舱的船票。 罗丝厌倦了上流社会虚伪的生活,不愿嫁给卡尔,打算投海自尽,被杰克救起。很快,美丽活泼的罗丝与英俊开朗的杰克相爱,杰克带罗丝 ',
' 满清康熙鼎盛之际,自十三岁入宫当宫女的兆佳沉香(周冬雨 饰)与同在乾西四所当差的好朋友琉璃(赵丽颖 饰)度过七年春秋.深宫内院,挡不住少女春心萌动.单纯无知的沉香偷偷恋上十三阿哥胤祥(陈晓 饰),情缘前定,两个身分有着巨大差异的青年男女互生好感.另一方面,琉璃偶然得到九阿哥胤禟(朱梓骁 饰)临幸,后被抛弃,一心攀援富贵的她被嫉妒与虚荣所充满,遂假托沉香之名得以许配十三阿哥.沉香深藏心中委屈,以贴身 ',
' 民国年间,花钱捐得县长的马邦德(葛优 饰)携妻(刘嘉玲 饰)及随从走马上任。途经南国某地,遭劫匪张麻子(姜文 饰)一伙伏击,随从尽死,只夫妻二人侥幸活命。马为保命,谎称自己是县长的汤师爷。为汤师爷许下的财富所动,张麻子摇身一变化身县长,带着手下赶赴鹅城上任。有道是天高皇帝远,鹅城地处偏僻,一方霸主黄四郎(周润发 饰)只手遮天,全然不将这个新来的县长放在眼里。张麻子痛打了黄的武教头(姜武 饰),黄则 ',
' 《坏种》是由罗伯·劳执导,麦肯娜·格瑞丝、罗伯·劳、卡拉·布欧诺等联合主演悬疑恐怖片。该片讲述了一个单身父亲为了帮助他的女儿艾玛处理她所在学校发生的故事,该片于2018年9月9日在美国上映。 ']
电影封面
1 2
| img = re.findall('</div> <img src=(.*?)" alt=""> <div class="border_3WfEn">', response.text) img
|
['"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/8bb7047cc2d8597d884a2c4f32bd8da8?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/698f1e94c34c97275792e2e264e56c57?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/71f5730e2019a7cc58bfb613d5d92e19?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/eac1ef6f818d1cad5048fbc13e19d995?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/3cffe6cd36c752fc9603418268f431cd?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/bc77117cdbb09d731cd7dc384869cc86?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/047b61a7b9fb712ce4651fc879f47f4c?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/abcccc66f4f14227d1413fe8515ef342?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/60bc5cbe062d60c587f8fb6dfa61ae03?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/32252ecc15981695b4a13c4cf12a0a84?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/37c561a8c21cee77d8f67b333b9895c6?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/32f8e7ff6d1d67b6e6cb609bc45dc62a?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/bc4103f3a4429b01087fa2321780f454?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/9ca15e3aba7b30bb38563b0965f979bc?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/a1c9d9e6a3596e31f9b894e9e6f85394?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/23d5002c6f94d898c050089a19b94118?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/52aa42100775197904433ef8b6a505f6?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/a1f9f1d6bf887b03b9c39a898b1014b0?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/c767f5d21dee449bddcf155884673070?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/ec388c58e0fb55e35aaa624bad0151a3?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/dfa86655476d7d13ccc968597858b362?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/0d89d4ae21e546b783cbdb0be7da4baa?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/6d0e830fb0b5f7f34d11df8dc44763a8?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/ced51329190f3b3af5455869d9d5b145?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/5cca2f15b478a71d5f1771653c7d19a2?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/95946ace45a92525210991b1af9ca1cc?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/ba5321990b08185d1f2d4436073fc6c8?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/64f6b8da1303539c797389aaf0d06f62?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/848b399c100c435a67675db459ebee28?x-bce-process=image/resize,m_fill,w_160,h_214',
'"https://fyb-1.cdn.bcebos.com/fyb-1/20220909/bbd99173798aab1a2ab93c72608cd2d1?x-bce-process=image/resize,m_fill,w_160,h_214']
热度指数
1 2
| hot_index = re.findall('<div class="hot-index_1Bl1a">(.*?)</div>', response.text) hot_index
|
[' 1722506 ',
' 277446 ',
' 260603 ',
' 252456 ',
' 231581 ',
' 213211 ',
' 185615 ',
' 182725 ',
' 180112 ',
' 161658 ',
' 115365 ',
' 107596 ',
' 75581 ',
' 70808 ',
' 66664 ',
' 54226 ',
' 51524 ',
' 48874 ',
' 47844 ',
' 46402 ',
' 44791 ',
' 43883 ',
' 43133 ',
' 40549 ',
' 39136 ',
' 38408 ',
' 37529 ',
' 36980 ',
' 34752 ',
' 34610 ']
数据存储
1 2
| data = pd.DataFrame([title, type_, actor, summary, img, hot_index], index=['电影名称', '电影类型', '电影主演', '电影简介', '封面地址', '热度指数']).T
|
1
| data.to_excel('data.xlsx', encoding='GBK')
|