发布日期:2024-11-01 07:12 点击次数:168
虎嗅注:前有民谣歌词分析偷偷撸1,现存Rapper歌词分析。这样提及来,机器基本皆不错通过几十万、几百万字歌词分析或曲库分析,来掌抓东谈主类艺术创作的套路了。AI Diss你东谈主类那一天还远吗昆季!
本文转载自公众号摩登天外杂志(ModernskyMag),作家:猫弟Azz。
《中国有嘻哈》火了,手脚别称对中国HipHop毫无了解的吃瓜全球,我运行酷爱以下三个问题:
HipHop到底在唱些什么?
各个国度和地区的 Rapper 们想要说的唱的皆有哪些特色?
若是想当一个Rapper,我应该如何写词身手紧跟潮水又不会浮泛无物?
为了解答这个疑问,我用Python抓取了好意思英、台湾、香港、中国大陆四个地区,统统六千万的歌词,其中包括大陆600万的歌词,作念了一些数据分析的职责,场所即是给我以及像我雷同的吃瓜全球们一个有理有据的谜底。
我的数据源选了X米音乐,写了好一会代码,抓取歌词的爬虫运行蹭蹭职责了⇣
爬虫一般会濒临两个问题——
1.代理问题
经常地抓取网站的页面,IP很容易被封。于是写了个抓免费代理的爬虫,抓了八百多个代理IP,够用了。
2.规模问题
10万首歌,即使是1秒一个苦求,那得27个小时,我可等不了27个小时。
于是我决定开10个线程,三小时身手就能跑完。
……
然后在三小时之后,我成绩一个约100M,49419首歌的数据库。
接下来,即是一些数据清洗、处理、分析的职责。
虾米的歌词皆是用户裁剪上传的,形状不适用数据分析,是以我得把不消的标志、编曲、作词之类的信息撤退(形状谐和有何等进攻啊一又友们),然后中英文各自分词。英文需要去停词(对数据分析不消的词,一般莫得现实含义,如is、on、at、which),大小写变换,以及词形变换。英语中词汇有单复数、多样时态,为了易于分析,需要归附为词干。另外不管是中语照旧英文皆需要词性标注,一般来说分析也就分析名词和态状词,这些现成的开源库使用(此处省去1000万字)。
总之,我皆责罚了,以下即是分析规模。咱们先望望大陆地区的rapper歌词里有皆写啥要津词⇣
“天下”和“时辰”占据首位,“老子”、“昆季”、“baby”、“money”、“bitch”、“real”等词倒是让rapper的形象呼之欲出。rapper的词里经常提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对我方的音乐非常在乎。嘻哈音乐由于有freestyle的文化,对亲身写词有条目,不然就不“ real ”,从节目中他们对偶像rapper的diss也能看出来。
接着,咱们来望望与其他几个地区的要津词对比↓
看起来rapper的糊口差未几,不管大陆照旧台湾,皆心爱喊“baby”,身边皆有一群“昆季”和“一又友”,有“瞎想”,平淡皆在唱“hip hop”,有“烦嚣”了就骂骂街。
亮点是好意思国的要津字top1是“nigga”,这个和带有种族愤慨意味的“nigger”还不是一个词。对于这个Tupac有过一个挑升念念的界说。
nigger : a black man with a slavery chain around his neck.(黑奴)
nigga : a black man with a gold chain on his neck.(金链黑汉子)
接下来,为明晰解rapper的糊口现象,我运行分析一些常见词汇在歌词中出现的频率。饶舌歌手们的糊口想必少不了豪车,外出骑摩拜可能有被开除rap籍的风险。
感谢维基提供汽车品牌页面,况且很贴心的分了英语称呼、中国大陆译名,于是我又写了个爬虫把品牌称呼抓下来,然后统计数据库中每个品牌出现的频率。
这是各汽车品牌在国内16284首嘻哈歌曲中出现的情况,在一首歌的歌词中出现算一次,统统约有400多首歌中出现至少一次汽车的品牌名字。不错看出,饶舌歌手心爱良马和疾驰的许多,秉性唯有一个,即是贵!其实夏利、桑塔纳等车也有不少歌提到,但一般抒发的是懊悔情谊。
然后我又统计了一下rapper们皆喝什么⇣
*红色是国内饶舌歌手的数据,黄色是总额据
看来饶舌歌手不那么心爱喝威士忌,排在威士忌前边的还辞别有龙舌兰、白兰地、朗姆酒,限于图表大小我没将这几个列入图表。香槟手脚豪阔的象征,遥遥跨越,不外国内的饶舌歌手似乎处于花费尚未升级的水平,啤酒排在首位。番邦东谈主相比心爱金酒,国内的饶舌歌手确切没提到,天然金酒一般用来调鸡尾酒,可是鸡尾酒提到的次数亦然少得爱怜。
饶舌歌手心爱彼此diss(怼),是以他们diss时会骂些啥?让咱们来望望他们皆骂了什么脏话。
这个统计有个小插曲,第一次统计发现一个中语脏话皆莫得,还觉得净网畅通收效了,规模发现分词的词库里根底就没脏话的词汇,再行手动加入词库后就好了。
(左边是所罕有据的出现次数,右边是大陆说唱的出现次数)
大陆16284首歌有2496首出现脏话,脏话率约为15%,而非大陆的数据中,33134首歌有13217首出现脏话,脏话率约为40%。
总的来看,我国歌手相比合适社会观念中枢价值不雅。我试着把“damn”和“shit”这两个不那么“脏”况且白话常见的词在海外的统计中去掉,终末脏话率还有33%,比例远远高于大陆。一个揣度是,英文脏话词汇在歌词中更容易押韵,约略唱起来flow更好把抓。另一个可能是审查原因,早有“in3”这样的乐队因为歌词原因被禁,国内的rapper创作起来可不成太奔放。
终末咱们来议论一下rap里的押韵。
在《中国有嘻哈》中咱们看到有单押、双押、三押,多样百花齐放的押韵。旋律、押韵、节拍是说唱歌曲三个很进攻的评判圭臬,一个好的押韵,能让歌曲的flow愈加畅达。
那么咱们若何身手唱出酷酷的押韵呢?我从歌词库中取出整个歌词,分词,然后凭据韵母、声调分类,然后取得了一个押韵词汇文献。
韵脚的漫衍挺意旨的,我统计了一下出现前十的两字词语韵脚⇣
不错看出,i i这个韵脚是最容易押韵的。下图的这个韵脚的部分词汇。“势利”,“世纪”,“日记”,“高明”……
看着这些词汇,我就鬼使神差rap起来了,drop the beat!
双押x9 收场!
以上应该能告诉你中国到底有什么样的嘻哈了偷偷撸1。