在上一篇文章中,小编为您详细介绍了关于《东京电玩展宣布停办正在讨论用线上形式举办》相关知识。本篇中小编将再为您讲解标题人工智能:作曲?wecandoit!。
原标题:人工智能:作曲?we can do it!

人工智能可以作曲吗?理论上是否可行?哪种程度上可以代替人类?本期品玩知科技,邀请了知乎答主@谢圜来讲述人工智能与音乐的那些事:
计算机音乐领域,是一个广阔的领域。
其主要的研究方向包括音乐识别、音乐信息处理、音乐旋律与节奏分析、音频音乐检索、音频数据挖掘与推荐、音乐情感计算、音乐结构分析、算法作曲、自动编曲、说话人识别、语音增强、音频信息安全等。
2017年,英伟达公司发布了AIVA人工智能作曲模型,随后迅速得到商用,广泛用于网络视频的自动配乐。也正是这时候,音乐人工智能领域进入深度学习时代,深度学习算法成为本领域在国际工业界中的核心技术,被索尼、Spotify、苹果等公司使用在其音乐产品上;字节跳动招募了大量相关人才,研发了火山小视频和抖音应用的音乐推荐、音乐搜索算法,得到广泛使用;腾讯音乐部门将音乐信息检索的算法应用在社交互动领域,使得用户获得了更好的音乐社交体验。
其中最引人注目的topic,就是自动作曲。随着这波深度学习大潮,自动作曲技术也取得了很大的进展。
音乐生成的起源
早期,莫扎特曾经创作过一首《骰子音乐》,通过丢骰子的方法自动选择小节组合:组合出来的完整音乐仍然悦耳,但是创作的过程带有一定的随机性。
一个在线的demo:Mozart Dice Gamemozart.vician.cz
1950年代,第一批计算机发明后,出现了第一批计算机音乐。最早的音乐构建了一个马尔科夫过程,使用随机模型进行生成,辅以rule-based的方法挑选符合要求的结果。
当然这类方法生成的音乐质量不高。随着机器学习的发展,算法应该从音乐材料中自动地学习出一些规律,得到自然的音乐。
两种音乐生成
人类大致有两种方法参与自动音乐生成:
目前大部分的算法都属于第一类方法。第二种方法在很多情况下是第一种方法的组合和变体。
一个例子
2019年3月21日,Google Magenta组贡献了一个交互式算法demo,称为Bach Doodle,通过学习J. S. Bach的四重奏,算法可以由用户指定第一声部,然后自动计算给出剩余的三个声部。
(虽然很难听,但是Magenta在computer music领域黑不动)

Bach Doodle
我们以这个算法的雏形和前身“MiniBach”算法开始。
To specify the problem, 我们形式化决定算法仅生成四个小节的音乐。
如何将音乐转换为符号表示,其实有很多种方法。被公认的主流方法之一是piano-roll及其变体。midi可以表示128个不同的音高,将129指定为rest,130指定为sustain(持续),则音乐可以用一个130*N的矩阵表示。N取决于分辨率和音乐实际长度。主流设置是将16分音符作为最小的分辨率,那么一个4/4拍的两小节音乐可以被表示为130*32的矩阵。

piano roll的起源是匀速运动的打孔纸带
然而minibach作为早期模型,没有采用成熟的表示法,而是将21个音高*16个step*4个小节=1344,一共1344个node,使用了一个多分类器进行学习:

minibach 音乐人工智能的先驱者们
下面直接进入神经网络相关的模型:一波星星之火随着深度学习的浪潮而兴起。
首先是Todd的时间窗口-条件循环结构。
Todd的目标是以迭代的方式产生单音旋律(monophoic melody)。他的第一个设计是time-window结构,通过滑窗的方法,逐段地反复地进行旋律生成,上一段的输出作为下一段的输入。这是一个非常直接且朴素的想法。注意,这个idea是在1989年产生的,距离LSTM的正式诞生还有26年。

Todd的Time Windows结构
他还设计了Sequential结构,输入层分为两部分,分别是context和plan。context是生成的历史旋律,而plan是预先设置的需要网络学习的特定旋律的名字。

Todd的循环结构
Todd的这个模型影响深远,甚至可以看作是conditional network结构的先驱。
Todd后续还陆续提及了一些想法,希望得到解决,他们包括:
音乐的分层结构(structure and hierarchy)。这个问题至今没能得到完美的解决。2019年Google Magenta的MusicVAE试图在这个问题上有所突破,这也是我研究的课题之一。

MusicVAE
多时钟结构。这个问题后面被ClockworkRNN和SampleRNN等模型尝试解决。

ClockRNN
第二个提到的人是Lewis,他提出了基于refinement的方法(Creation by Refinement, CBR),提出通过梯度下降的方式训练模型。Lewis人工构建了正确的和没那么正确的旋律,通过我们现在熟知的方法进行网络训练。
Lewis的算法可以是看作最大化一些目标属性,以控制生成模型的各类方法的前身。现代的诸多算法都使用了类似的机制,如DeepHear最大化与给定目标的相似度,DeepDream最大限度地激活特定单元,等等。

Lewis的模型
有意思的是,这个网络使用梯度下降和反向传播机制进行训练,而且是在1988年。
此外,Lewis颇有创意地提出了一种attention机制和一种hierarchy方法。这个方法简单来说,有点类似于一类形式语法规则,如ABC变为AxByC,在不改变现有token的情况下,使用attention地方式选择位置,然后进行拓展。
与综述一样,我们从下面五个方向展开介绍:
要注意上面五个方法并不是正交的。
首先来聊聊音乐的表示法。音乐主要以两种形式表示:audio和symbolic。所以前几年相关的基础研究,有的会说自己是“symbolic domain music generation”,最近见得少了。

而文本格式中最被广泛使用的为ABC notation。现在还有活跃的社区在收集ABC标注的数据集:
也有相关的网站提供了ABC格式在线渲染乐谱的demo,有兴趣的话可以访问这个网站,体验一下ABC notation和乐谱的对应关系:
在一些格式中,模型会遇到编码问题。比如说音高pitch,既可以用一个实数表示,也可以用一个one-hot向量表示,甚至可以通过二进制来表示。目前one-hot是最为广泛的采用方法。
下面,我们来认识一些基本的模型。这些模型包括:
之后是一些复合架构。复合的方法可以分为下面几种:

C-RNN-GAN的结构
下图是流行模型的分类归属:

我们再讨论一些改进的架构。
VAE。VAE是现在音乐生成模型中最流行的架构之一。基础的VAE和嵌套的VAE结构如下图:

有工作试图将latent Z解耦,利用多个encoder和decoder进行表征学习的工作,如ISMIR 2019的音色分离模型:

事实上得到latent Z之后,可以通过多种方法对Z进行decoding,得到音乐。比如说sample一个符合原分布的向量,再交给Decoder进行VAE的解码工作。当然,插值等方法也是可以使用的。
目前一个研究热点问题是对VAE中的latent Z进行解释、分离,以达到表示学习的目的。如ISMIR 2019上一篇音乐节奏风格迁移的文章,就是将latent Z的不同部分分别约束,强制latent vector包含特定的含义。

简单的说了一下VAE之后我们再讨论GAN模型。GAN模型近年来远没有VAE模型多见,而更多地用作弱监督环境下提升质量的方法。前几年的MidiNet就是GAN模型:

MidiNet
正如我之前提到的,对网络的中间变量进行采样,然后对生成的结果做迭代的细化,也是生成的一个策略。DeepBach采用了类似的策略:

在实际使用中,DeepBach可以指定重新生成音乐的任意部分,无需重新生成整个内容:

无独有偶,Bach Doodle的原文CocoNet,也采用了相似的方法。网络通过反复擦除不同地方的结果,让网络进行补完,之后采样,再补完,迭代地细化结果:

最后闲聊一些别的。
音乐生成领域非常广阔,从计算机音乐顶会ISMIR每年CfP时的说明就可以看出来,有很多值得研究的主题。
在这些主题中,纯粹的音乐生成其实并不是最热门的方向。在音乐信息检索、音乐转录、哼唱识别、音乐学研究等领域,也有无数学者孜孜不倦地努力着。

此外,计算机音乐也与NLP、数据挖掘等领域紧密相关。KDD、ICML等会议都曾出现过相关论文和workshop。

部分截图
欧洲比较著名的研究机构,包括Queen Mary的C4DM,规模和整体科研实力都是在欧洲数一数二的:

法国的IRCAM:

西班牙的UPF-MTG:

北美斯坦福的CCRMA:

纽约大学的MARL:
麦吉尔大学的CIRMMT:

亚洲新加坡国立大学:

日本京都大学:

遗憾的是,我们国家在计算机音乐领域还远没有发展起来。
近年来我们成立了自己的社区,有了自己的会议:

与我比较熟的同行们,主要来自下面的实验室:
北京大学陈晓鸥老师的数字音频研究所:
复旦大学李伟老师的实验室:

北京邮电大学李圣辰老师的实验室:

上海纽约大学夏光宇老师的实验室:

至于工业界,主要是腾讯的QQ音乐:

以及字节跳动的抖音:

可以明显地感觉到,国内和国外,不管是工业界还是学术界,都有着数量上的明显差距。国内的计算机音乐方兴未艾,这对所有从业者来说,既是挑战,也是机会。
“品玩知科技”系知乎科技和 PingWest品玩 联合出品的精品栏目,知乎科技是知乎科技数码领域的官方机构号。针对科技热点新闻和好玩儿的数码体验,第一时间为用户带来可信赖的解读。游戏网
编后语:关于《人工智能:作曲?wecandoit!》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《京东回归港股,国际投资人怎么看?》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器