Искусственный интеллект едва ли был термином в 1956 году, когда ведущие ученые в области вычислительной техники собрались на летнюю конференцию в Дартмутском колледже. Компьютерный ученый Джон Макафи придумал эту фразу в предложении для финансирования мероприятия, которое было организовано для обсуждения принципов создания машин, способных использовать язык, решать проблемы, как люди, и совершенствоваться. Однако это был хороший выбор, который отражал основную идею организаторов: любая характеристика человеческого интеллекта может «в принципе быть настолько точно описана, что машина может имитировать её».
В своем предложении группа перечислила несколько «аспектов проблемы искусственного интеллекта». Последним пунктом в их списке, и, возможно, самым сложным, было создание машины, способной проявлять креативность и оригинальность.
На тот момент психологи пытались определить и измерить креативность у людей. Преобладающая теория — что креативность является продуктом интеллекта и высокого IQ — угасала, но психологи не знали, чем её заменить. У организаторов Дартмутской конференции была своя точка зрения. «Различие между креативным мышлением и неоригинальным компетентным мышлением заключается во введении некоторой случайности», писали они, добавляя, что такая случайность «должна быть направлена интуицией, чтобы быть эффективной».
Практически 70 лет спустя, после ряда бумов и спадов в этой области, у нас теперь есть модели ИИ, которые более или менее следуют этому рецепту. Хотя большие языковые модели, генерирующие текст, стремительно развивались за последние три года, другой тип ИИ, основанный на так называемых диффузионных моделях, оказывает беспрецедентное влияние на креативные сферы. Преобразуя случайный шум в последовательные паттерны, диффузионные модели могут создавать новые изображения, видео или речи, руководствуясь текстовыми подсказками или другими входными данными. Лучшие из них могут создавать выходные данные, неотличимые от работ человека, а также странные, сюрреалистичные результаты, которые явно не человеческие.
Теперь эти модели проникают в творческую сферу, которая, возможно, более всего подвержена разрушению, чем любая другая: музыку. Креативные работы, созданные ИИ — от оркестровых выступлений до хэви-метала — собираются проникать в нашу жизнь более всесторонне, чем любой другой продукт ИИ когда-либо. Эти песни, вероятно, будут смешиваться с нашими стриминговыми платформами, плейлистами для вечеринок и свадеб, саундтреками и многим другим, вне зависимости от того, заметим ли мы, кто (или что) их создал.
В течение многих лет диффузионные модели вызывали дискуссии в мире визуального искусства о том, отражает ли их продукция истинное творчество или просто репликацию. Теперь эта дискуссия охватила музыку, искусство, которое глубоко связано с нашим опытом, воспоминаниями и социальной жизнью. Модель музыки теперь может создавать песни, способные вызывать настоящие эмоциональные реакции, наглядно демонстрируя, насколько трудно становится определить авторство и оригинальность в эпоху ИИ.
Суды активно борются с этой размытостью. Крупные звукозаписывающие студии подали в суд на ведущие ИИ-генераторы музыки, утверждая, что диффузионные модели не делают ничего, кроме как повторяют человеческое искусство, не компенсируя артистам. Создатели моделей возражают, что их инструменты предназначены для содействия в человеческом творчестве.
При решении вопроса, кто прав, мы вынуждены задуматься о нашей собственной человеческой креативности. Является ли креативность, будь то в искусственных нейронных сетях или биологических, всего лишь результатом обширного статистического обучения и установленных связей с добавлением немного случайности? Если да, то авторство становится неясным понятием. Если нет — если существует какой-то явно человеческий элемент в креативности — то что это? Что значит быть тронутым чем-то без человеческого создателя? Мне пришлось бороться с этими вопросами в первый раз, когда я услышал действительно потрясающую песню, созданную ИИ — было тревожно осознавать, что кто-то просто написал подсказку и нажал «Создать». Эта ситуация скоро возникнет и для вас.
Установление связей
После конференции в Дартмуте его участники разошлись в разных направлениях исследований, чтобы создать основные технологии ИИ. В то же время когнитивные ученые следовали призыву Дж. П. Гилфорда 1950 года, президента Американской психологической ассоциации, заняться вопросом креативности у людей. Они пришли к определению, впервые формализованному в 1953 году психологом Моррисом Штайном в Журнале психологии: Креативные работы являются как новыми, то есть они представляют нечто новое, так и полезными, что значит, что они служат какой-то цели для кого-то. Некоторые предлагали заменить «полезные» на «удовлетворяющие», а другие выдвигали третье критерий: креативные вещи также являются удивительными.
Позже, в 1990-х годах, рост функциональной магнитно-резонансной томографии позволил изучать больше нейронных механизмов, лежащих в основе креативности во многих областях, включая музыку. Компьютерные методы за последние несколько лет также упростили задачу определения роли памяти и ассоциативного мышления в креативных решениях.
В итоге возникло не грандиозная объединенная теория того, как возникает и разворачивается креативная идея в мозге, а все более растущий список мощных наблюдений. Мы можем сначала разделить человеческий творческий процесс на фазы, включая этап генерации идей или предложений, за которым следует более критический и оценочный этап, который ищет ценность в идеях. Ведущая теория о том, что направляет эти две фазы, называется ассоциативной теорией креативности, которая предполагает, что самые креативные люди способны образовывать новые связи между дальними концепциями.

«Это может быть похоже на распространение активации», говорит Роджер Бити, исследователь, возглавляющий Лабораторию когнитивной нейронауки креативности в университете Пенсильвании. «Вы думаете об одной вещи; это как бы активирует связанные концепции с этой одной концепцией.»
Эти связи часто сосредоточены конкретно на семантической памяти, которая хранит концепции и факты, в отличие от эпизодической памяти, которая хранит воспоминания из определенного времени и места. В последнее время были использованы более сложные вычислительные модели для изучения того, как люди устанавливают связи между концепциями на больших «семантических расстояниях». Например, слово апокалипсис более тесно связано со словом ядерная энергия, чем со словом празднование. Исследования показали, что высококреативные люди могут воспринимать семантически разные концепции как близкие друг к другу. У художников обнаружено, что они генерируют словесные ассоциации на большем расстоянии, чем не-художники. Другие исследования подтверждают идею о том, что креативные люди обладают «протекающим» вниманием — они часто замечают информацию, которая может быть не особенно актуальна для их непосредственной задачи.
Нейронаучные методы оценки этих процессов не предполагают, что креативность разворачивается в какой-то конкретной области мозга. «Ничто в мозге не производит креативность так, как железа выделяет гормон», написал Дин Кит Симонтон, лидер в области исследований креативности, в Кембриджском справочнике по нейробиологии креативности.
Вместо этого доказательства указывают на несколько рассеянных сетей активности во время креативного мышления, говорит Бити — одна поддерживает начальную генерацию идей через ассоциативное мышление, другая участвует в идентификации многообещающих идей, а третья предназначена для оценки и модификации. Новое исследование, возглавляемое учеными из Медицинской школы Гарварда и опубликованное в феврале, предполагает, что креативность может даже включать угнетение некоторых сетей мозга, например, тех, которые участвуют в самоцензуре.
На данный момент машинная креативность — если это можно так назвать — выглядит совершенно иначе. Хотя во время конференции в Дартмуте исследователи ИИ были заинтересованы в машинах, вдохновленных человеческим мозгом, этот фокус изменился к моменту появления диффузионных моделей около десяти лет назад.
Лучший улик о том, как они работают, заложен в названии. Если вы опустите кисть, загруженную красной краской, в стеклянную банку с водой, краска будет расплываться и смешиваться с водой, казалось бы, случайно, в конечном итоге давая бледно-розовую жидкость. Диффузионные модели имитируют этот процесс в обратном порядке, восстанавливая читабельные формы из случайности.
Для представления того, как это работает для изображений, представьте фотографию слона. Чтобы обучить модель, вы создаете копию фотографии, добавляя слой случайного черно-белого статического изображения сверху. Создайте вторую копию и добавьте немного больше ще, и так далее сотни раз, пока последнее изображение не станет чисто статическим, без видимого слона. Для каждого промежуточного изображения статистическая модель прогнозирует, сколько из изображения является шумом, а сколько действительно является слоном. Она сравнивает свои предположения с правильными ответами и учится на своих ошибках. На основе миллионов этих примеров модель становится лучше в «удалении шума» из изображений и связывании этих паттернов с такими описаниями, как «взрослый слон Борнео на открытом поле».
Теперь, когда она обучена, создание нового изображения означает обратное выполнение этого процесса. Если вы дадите модели подсказку, например «счастливый орангутан в мшистом лесу», она генерирует изображение случайного белого шума и работает назад, постепенно удаляя шум, используя свою статистическую модель. Сначала появляются грубые формы и цвета. Затем появляются детали, и, наконец, (если всё удачно) возникает орангутан, и всё это без того, чтобы модель «знала», что такое орангутан.
Музыкальные образы
Этот подход работает аналогично и для музыки. Диффузионная модель не «композирует» песню, как это могла бы сделать группа, начиная с аккордов на пианино и добавляя вокал и барабаны. Вместо этого все элементы создаются одновременно. Процесс основан на том, что многие сложности песни могут быть визуализированы в одной волновой форме, представляющей амплитуду звуковой волны, нанесённую на временную шкалу.
Представьте проигрыватель. Перемещаясь по бороздке на пластинке, игла отражает путь звуковых волн, выгравированных в материале, и передает его в сигнал для динамика. Динамик просто выталкивает воздух в этих паттернах, создавая звуковые волны, которые передают всю песню.
Издали волновая форма может показаться просто следуя громкости песни. Но если заглянуть достаточно близко, можно увидеть паттерны в пиках и впадинах, как, например, 49 волн в секунду для бас-гитары, играющей низкий соль. Волновая форма содержит суммирование частот всех различных инструментов и текстур. «Вы видите, как начинают формироваться определенные фигуры», говорит Дэвид Динг, соучредитель компании AI-musics Udio, «и это как бы соответствует широкому мелодическому чувству».
Поскольку волновые формы или аналогичные графики, называемые спектрограммами, могут быть рассмотрены как изображения, можно создать из них диффузионную модель. Модель на основе миллионов отрывков существующих песен, каждая из которых помечена описанием, генерирует новую песню, начиная с чистого случайного шума и работая назад для создания новой волновой формы. Путь, по которому она идет для этого, формируется тем, какие слова кто-то вводит в подсказку.
Динг работал в Google DeepMind в течение пяти лет в качестве старшего исследовательского инженера по диффузионным моделям для изображений и видео, но ушел, чтобы основать Udio в Нью-Йорке в 2023 году. Компания и ее конкурент Suno, базирующийся в Кембридже, штат Массачусетс, сейчас возглавляют гонку за создание моделей генерации музыки. Оба намерены строить ИИ-инструменты, которые позволяют немузикантам создавать музыку. Suno больше, они заявляют о более чем 12 миллионах пользователей, и в мае 2024 года собрали 125 миллионов долларов в рамках очередного раунда финансирования. Компания сотрудничает с артистами, включая Тимбаланда. Udio в апреле 2024 года собрала стартовый раунд финансирования в размере 10 миллионов долларов от выдающихся инвесторов, таких как Andreessen Horowitz, а также музыкантов Уилла.и.ама и Коммона.
Результаты Udio и Suno до сих пор предполагают существование значительной аудитории людей, которым может быть все равно, сделана ли музыка, которую они слушают, людьми или машинами. Suno имеет страницы для создателей, некоторые из которых имеют большую аудиторию, кто генерирует песни полностью с помощью ИИ, часто сопровождаемые изображениями исполнителя, созданными ИИ. Эти создатели не являются музыкантами в традиционном смысле, а квалифицированными пророками, создающими работы, которые не могут быть отнесены к единому композитору или певцу. В этом новом пространстве наши обычные определения авторства — и наши границы между созданием и репликацией — практически растворяются.
Результаты Udio и Suno до сих пор предполагают существование значительной аудитории людей, которым может быть все равно, сделана ли музыка, которую они слушают, людьми или машинами.
Музыкальная индустрия сопротивляется. Обе компании были поданы в суд крупными звукозаписывающими лейблами в июне 2024 года, и разбирательства продолжаются. Лейблы, включая Universal и Sony, утверждают, что модели ИИ были обучены на защищенной авторским правом музыке «на почти невообразимом масштабе» и создают песни, которые «имитируют качества подлинных человеческих звукозаписей» (дело против Suno ссылается на одну песню, близкую к ABBA, под названием «Prancing Queen», например).
Suno не ответила на запросы о комментарии по поводу разбирательств, однако в заявлении о реакции на дело, размещенном в блоге Suno в августе, генеральный директор Майки Шульман заявил, что компания обучается на музыке, найденной в открытом интернете, который «действительно содержит материалы, защищенные авторским правом». Однако, по его словам, «обучение не является нарушением».
Представитель Udio сказал, что компания не будет комментировать незавершенные разбирательства. В момент подачи иска Udio выпустила заявление, в котором отметила, что её модель имеет фильтры для обеспечения того, чтобы она «не воспроизводила защищенные авторским правом произведения или голоса артистов».
Ситуацию ещё более усложняет указание Управления по авторским правам США, выпущенное в январе, что произведения, созданные ИИ, могут быть защищены авторским правом, если они содержат значительное количество человеческого вклада. Спустя месяц художник в Нью-Йорке получил, вероятно, первое авторское право на визуальное произведение, созданное с помощью ИИ. Возможно, следующей станет первая песня.
Новизна и подражание
Эти судебные дела погружаются в серую зону, аналогичную той, которая исследуется в других судебных разбирательствах, связанных с ИИ. Здесь речь идет о том, разрешено ли обучение ИИ-моделей на защищенном авторским правом контенте, и копируют ли созданные песни несправедливо стиль человеческого артиста.
Но музыка, созданная ИИ, вероятно, будет распространяться в какой-либо форме, независимо от решений судов; сообщается, что YouTube вела переговоры с крупными лейблами о лицензировании своей музыки для обучения ИИ, а недавнее расширение соглашений Meta с Universal Music Group предполагает, что лицензирование для музыки, созданной ИИ, может находиться на повестке дня.
Если музыка, созданная ИИ, остаётся, будет ли она хорошей? Учитывайте три фактора: данные для обучения, сама диффузионная модель и подсказы. Модель может быть хорошей только в том случае, если библиотека музыки, из которой она учится, и описания этой музыки достаточно сложны, чтобы хорошо отражать её. Архитектура модели затем определяет, насколько хорошо она может использовать то, что было изучено, чтобы создавать песни. И подсказка, которую вы вводите в модель — а также степень, в которой модель «понимает», что вы имеете в виду под «убавь саксофон», к примеру, — также имеет решающее значение.
Является ли результат созданием или просто репликацией обучающих данных? Мы могли бы задать тот же вопрос о человеческой креативности.
Возможно, самым важным вопросом является первый: Насколько обширны и разнообразны данные для обучения и насколько хорошо они аннотированы? Ни Suno, ни Udio не раскрыли, какая музыка входила в их обучающий набор, хотя эти детали, вероятно, придется раскрыть в ходе судебных разбирательств.
Udio утверждает, что способ аннотирования этих песен имеет важное значение для модели. «Область активного исследования для нас заключается в том, как мы можем получить все более и более уточненные описания музыки», говорит Динг. Базовое описание будет определять жанр, но вы также можете сказать, является ли песня настройнической, поднимающей настроение или спокойной. Более технические описания могут упоминать прогрессию аккордов два-пять-один или конкретную гамму. Udio говорит, что она осуществляет это с помощью сочетания машинного и человеческого аннотирования.
«Поскольку мы хотим нацелиться на широкий круг целевых пользователей, это также означает, что нам нужны разнообразные музыкальные аннотаторы», говорит он. «Не только люди с докторскими степенями в области музыки, способные описать музыку на очень техническом уровне, но и музыкальные энтузиасты, у которых есть свой неформальный словарь для описания музыки.»
Конкурирующим генераторам музыки на основе ИИ также нужно учиться на постоянном потоке новых песен, созданных людьми, иначе их выходные данные будут застревать во времени, звуча устаревшими. Для этого сегодняшняя музыка, созданная ИИ, зависит от искусства, созданного человеком. В будущем, однако, модели музыки на основе ИИ могут учиться на своих собственных выходных данных, что является подходом, который экспериментируется в других областях ИИ.
Поскольку модели стартуют с случайной выборки шума, они недетерминированы; используя ту же самую модель ИИ с тем же самым запросом, вы получите новую песню каждый раз. Это также происходит потому, что у многих создателей диффузионных моделей, включая Udio, есть дополнительная случайность в процессе — по сути, они берут волновую форму, созданную на каждом шаге, и слегка искажают её, надеясь добавить недостатки, которые делают выходной продукт более интересным или реальным. Организаторы конференции в Дартмуте сами рекомендовали такую тактику назад в 1956 году.
Согласно соучредителю и главному операционному директору Udio Эндрю Санчесу, именно эта случайность, присущая генеративным программам ИИ, шокирует многих людей. В течение последних 70 лет компьютеры исполняли детерминированные программы: дайте программному обеспечению вводные данные и получите одинаковый ответ каждый раз.
«Многие из наших партнёров-художников говорят: «Ну, почему оно делает это?» — говорит он. — «Мы такие: не знаем». Эпоха генеративного ИИ требует нового мышления, даже для компаний, которые его создают: то, что программы ИИ могут быть запутанными и непонятными.
Является ли результат созданием или просто репликацией обучающих данных? Фанаты музыки на основе ИИ говорили мне, что мы могли бы задать тот же вопрос о человеческой креативности. Когда мы слушаем музыку в юности, нейронные механизмы для обучения формируются под влиянием этих входных данных, и воспоминания об этих песнях влияют на наши творческие результаты. В недавнем исследовании Эндони Брандт, композитор и профессор музыки в Университете Райса, указал, что как человеческие, так и большие языковые модели используют прошлый опыт для оценки возможных будущих сценариев и принятия лучших решений.
Действительно, большая часть человеческого искусства, особенно в музыке, заимствована. Это часто приводит к судебным разбирательствам, когда артисты утверждают, что песня была скопирована или использована без разрешения. Некоторые артисты предполагают, что модели диффузии должны быть сделаны более прозрачными, чтобы мы могли знать, что вдохновением для определенной песни являются три части Дэвида Боуи и одна часть Лу Рида. Udio говорит, что в настоящее время ведутся исследования для достижения этой цели, но в данный момент никто не может делать это надежно.
Для великих артистов существует это сочетание новизны и влияния, которое играет свою роль, говорит Санчес. «И я думаю, что это также является частью этих технологий.»
Но есть множество областей, где попытки приравнять человеческие нейронные сети к искусственным быстро распадаются при внимательном рассмотрении. Брандт выделяет одну область, где он ясно видит человеческую креативность, которая превосходит машинные аналоги: то, что он называет «усилением аномалии». Модели ИИ работают в области статистического отбора. Они не работают, акцентируя внимание на исключительном, а наоборот, уменьшая ошибки и находя вероятные паттерны. Люди, с другой стороны, интересуются странностями. «Вместо того чтобы считаться странными событиями или «разовыми»», пишет Брандт, странность «проникает в творческий продукт.»

Он упоминает решение Бетховена добавить резкий диссонанс в финале своей Симфонии № 8. «Бетховен мог бы оставить это так», говорит Брандт. «Но вместо того чтобы считать это «разовыми нарушениями», Бетховен продолжает ссылаться на это несоответствующее событие разными способами. Тем самым композитор усиливает влияние моментального отклонения.» Можно рассмотреть подобные аномалии в заднем зацикливании записях поздних Beatles, «питч-ап» вокала Фрэнка Оушена или внедрение «найденных звуков», таких как записи светофора или закрывающейся двери, любимые такими артистами, как Чарли Пут и продюсер Билли Айлиш Финн О’Коннелл.
Если творческий результат действительно определяется как тот, который одновременно нов и полезен, интерпретация Брандта предполагает, что машины могут сравниться с нами по второму критерию, в то время как люди царствуют на первом.
Чтобы исследовать, так ли это, я провел несколько дней, тестируя модель Udio. Создание 30-секундного образца занимает одну-две минуты, но если у вас есть платные версии модели, вы можете создавать целые песни. Я решил выбрать 12 жанров, создать образец песни для каждого и затем найти подобные песни, созданные людьми. Я составил викторину, чтобы посмотреть, смогут ли люди в нашем редакции определить, какие песни были созданы ИИ.
Средний балл составил 46%. А для нескольких жанров, особенно инструментальных, слушатели ошибались чаще всего. Когда я смотрел, как люди делают этот тест передо мной, я заметил, что качества, которые они уверенно указывали как знак композиции ИИ — «фальшивый» инструмент, странный текст — редко подтверждали их догадки. Предсказуемо, люди показывали худший результат в жанрах, с которыми они были менее знакомы; некоторые справлялись с кантри или соул, но многие не имели шансов против джаза, классической фортепианной музыки или поп-музыки. Бити, исследователь креативности, набрал 66%, в то время как Брандт, композитор, закончил с 50% (хотя он правильно ответил на тесты по оркестровой и фортепианной музыке).
Помните, что модель не заслуживает всей заслуги; эти выходные данные не могли быть созданы без труда человеческих артистов, чьи работы входили в обучающие данные. Но всего за несколько подсказок модель сгенерировала песни, которые немногие люди бы определили как созданные машиной. Некоторые могли бы легко быть сыграны на вечеринке, не вызывая возражений, и я нашел две, которые мне действительно понравились, даже будучи музыкантом на протяжении всей жизни и довольно привередливым в отношении музыки. Но звучать натурально — это не то же самое, что звучать оригинально. Песни не казались движимыми странностями или аномалиями — определенно не на уровне «сюрприза» Бетховена. Они также не казались раздвигающими жанры или охватывающими большие скачки между темами. В моем тесте люди иногда затруднялись определить, была ли песня сгенерирована ИИ или просто плохой.
Насколько это будет иметь значение в конечном итоге? Суды сыграют роль в решении того, служат ли модели музыки ИИ репликациями или новыми созданиями — и как певцы будут вознаграждены в этом процессе — но мы, как слушатели, решим их культурную ценность. Чтобы оценить песню, нам нужно представить себе человеческого артиста за ней — человека с опытом, амбициями, мнениями? Является ли великая песня не более великой, если мы выясним, что она является продуктом ИИ?
Санчес говорит, что люди могут задумываться, кто стоит за музыкой. Но «в конце концов, независимо от того, сколько в ней ИИ и сколько человеческого компонента, это будет искусство», говорит он. «И люди будут реагировать на него исходя из его эстетических достоинств.»
В моем эксперименте, однако, я заметил, что этот вопрос действительно волновал людей — и некоторые настойчиво сопротивлялись идее наслаждаться музыкой, созданной компьютерной моделью. Когда один из моих испытуемых инстинктивно начал качать головой под ритм электропоп-композиции на викторине, её лицо выразило сомнение. Почти казалось, что она старалась изо всех сил представить себе человека, а не машину в качестве композитора песни. «Чувак», сказала она, «я правда надеюсь, что это не ИИ.»
Так оно и было.