Об авторе: Анатолий Шалыто, профессор, д.т.н., Университет ИТМО.
В статье «Программисты получили Нобелевскую премию!», посвящённой в основном Демису Хассабису (Demis Hassabis), сказано, что он через несколько десятилетий повторил путь Джеффри Хинтона (Geoffrey Hinton), которого в своё время с его подходом к искусственному интеллекту (ИИ) отвергали те, кто применял логический подход к интеллекту, так как считали рассуждения сутью интеллекта. При этом системы, реализованные на основе этого похода, назывались системами, основанными на правилах. Эти учёные считали, что обучение может подождать – сначала необходимо понять, как всё в ИИ можно представить.
Ещё одно совпадение у Хассабиса и Хинтона – это одинаковость первых букв в их фамилиях. А ещё они оба родом из Лондона. Демис родился в 1976 году, а Джеффри – в 1947.
Их похожесть состоит также и в том, что работами каждого из них в области ИИ заинтересовался Google. И здесь Хинтон, как старший по возрасту, оказался впереди: его компанию «гигант» приобрел в 2013 году, а компанию Хассабиса – на год позже. Хинтон с 2013 по 2023 год был одним из вице-президентов Google. Возможно, Хассабис небольшое время был его начальником, так как в апреле 2023 года DeepMind, которым руководил Демис, объединился с Google Brain и образовалась компания Google DeepMind для координации работ по ИИ в Google. При этом Хассабис стал её руководителем.
Демис несколько отстал :-) от Джеффри и при присуждении Нобелевской премии, так как о награждении Хассабиса этой премией по… химии стало известно на день позже, чем о награждении Хинтона – праправнука Буля — Нобелевской премией… по физике с формулировкой «за фундаментальные открытия и изобретения, обеспечивающие машинное обучение с помощью искусственных нейронных сетей».
Как и Хассабис, Хинтон окончил Кембриджский университет, но Демис – в 1997 году, а Джеффри намного раньше – в 1970. Хассабис – бакалавр по информатике, а Хинтон – бакалавр искусств в области экспериментальной психологии. Он выбрал это направление, так как его привлёк второй подход к изучению интеллекта, который основан на биологии, сторонники которого считали, что суть интеллекта – это изучение силы связей в нейронной сети мозга. Эти учёные полагали, что логика может подождать, она появится позже, когда станет понятно, как происходит процесс обучения мозга. Однако закончив учёбу в бакалавриате, Хинтон был разочарован, так как к пониманию того, как происходит обучение мозга, он приблизился мало.
На Хинтона в молодости повлияли двое учёных. Первый из них – канадский физиолог и нейропсихолог Дональд Хебб (Donald Hebb), исследовавший силу связей нейронов в процессе обучения. Хебба называют одним из создателей теории искусственных нейронных сетей, так как он предложил первый работающий алгоритм их обучения. Второй учёный – это великий Джон фон Нейман (John von Neumann), который думал о том, как производят вычисления в мозгу. Интересно, что и фон Нейман, и Тьюринг, будучи сильны в логике, не верили в логический подход к интеллекту.
Поэтому при обучении в аспирантуре (магистратуру он благополучно миновал) Хинтон решил использовать второй подход к изучению интеллекта и стал заниматься обучением искусственных нейронных сетей, которые со временем стали называться «нейронными сетями». Для этого он в 1972 году поступил в аспирантуру Эдинбургского университета, которую закончил в 1975 году. Над диссертацией он работал с 1976 по 1978 год в Университете Сассекса. В 1978 году Хинтон в Эдинбургском университете стал PhD в области ИИ. До 1982 года он проработал в Калифорнийском университете в Сан-Диего, а потом пять лет до 1987 года преподавал компьютерные науки в университете Карнеги-Меллона.
Работая в этом университете, Хинтон опубликовал две работы, которыми очень гордится. Первая из них была в Nature: Rumelhart D., Hinton G., Williams R. Learning Representations by Back-Propagating Errors // Nature. V. 323. 1986, pp. 533-536. Эта работа привлекла внимание к методу обратного распространения ошибки для тренировки нейронных сетей. Идея метода состояла в том, что веса связей в сети сначала задаются случайным образом, и если сеть выдаёт не то, что ожидалось, то ошибка с выхода передается по сети в обратном направлении.
Вторая работа на эту тему была значительно более развёрнутой: Rumelhart D., Hinton G., Williams R. Learning Internal Representations by Error-Propagation / Parallel Distributed Processing: Explorations in the Microstructure of Cognition. V. 1. 1986. Issue 6088, pp. 318-362. MIT Press, Cambridge, MA.
В университете Карнеги-Меллона финансирование ИИ проводилось Пентагоном. Этот заказчик не нравился Хинтону, и поэтому он перешёл на работу в один из престижнейших университетов Канады – Университет Торонто, что во многом было связано с политикой грантовых агентств Канады, которая существенно отличалась от американской. Эти агентства, располагая относительно небольшими средствами, часть из них выделяли на поддержку проектов, основанных на любопытстве профессоров, которые поэтому могли проводить исследования в интересных им областях, и если они это делали хорошо, то через три года могли получить ещё больше денег. Исследования Хинтона проводились длительное время без каких-либо практических результатов, что от него и не требовалось. В Америке же для получения гранта обычно необходимо было указывать, какие продукты будут производиться в результате деятельности по гранту.
Но изложенное ещё не всё, что делалось в Канаде в указанном направлении, так как там был Канадский институт передовых исследований, который выделял дополнительные средства профессорам, работающим в областях, где Канада была мировым лидером, для обеспечения взаимодействия учёных, как внутри страны, так и за её пределами.
В 1995 году, когда Хинтон работал в университете Торонто, у него вышла статья в Science: Hinton G., Dayan P., Frey B., Neal R. The Wake-Sleep Algorithm for Self-Organizing Neural Networks // Science. V. 268. 1995. Issue 5214, pp. 1158-1161.
Указанная выше поддержка, естественно, не могла быть бесконечной; в июле 1998 года ему пришлось покинуть Канаду — и он до октября 2001 года проработал в Англии. Здесь он опубликовал статью в одном из журналов, связанных с Nature: Hinton G. Computation by neural networks // Nature Neuroscience. V. 3. 2000.
В 2001 году Хинтон узнал, что Канада решила профинансировать его программу по глубокому обучению, и он вернулся в Университет Торонто, в котором в 2014 году стал «Заслуженным профессором» (Emeritus Professor) и является им по сей день.
Несмотря на указанную поддержку, на выбранном пути его всё равно ждали большие трудности. До середины десятых годов прошлого века почти всегда, когда Хинтон заводил речь о машинном обучении, многие исследователи ИИ смотрели на него так, будто он приводит аргументы в пользу геоцентрической системы мира или кровопускания пиявками. Однако Хинтон уже тогда понимал, что нейросеть сможет справиться со сложными задачами, если будет состоять из многих слоёв.
Джеффри и людей вроде него считали чудаками и визионерами, но на его упорство всё чаще стали обращать внимание. Так, в одном из рекомендательных писем для приёма на работу в Университет Торонто было сказано: «Я не верю в то, чем он занимается, но, если Вам нужен тот, кто всё же сможет сделать то, во что он верит, этот человек – Хинтон». Вот интервью с ним с характерным названием: «Большинство учёных ошибалось: как упрямство Хинтона изменило мир ИИ», а теперь изменяет и мир в целом.
Теперь Хинтона называют пионером глубокого обучения. Он стремился разработать систему, которая могла бы обучаться так же, как человек – посмотреть на данные и, не имея никаких предварительных знаний, научить сеть делать что-то. Хинтон предполагал, что в сети веса связей между нейронами должны изменяться, и именно за счёт этого происходит обучение. В то время большинство ученых в этой области считали, что это нонсенс и нелепица.
И это происходило при том, что все знали – мозг может делать и то, для чего эволюция не требовалась. Она была не нужна, например, для чтения, которое сравнительно недавно появилось. Ведь недаром в этом случае говорят об «обучении». Обучить человека можно разным вещам, в том числе и такой неестественной для человека вещи, как фигурное катание. Поэтому Хинтон считал, что и для нейронных сетей должны существовать методы обучения, хотя и понимал, что мозг и нейронные сети работают по-разному.
В итоге Хинтон победил, но в краткосрочной перспективе его борьба выглядела весьма безнадёжно. В 80-е годы прошлого века нейронные сети работали плохо, так как компьютеры были медленными, а наборы данных маленькими, но многими это рассматривалось лишь как жалкое оправдание. Сегодня Хинтон считает, что масштабы вычислений и данных определяют достижения моделей даже в большей мере, чем новые идеи, так как никакие идеи не могут конкурировать с тем, что у него на глазах компьютеры стали в миллиард (!) раз быстрее.
В качестве одного из примеров имевшихся в то время малых объемов данных Хинтон приводит ситуацию, в которой у него было всего 112 предложений, описывающих семейные отношения, из которых 104 использовались для обучения сети, а её работа после этого проверялась на оставшихся восьми предложениях. Но даже в этой ситуации сеть работала лучше, чем традиционный ИИ, основанный на рассуждениях.
Хинтон отмечает, что то, что сегодня называют «глубоким обучением» (Deep Learning), стало исследоваться в 2006 году. Предыдущие системы можно назвать «системами поверхностного обучения», так как они были ограничены в сложности функций, которые могли выполнять. Название «глубокое обучение» определилось архитектурой нейронных сетей, которые обучаются – это глубокие нейронные сети, так как могут содержать много слоёв. При Deep Learning используется предварительное (preliminary) обучение генеративных моделей (о таких сетях сказано ниже). Это нашло своё отражение в первых двух буквах аббревиатуры GPT. О третьей букве в ней также сказано ниже. Интересно, что когда Хинтон узнал про скрытые модели Маркова, он предложил некоторые слои в нейронных сетях называть «скрытыми».
Вот некоторые публикации Хинтона того времени:
- Hinton G., Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks // Science. V. 313. 2006. Issue 5786, pp. 504-507.
- Hinton G., Osindero S., Teh Y. A Fast Learning Algorithm for Deep Belief Nets / Neural Computation. V. 8, 2006. № 7, pp. 1527-1554. В этой статье представлен эффективный способ обучения очень глубоких нейронных сетей. После тонкой настройки сеть формирует очень хорошую генеративную модель совместного распространения изображений рукописных цифр и их меток. Эта модель обеспечивала лучшую классификацию цифр, чем известные алгоритмы дискриминационного обучения.
- Hinton G.E. Learning Multiple Layers of Representation / Trends in Cognitive Sciences. V. 11. 2007. № 10, pp. 428-434. Здесь Хинтон показал, что многослойная нейросеть может решать сложные задачи.
- Sutskever I., Hinton G.E. Learning Multilevel Distributed Representations for High-Dimensional Sequences / In Proceeding of the Eleventh International Conference on Artificial Intelligence and Statistics. 2007. pp. 544-551.
В 2009 году аспиранты Хинтона создали лучшие на тот момент распознаватели речи: Dahl G., Ranzato M., Mohamed A., Hinton G. Phone Recognition with the Mean-Covariance Restricted Boltzmann Machine / Advances in Neural Information Processing Systems 23 (NIPS 2010). 2010. pp. 469-477, и продолжали работу в этом направлении: Mohamed A.-R., Dahl G., Hinton G. Acoustic Modeling Using Deep Belief Networks // IEEE Trans. Audio, Speech and Language Processing. V. 20. 2012, pp. 14-22.
В 2012 году ведущие IT-компании мира внедрили это предложение: Hinton G. at. el. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups (Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп) // IEEE Signal Processing Magazine. V. 29. 2012. Issue 6, pp. 82-97. Эти группы из University of Toronto, University of Waterloo, Michigan State University, Microsoft, Google, Google Research и IBM Thomas J. Watson Research Center.
Совместная статья крупнейших лабораторий по распознаванию речи свидетельствует о прорыве, достигнутом с помощью глубокого обучения в задаче фонетической классификации для автоматического распознавания речи. Это стало первым крупным промышленным применением глубокого обучения.
Один из учеников Хинтона стал выдающимся специалистом в области ИИ. Речь идет об Илье Суцковере, который родился в Горьком в 1986 году. Он поступил в Университет Торонто. В 2005 году стал бакалавром математики и компьютерных наук, в 2007 году – магистром, в 2012 году — стал PhD (Sutskever I. Training Recurrent Neural Networks. PhD thesis, Univ. Toronto). Здесь список его публикаций.
В 2003 году на втором курсе Илья спросил у руководителя бакалавриата по математике, есть ли в университете исследовательские проекты в области машинного обучения. Ему рекомендовали поговорить с Хинтоном. Это знакомство стало для Ильи судьбоносным. Профессор рекомендовал ему прочесть несколько статей по машинному обучению и предложил работу в одном из проектов. Суцкеверу нужно было улучшить алгоритм машинного обучения для визуализации данных, Stochastic Neighbor Embedding, который разработал Хинтон. Илья справился с этой задачей. Благодаря сотрудничеству с Хинтоном, у него появилась возможность работать над одними из самых важных научных проблем нашего времени и развивать идеи, которые в то время были крайне недооценены большинством ученых, но оказались совершенно правильными.
В 2010 году Суцкевер стал единственным канадским лауреатом международной премии Google PhD Fellowship Program. В рамках определения номинантов на премию исследователи Google отбирали самых многообещающих молодых ученых в мире, которые занимаются инновационными исследованиями в области информационных технологий. Аспиранты получали ежегодную стипендию (в 2010 году она составляла 25 тысяч долларов) и другие меры поддержки.
В это время Илья работал над текстовой программой, которая после ввода символов (букв и цифр) могла точно предсказывать последующие символы. В обучающую выборку вошли 16 миллионов статей из «Википедии». Результаты этих исследований были опубликованы в 2011 году в статье Sutskever I., Martens J., Hinton G. Generating Text with Recurrent Neural Networks / Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011, pp. 1017-1024. Предложенный подход был реализован на графических процессорах (GPU) и работал удивительно хорошо. Сеть стала размышлять и понимать! Эта технология сейчас широко используется практически во всех чат-ботах. Отмечу, что мозг учится похоже: по данному кадру видео обычно можно предсказать следующий кадр. Так же дело обстоит и со звуками.
В 2012 году Хинтон, Суцкевер, а также ещё один аспирант профессора, Алекс Крижевский, используя два GPU, разработали систему на основе нейронной сети, способную анализировать тысячи фотографий и обучать саму себя распознавать с высокой точностью такие объекты, как цветы, собаки и автомобили. Они обучили большую глубокую свёрточную нейронную сеть классифицировать по 1000 различным классам 1,3 миллиона изображений с высоким разрешением из обучающего набора LSVRC-2010 ImageNet. Эта нейронная сеть имела 60 миллионов параметров и 500 тысяч нейронов. В результате их разработка – AlexNet — выиграла ежегодный конкурс ImageNet.
Вот основная публикация на эту тему: Krizhevsky A., Sutskever I., Hinton G. ImageNet Classification with Deep Convolutional Neural Networks / Proceeding of Advances in Neural Information Processing Systems 25 (NIPS 2012), pp. 1090-1098. Как отмечено ниже, эта статья по цитируемости стала одной из самых важных работ в истории информатики.
В то время лучшие алгоритмы ошибались при классификации изображения в 25% случаев. Глубокое обучение позволило снизить частоту ошибок чуть ли не в два раза. В дальнейшем они достигли показателя, характерного для людей – трёх процентов. Это была первая работа, которая популяризировала свёрточные нейронные сети в компьютерном зрении.
С помощью них решаются задачи сегментации, классификации, детектирования, обработки изображений. AlexNet положила начало революции в области ИИ. Эта технология стала интеллектуальной основой для создания ИИ, которую крупнейшие технологические компании в этой отрасли считают ключом к будущему развитию. С этого момента считается, что Хинтон – пионер ИИ.
А теперь о том, как повлияли достижения Хинтона и его учеников на совершенствование GPU и развитие компании NVIDIA.
Сначала об основателе компании. Дженсен Хуанг (Jensen Huang) поступил в Орегонский государственный университет, где изучал электротехнику. После его окончания (в 1984 году) работал в Кремниевой долине в качестве конструктора микрочипов. В 1992 году получил степень магистра электротехники в Стэнфордском университете, а в 1993 году стал сооснователем компании NVIDIA, в которой сегодня работает 13 775 человек; на 20 июня 2024 года компания оценивалась в 3,335 триллиона долларов! Это третий (!) показатель в мире после Microsoft и Apple. Возможно, что на одного работающего это лучший результат в мире.
С самого начала компания сосредоточилась на создании GPU, а на их основе — мультимедийных карт, которые долгое время в основном использовались в компьютерных играх и на криптовалютных «фермах».
В 1999 году NVIDIA представила видеокарты GeForce, для которых через восемь лет (в 2007 году) была разработана программно-аппаратная архитектура для обеспечения параллельных вычислений CUDA (Compute Unified Device Architecture). Это потребовало огромных вложений. У CUDA не только не было конкурентов, но и почти не было потребителей. К концу 2008 года стоимость акций компании упала на 70%. Отгрузки CUDA достигли пика в 2009 году (при этом их было не так много), а затем снижались в течение трех лет. Считалось, что компания стагнирует.
Одним из приложений, над которым компания размышляла, был ИИ, но казалось, что для него нет рынка. В начале XXI века ИИ был заброшенной дисциплиной. Прогресс в решении базовых задач, таких как распознавание изображений и речи, был незначительным. В рамках этой непопулярной академической области, основой которой были рассуждения и логика, ещё менее популярной была его подобласть, которая решала задачи с помощью «нейронных сетей». Многие учёные считали, что ИИ в целом и нейронные сети в частности дискредитированы. Применительно к последним было известно, что пороговая логика в индустрии не прижилась, а желающих работать с «нейронками» отговаривали, потому что они считались устаревшими и не работали.
Но в этой пустыне были пророки, которые продолжали исследовать нейронные сети. Например, Хассабис давно понимал, всё в мире сводится к умножению матриц, а именно это и делают GPU. Поэтому он считал, что они необходимы не только при создании игр, где он их применял, но и для нейронных сетей.
Однако он тогда ещё по-настоящему не был в «деле», и главным пророком этого направления был Хинтон. Как описано выше, в 2009 году исследовательская группа Хинтона использовала GPU для обучения нейронной сети распознаванию речи. Он был удивлён качеством результатов, которые представил на конференции в том же году. После этого он обратился в NVIDIA. «Я отправил им письмо со словами: «Я только что рассказал многим исследователям машинного обучения, что они должны пойти и купить карты NVIDIA. Не могли бы вы прислать мне одну карту бесплатно?» – рассказывал Хинтон. Они ответили отказом.
Несмотря на это, Хинтон поощрял своих учеников за использование CUDA. Среди них был и упомянутый выше его аспирант Алекс Крижевский, которого профессор считал лучшим программистом, которого он когда-либо встречал. В 2012 году Крижевский и Суцкевер купили две карты GeForce. Затем Крижевский начал обучение нейронной сети для распознавания изображений с помощью GeForce и CUDA, передавая им миллионы изображений в неделю. «У него в спальне жужжали два GPU», – рассказывал Хинтон.
Эти аспиранты были поражены возможностями использованной платформы. Ранее в том же году исследователи из Google обучили нейронную сеть, которая распознавала видео с кошками. Им для этого потребовалось около 16 тысяч центральных процессоров (CPU). Суцкевер и Крижевский добились результатов мирового уровня, используя всего две видеокарты NVIDIA. Это было похоже на чудо.
Указанную выше нейросеть, названную ими AlexNet, теперь можно было упомянуть как прорывную. Как уже отмечалось выше, в 2012 году Крижевский представил AlexNet на конкурсе по визуальному распознаванию ImageNet. Нейронные сети были настолько непопулярны в то время, что он был единственным участником, использовавшим эту технологию. Его сеть так хорошо показала себя на конкурсе, что организаторы поначалу задавались вопросом, не жульничал ли Крижевский. «Это был своего рода момент Большого взрыва, – рассказывал Хинтон. Это была смена парадигмы».
За 12 лет, прошедших с момента публикации девятистраничного описания архитектуры AlexNet в статье Krizhevsky A., Sutskever I., Hinton G. ImageNet Classification with Deep Convolutional Neural Networks, упомянутой выше, её процитировали 164 733 раза!
Крижевский получал и другие научные результаты, но его ключевым достижением стало то, что GPU, специализированные с помощью CUDA, могут обучать нейронные сети в 100 раз быстрее, чем универсальные GPU, не говоря уже о CPU. «Заниматься машинным обучением без CUDA было бы слишком сложно», – сказал после этого Хинтон.
На это отреагировал и Хуанг, который изменил вектор развития NVIDIA, объявив, что, сохраняя остальные направления работы компании, она будет значительно больше ориентирована на Deep Learning.
После успеха AlexNet венчурные капиталисты начали вкладывать деньги в ИИ. Они инвестируют во множество стартапов, применяющих Deep Learning во многих областях, и каждый из них эффективно работает на платформе NVIDIA.
Теперь о вкладе в развитие ИИ Илона Маска. Ещё в 2012 году в разговоре Маска с Хассибом Демис добавил к угрозам человечеству, перечисленным Маском, угрозу от ИИ, и чтобы быть в курсе работ в этом направлении, Маск стал инвестором DeepMind. Эта угроза не позволяла Маску не думать о ней. В 2013 году он попытался обсудить этот вопрос с сооснователем Google Ларри Пейджем, с которым был знаком лет десять, но взаимопонимания не нашёл. Тот сказал: «Ну и что, если машины однажды и станут умнее, а возможно, и сознательнее людей? Это просто выведет нас на новую ступень эволюции». Маску это не понравилось, так как ни при одной технической революции, которые проходили до этого, её достижения не были настолько потенциально опасны для человечества.
После своего триумфа Хинтон, Суцкевер и Крижевский создали научно-исследовательский стартап DNNResearch (аббревиатура DNN происходит от словосочетания «Глубокие (Deep) Нейронные (Neural), Сети (Networks)»). Здесь они продолжили заниматься разработками в области ИИ, связанными с распознаванием речи, компьютерным зрением и пониманием языка (Natural-Language Understanding). Как сказано выше, в 2013 году компанию купил Google. «Я думал, их интересует наша интеллектуальная собственность, а оказалось, что им были нужны мы», – рассказывает Хинтон. Илья оказался в Google Brain. Он работал над моделированием последовательностей, которые можно применять к речи, тексту и видео.
В 2014 году была опубликована статья, посвящённая методу последовательного обучения в нейросетях: Sutskever I., Vinyals O., Le Q. Sequence to Sequence Learning with Neural Networks. 2014.
Модель Seq2seq, основанная на глубоком обучении, произвела революцию в машинном переводе. Она принимает на вход последовательность элементов и возвращает другую последовательность элементов. Это значит, что при переводе учитывается не только текущее слово, но и окружающие его слова – учитывается контекст. Эта работа послужила основой для серьёзного обновления Google Translate. Исследователи не верили, что нейронные сети смогут переводить текст, поэтому, когда они всё же смогли это делать, это стало для них большим сюрпризом. В Google Brain Суцкевер также занимался и разработкой платформы TensorFlow – сравнительно простого инструмента, который позволяет создавать нейросети.
А тем временем Маск пришёл в смятение, когда узнал, что после покупки Хинтона, Суцкевера и Крижевского Google решил купить ещё и DeepMind во главе с Хассибом. Маск попытался остановить эту сделку, но она в 2014 году состоялась.
В 2015 году Илон Маск совместно с другими инвесторами создал некоммерческую компанию, разрабатывающую продукты с открытым исходным кодом, OpenAI, в которую «рванул» из Google Суцкевера. Он в новой компании стал главным научным сотрудником и сооснователем. Узнав о случившемся, Пейдж очень разозлился…
Маск сделал это для того, чтобы в мире направление ИИ было открытым для человечества, и чтобы в этой области не было только одного лидера – компании Google, открытость работ которой в ИИ не постулируется, несмотря то, что основной доход компания получает из других направлений деятельности.
В настоящее время по указанной причине большую открытость демонстрирует Facebook, запрещенный в России. Эта компания в области ИИ придерживается принципа открытости и делится своими достижениями через публикации, исследовательские работы и открытые инструменты. Вот примеры этого: публикации, код платформы Direction для распознавания объектов на фотографиях, библиотека для глубокого обучения PyTorch, веса для обучения большой языковой модели LLaMA (под некоммерческой лицензией), модель LLaMA 2, разработанная совместно с Microsoft, доступная для исследовательских и коммерческих целей, модель LLaMA 3 с открытым исходным кодом, мультимодальная модель LLaMA 3.2 с открытым исходным кодом, представляющая собой семейство больших языковых моделей разной мощности.
В 2016 году NVIDIA поставила свой первый специализированный суперкомпьютер DGX-1 для исследовательской компании OpenAI, который получил её тогдашний председатель совета директоров Илон Маск. Стоимость нового обучающего «модуля» компании, известного как DGX H100, может достигать 500 тысяч долларов. Он работает в пять раз быстрее, чем оборудование, на котором обучался ChatGPT, и мог бы обучить AlexNet менее чем за минуту.
Через шесть лет (!) после появления указанной выше статьи Sutskever I., Martens J., Hinton G., в 2017 году появилась новая архитектура для обучения нейронных сетей под названием «трансформер». Она перевернула мир ИИ, так как преодолевала последовательный характер рекуррентных нейронных сетей за счёт использования «механизма внимания». Эта архитектура была спроектирована под GPU и оказалась удивительно устойчивой – то, что используется в больших языковых моделях сегодня, не сильно отличается от того, что было предложено исходно.
Новая архитектура была предложена восемью сотрудниками Google в статье Attention is All You Need. В ней говорилось, что при использовании этой архитектуры необходимо обрабатывать огромные массивы данных, что также требует и огромных вычислительных мощностей.
Многие обращают внимание на «парадокс Моравека», согласно которому, вопреки распространённому мнению, высококогнитивные процессы требуют относительно небольших вычислений, в то время как низкоуровневым сенсомоторным операциям необходимы огромные вычислительные ресурсы. Некоторые считают, что это наблюдение является наиболее важным из сделанного исследователями ИИ.
Впоследствии генеральный директор OpenAI Сэм Альтман предполагал, что «когда вышла эта статья о трансформерах, вряд ли кто в руководстве Google понял, что она означает, так как в противном случае в 2018 году Google мог создать ChatGPT». Может быть поэтому все авторы этой статьи (среди них, учеников Хинтона, похоже, не было) со временем покинули Google, и шесть из них создали компании, использующие трансформеры. Надо отметить, что во многих отношениях Google была далеко впереди всех – она инвестировала в нужные умы и создала среду, в которой можно было исследовать и расширять границы применимости ИИ.
В 2018 году в OpenAI использовали «трансформер» от Google для создания первого «генеративного предварительно обученного трансформатора» (GPT). Эту работу возглавлял Суцкевер. Модели GPT обучались на суперкомпьютерах NVIDIA, поглощая огромные массивы текстов и обучаясь создавать человекоподобные взаимосвязи.
При Суцкевере OpenAI выпустила следующие большие языковые модели ChatGPT: ChatGPT-2 (2019 год), ChatGPT-3 (2020 год), ChatGPT-3.5 (ноябрь 2022 года). Последняя из моделей умела с поразительной правдоподобностью «разговаривать» на естественном языке. За неделю модель имела миллион пользователей. Она учитывала контекст разговора и одновременно дообучалась, взаимодействуя с пользователем – использовалось «обучение с подкреплением» (Reinforcement Learning). В результате модель могла решать так называемые задачи на рассуждение (Reasoning): отвечать на вопрос, используя то, что называется «здравым смыслом». Модель обучалась не только на пользовательских текстах, но и на изучении кодов программ, решений математических задач и текстов художественной литературы. Модель может писать код, но время на написание требований к нему человеком может превосходить время написания его человеком.
За несколько месяцев модель ChatGPT-3.5 смогла сдать экзамен на получение степени MBA в Уортонской школе бизнеса при Пенсильванском университете, экзамен на получение медицинской лицензии в США, несколько экзаменов на юридическом факультете Университета Миннесоты.
14 марта 2023 года компания официально представила ChatGPT-4 – очередную версию языковой модели с генеративным ИИ, а уже первого февраля число пользователей модели достигло 100 миллионов. «Если Вы позволите себе поверить, что искусственный нейрон похож на биологический, то Вы как будто обучаете мозг, который должен делать всё, что можем делать мы», – считает Илья. Он в OpenAI участвовал также в разработке DALL-E – нейросети для генерации изображений на основе текстовых описаний. Это мультимодальная версия ChatGPT-3, работающая с разнородными типами данных.
Все рассмотренные модели имеют один недостаток: подбор наиболее вероятного ответа – вероятного, а не правильного или точного.
Ещё в конце 2022 года Суцкевер выразил обеспокоенность тем, что «Общий ИИ» (Artificial General Intelligence, AGI) будет относиться к людям так же, как люди в настоящее время относятся к животным. В июле 2023 года Илья возглавил в OpenAI отдел Superalignment, задачей которого было обеспечить безопасность и управляемость ИИ, превосходящего человека. В результате он осознал, что ИИ может развиваться до уровня AGI, который будет превосходить человеческие возможности и может быть опасен, если не «согласован» с человеческими ценностями.
Как было отмечено выше, этические проблемы в своё время не позволили учителю Ильи – Хинтону – продолжить работу в университете Карнеги-Меллона, и ему пришлось переехать в Канаду. Более серьёзные проблемы, связанные с развитием ИИ, привели к тому, что, как отмечено выше, Хинтон теперь ушёл и из Google, так как, по его мнению, ИИ может не только принести огромную пользу человечеству, но и стать для него большой угрозой. Он считает, что трудно понять, как можно помешать плохим людям использовать ИИ для плохих целей, например, для создания «роботизированных солдат». Хинтон утешает себя обычным оправданием: если бы он этого не сделал, это сделал бы кто-нибудь другой. После увольнения из Google он всё чаще говорит на эту тему.
«Учёные различают два класса ИИ: узкий (специализированный, например, для игры в GO) и «широкий» (общий). Общий ИИ, во-первых, должен уметь обучаться, во-вторых, уметь рассуждать, и в-третьих, взаимодействовать с окружающей средой, чтобы достигать поставленных человеком и даже своих целей. Последнее требует создания роботов».
При этом многие специалисты отмечают, что когда роботы будут умнее нас, очень трудно будет сохранить власть над ними. «Решения этой проблемы нет – это просто произойдет», – так считал достаточно давно Тьюринг. При этом может возникнуть «несоответствие» между целями машины и человека, и робот, например, сможет не позволить человеку отключить его: либо он сам сможет не допустить этого, либо выполнит команду вашего врага.
И несмотря на такое предсказание, чем больше денег стал получать OpenAI от Microsoft, тем более закрытой становилась эта ранее открытая во всех смыслах компания. При этом отмечу, что без больших денег, как отмечено выше, большие языковые модели разрабатывать нельзя.
В результате Маск сегодня не имеет никакого отношения к этой компании. Он считает, что OpenAI отказалась от своей первоначальной цели (открытости) в погоне за прибылью. В 2019 году после создания GPT-2 — якобы только для обеспечения безопасности — её код уже не был открытым. По мнению Маска, компания нарушила принцип создания ИИ ради блага человечества, и с 2019 года фактически превратилась в «дочку» корпорации Microsoft, которая имеет определённые права на ПО, разработанное OpenAI. Руководство OpenAI продолжает считать, что компании не хватает вычислительных ресурсов – в определённом смысле, денег.
Тем временем в OpenAI возник конфликт, который закончился тем, что в мае 2024 года Суцкевер ушёл. Маск ему доверял больше всех в этой компании, но после ухода Ильи у них разговора, к сожалению, не было.
В июне 2024 года Илья объявил о запуске нового стартапа — Safe Superintelligence (SSI). Он подчеркнул, что первым его продуктом станет безопасный суперинтеллект, который уже на базовом уровне не сможет причинить масштабный вред человечеству. Суцкевер заявил, что его проект «будет полностью изолирован от внешнего давления, связанного с необходимостью иметь дело с большим и сложным продуктом и необходимостью погрязнуть в конкурентной борьбе».
На Суцвекере, естественно, не заканчиваются ученики Хинтона, достигшие высот в глубоком обучении. Один из них, правда, не такой близкий, как те, что указаны выше, – Андрей Карпатый (Andrej Karpathy). Он в 2009 году стал бакалавром в области информатики и физики в Университете Торонто. В 2011 году стал магистром в университете Британской Колумбии, а в 2016 году – PhD, защитив в Стэнфордском университете диссертацию на тему Connecting Images and Natural Language. В диссертации использовалось глубокое обучение для обработки естественного языка и компьютерного зрения. Карпатый был соучредителем OpenAI и директором по ИИ и зрению автопилота в Tesla. Автор и основной преподаватель первого курса по глубокому обучению в Стэнфорде: «Свёрточные нейронные сети для визуального распознавания».
Маск после конфликтов с Пейджем и Альтманом, и имея интерес в развитии ИИ в «Тесла», создал компанию xAI, которая 29 октября 2024 года продемонстрировала мощнейший ИИ-суперкластер, содержащий 100 тысяч современных GPU компании NVIDIA. Дженсен Хуанг выразил восхищение скоростью и масштабом проекта, назвав усилия Маска и его команды «сверхчеловеческими».
Перечень трудов Хинтона приведен здесь; h-indeх – 187 (на 28 октября 2024 года). В знак признания такой награды, как Нобелевская премия, Nature Portfolio представил перечень исследовательских, обзорных и авторских статей, в которых отмечается непосредственный вклад лауреатов (в премии этого года по физике есть ещё один лауреат – Джон Хопфилд (John Hopfield), который в 1982 году изобрел ассоциативную нейронную сеть, названную сетью Хопфилда, а также достижения других исследователей, на которые они вдохновили.
Хинтон награждён многими премиями. Самой «весомой» из них до Нобелевской премии была премия Тьюринга, называемая Нобелевской премией по информатике, которую он получил в 2019 году совместно с Яном ЛеКуном (Yann LeCun; Facebook AI Research, New York University, NYU) и Йошуа Бенжио (Yoshua Bengio; Université de Montréal). Их речь на награждении этой премией приведена здесь.
Заслуги «крёстных отцов глубокого обучения» в Google называют выдающимися. Так, Джефф Дин (Jeff Dean), который формально был старшим научным сотрудником, а де-факто являлся главой Google Brain, сказал, что фундаментальные методы, которые разработаны этими учёными, стали основой, технологий создания глубоких нейросетей.
Здесь приведена их совместная фотография лауреатов, а вот их совместный обзор по глубокому обучению в Nature: LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. V. 521. 2015, pp. 436-444. Этот обзор на 29 октября 2024 года имел 86 343 цитирования.
ЛеКун в 1989 году разработал архитектуру LeNet (Свёрточные Сети – Convolutional Networks), которая была успешно применена для распознавания образов – рукописных цифр (Backpropagation Applied to Handwritten Zip Code Recognition).
Название эта архитектура получила из-за использования операции свёртки, суть которой состоит в том, что каждый фрагмент изображения умножается на матрицу свёртки поэлементно, а результат суммируется и записывается в аналогичную позицию выходного изображения. В то время ЛеКун работал в одной из самых классных компаний мира – Bell Labs.
Потом нейронные сети попали в немилость, и он продолжил их исследования, став профессором NYU. Работая в этом университете, ЛеКун на указанную выше тему в 1998 году опубликовал совместно с Бенжио статью Gradient-based learning applied to document recognition. Она на 29 октября 2024 года имела 86 343 цитирования.
После многих лет нелюбви нейронные сети снова полюбили, и ЛеКун, продолжая работать в NYU, в конце 2013 года стал руководить вновь организованной лабораторией Facebook AI Research. Вот как ЛеКун объясняет свой многолетний интерес к сетям: «Вы получаете систему с данными на входе, а так как система имеет несколько слоёв, каждый слой в результате обучения определит, как преобразовать данные, полученные от предыдущего слоя, так, чтобы последний слой выдал правильный результат».
Он продолжает: «Деятельность в рассматриваемом направлении – это взаимодействие между прозрениями, моделированием, реализацией, эмпирическими исследованиями и анализом. Прозрение – это творческое мышление, моделирование – это математика, реализация – это инженерия и взлом, эмпирическое исследование и анализ – наука». Теоретическая физика – это наука, но экспериментальная физика тоже является наукой, и большинство открытий в физике получены экспериментальным путем.
Бенжио и Гудфеллоу (Ian Goodfellow) в 2014 году в работе Generative Adversarial Nets предложили генеративно-состязательные сети. «Это модель машинного обучения без учителя, построенная на комбинации из двух нейронных сетей, одна из которых (генеративная модель – сеть G) генерирует образцы, а другая (дискриминативная модель – сеть D) старается отличить правильные («подлинные») образцы от неправильных. Так как сети G и D имеют противоположные цели – создать образцы и отбраковать образцы, то между ними возникает антагонистическая игра». Эта работа на 29 октября 2024 года имела 84 986 цитирований.
Хинтон обратил внимание на то, что обучение – передача знаний от учителя к учителю — весьма трудный процесс. Такой процесс был назван «дистилляцией знаний». На эту тему в 2015 году была опубликована статья: Hinton G., Vinyals O., Dean J. Distilling the Knowledge in a Neural Network. 2015.
Приведу ссылки на перечень публикаций Джеффа Дина и на статью о нём. Он, в частности, участвовал в исследовательском проекте Google Brain, посвященном изучению ИИ на основе глубокого обучения.
Хинтон цифровые системы назвал бессмертными, так как они могут легко обмениваться огромными объёмами знаний и поэтому хорошо обучаться. За это приходится платить огромным энергопотреблением. Аналоговые системы – смертны, большие объёмы знаний им недоступны, обучаются они с трудом, но в результате эволюции у людей сформировался мозг, имеющий очень малое энергопотребление – около 30 ватт. В бессмертных системах можно передавать сами системы, в смертных – инструкции по их построению.
В «заговор глубокого обучения» наряду с лауреатами премии Тьюринга входит также Эндрю Ын (Andrew Ng) из Стэнфордского университета, который, как Хинтон и Хассабис, родился в Лондоне, но указанную премию он не получил, так как у многих премий по принятым положениям не бывает больше трех лауреатов. Вот его выступление 2023 года по обсуждаемым в настоящей работе вопросам.
C 2012 года он стал сооснователем стартапа в области онлайн-обучения Coursera, а в 2017 году учредил компанию DeepLearning.AI, разрабатывающую онлайн-курсы по глубокому обучению.
В заключение две работы в этой области на русском языке: «Яндекс-учебник по машинному обучению» и Созыкин А.В. «Обзор методов обучения глубоких нейронных сетей» // Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика». Том 6. 2017. Выпуск 3, с. 28-59.
Пути Хинтона и Хассабиса, а также ЛеКуна и Бенжио сошлись в 2022 году, когда они получили премию Принцессы Астурийской (её имя Леонор – она наследница испанского престола) по технике и научным исследованиям.
В хорошей сказке обязательно должна быть принцесса, она, естественно, в лице принцессы Астурийской оказалась и в этой сказочной истории про глубокое обучение и людей, которые его создавали!
30.10.2024