Gemini: : самая большая и мощная модель искусственного интеллекта

06 декабря 2023 г.

Слово “Gemini” над пятью отдельными нитями, каждая разного цвета, сходится слева в трехмерную центральную спираль, а затем снова расходится вправо на пять отдельных нитей.

В этой истории

Записка от генерального директора Google и Alphabet Сундара Пичаи:

Каждый технологический сдвиг – это возможность продвинуть научные открытия, ускорить прогресс человечества и улучшить жизнь. Я считаю, что переход, который мы наблюдаем сейчас в области искусственного интеллекта, будет самым глубоким за всю нашу жизнь, гораздо масштабнее, чем переход к мобильным устройствам или Интернету до него. Искусственный интеллект обладает потенциалом создавать возможности — от повседневных до экстраординарных — для людей во всем мире. Он принесет новые волны инноваций и экономического прогресса, а также будет стимулировать знания, обучение, креативность и продуктивность в невиданных ранее масштабах.

Вот что меня волнует: возможность сделать искусственный интеллект полезным для всех и повсюду в мире.

Спустя почти восемь лет нашего пути в качестве компании, ориентированной на искусственный интеллект, темпы прогресса только ускоряются: миллионы людей теперь используют генеративный искусственный интеллект в наших продуктах, чтобы делать то, что они не могли даже год назад, от поиска ответов на более сложные вопросы до использования новых инструментов для совместной работы и творчества. В то же время разработчики используют наши модели и инфраструктуру для создания новых генеративных приложений искусственного интеллекта, а стартапы и предприятия по всему миру растут благодаря нашим инструментам искусственного интеллекта.

Это невероятный импульс, и все же мы только начинаем изучать поверхность того, что возможно.

Мы подходим к этой работе смело и ответственно. Это означает быть амбициозными в наших исследованиях и использовать возможности, которые принесут огромную пользу людям и обществу, одновременно усиливая меры предосторожности и сотрудничая с правительствами и экспертами для устранения рисков по мере того, как искусственный интеллект становится все более эффективным. Мы продолжаем инвестировать в самые лучшие инструменты, базовые модели и инфраструктуру и внедряем их в наши продукты и в другие, руководствуясь нашими принципами искусственного интеллекта.

Теперь мы делаем следующий шаг в нашем путешествии с Gemini, нашей самой мощной и универсальной моделью на сегодняшний день, обладающей самыми современными характеристиками во многих ведущих тестах. Наша первая версия, Gemini 1.0, оптимизирована для различных размеров: Ultra, Pro и Nano. Это первые модели эпохи Gemini и первая реализация видения, которое у нас было, когда мы создавали Google DeepMind ранее в этом году. Эта новая эра моделей представляет собой одно из крупнейших научных и инженерных достижений, предпринятых нами как компанией. Я искренне рад тому, что нас ждет впереди, и возможностям, которые Gemini откроет для людей во всем мире.

– Сундар

Представляем Gemini

Демис Хассабис, генеральный директор и соучредитель Google DeepMind, от имени команды Gemini

Искусственный интеллект был в центре внимания моей жизни, как и многих моих коллег-исследователей. С тех пор, как я подростком программировал искусственный интеллект для компьютерных игр, и на протяжении всех лет работы исследователем в области нейробиологии, пытающимся понять работу мозга, я всегда верил, что если бы мы могли создавать более умные машины, мы могли бы использовать их на благо человечества невероятными способами.

Это обещание мира, ответственно управляемого искусственным интеллектом, продолжает лежать в основе нашей работы в Google DeepMind. Долгое время мы хотели создать новое поколение моделей искусственного интеллекта, вдохновленных тем, как люди понимают окружающий мир и взаимодействуют с ним. Искусственный интеллект, который ощущается не как умное программное обеспечение, а скорее как нечто полезное и интуитивно понятное — опытный помощник.

Сегодня мы на шаг приблизились к этому видению, поскольку представляем Gemini, самую мощную и универсальную модель, которую мы когда-либо создавали.

Gemini – это результат масштабных совместных усилий команд из Google, включая наших коллег из Google Research. Он был создан с нуля как мультимодальный, что означает, что он может обобщать и легко понимать, оперировать и комбинировать различные типы информации, включая текст, код, аудио, изображения и видео.

https://youtube.com/watch?v=jV1vkHv4zq8%3Fenablejsapi%3D1%26origin%3Dhttps%253A%252F%252Fblog.google%26widgetid%3D1

Gemini также является нашей самой гибкой моделью на сегодняшний день, способной эффективно работать во всем — от центров обработки данных до мобильных устройств. Ее ультрасовременные возможности значительно улучшат способы создания и масштабирования с помощью искусственного интеллекта разработчиками и корпоративными заказчиками.

Мы оптимизировали Gemini 1.0, нашу первую версию, для трех различных размеров:

Gemini Ultra – наша самая большая и способная модель для решения очень сложных задач.
Gemini Pro – наша лучшая модель для масштабирования широкого спектра задач.
Gemini Nano – наша самая эффективная модель для решения задач на устройстве.

Производительность по последнему слову техники

Мы тщательно тестировали наши модели Gemini и оценивали их производительность при выполнении широкого спектра задач. От естественного понимания изображений, аудио и видео до математических рассуждений, производительность Gemini Ultra превосходит современные результаты по 30 из 32 широко используемых академических тестов, используемых в исследованиях и разработках на больших языковых моделях (LLM).

С результатом 90,0% Gemini Ultra является первой моделью, которая превзошла экспертов-людей по MMLU (массовое понимание языка в режиме многозадачности), которая использует комбинацию из 57 предметов, таких как математика, физика, история, юриспруденция, медицина и этика, для проверки знаний о мире и способностей решать проблемы.

Наш новый подход к тестированию MMLU позволяет Gemini использовать свои способности рассуждать более тщательно, прежде чем отвечать на сложные вопросы, что приводит к значительным улучшениям по сравнению с использованием только первого впечатления.

Диаграмма, показывающая производительность Gemini Ultra в обычных текстовых тестах по сравнению с GPT-4 (номера API вычисляются там, где указанные цифры отсутствуют).

Gemini превосходит самые современные решения по целому ряду показателей, включая текст и кодирование.

Gemini Ultra также набрала 59,4% по последнему слову техники в новом бенчмарке MMMU, который состоит из мультимодальных задач, охватывающих различные области, требующих обдуманных рассуждений.

Благодаря тестируемым нами тестовым тестам Gemini Ultra превзошла предыдущие современные модели без помощи систем оптического распознавания символов (OCR), которые извлекают текст из изображений для дальнейшей обработки. Эти тесты подчеркивают присущую Gemini мультимодальность и указывают на ранние признаки более сложных мыслительных способностей Gemini.

Смотрите более подробную информацию в нашем техническом отчете Gemini.

Диаграмма, показывающая производительность Gemini Ultra в мультимодальных тестах по сравнению с GPT-4V, при этом предыдущие модели SOTA перечислены там, где возможности GPT-4V не поддерживаются.

Describe

Gemini превосходит самые современные показатели по целому ряду мультимодальных тестов.

Возможности следующего поколения

До сих пор стандартный подход к созданию мультимодальных моделей включал обучение отдельных компонентов для разных модальностей, а затем сшивание их вместе, чтобы примерно имитировать некоторые из этих функциональных возможностей. Иногда эти модели могут хорошо выполнять определенные задачи, например, описывать изображения, но им трудно работать с более концептуальными и сложными рассуждениями.

Мы разработали Gemini изначально мультимодальным, предварительно обучив его различным модальностям. Затем мы доработали его с помощью дополнительных мультимодальных данных, чтобы еще больше повысить его эффективность. Это помогает Gemini легко понимать и обосновывать все виды входных данных с нуля, намного лучше, чем существующие мультимодальные модели, а его возможности являются самыми современными практически во всех областях.

Узнайте больше о возможностях Gemini и посмотрите, как это работает.

Сложные рассуждения

Сложные возможности мультимодального мышления Gemini 1.0 могут помочь разобраться в сложной письменной и визуальной информации. Это делает его уникальным специалистом в раскрытии знаний, которые бывает трудно различить среди огромных объемов данных.

Его замечательная способность извлекать информацию из сотен тысяч документов посредством чтения, фильтрации и понимания информации поможет добиться новых прорывов в области цифровых технологий во многих областях – от науки до финансов.

Понимание текста, изображений, аудио и многого другого

Gemini 1.0 была обучена распознавать и понимать текст, изображения, аудио и многое другое одновременно, поэтому она лучше разбирается в нюансах информации и может отвечать на вопросы, относящиеся к сложным темам. Это делает ее особенно хорошей для объяснения рассуждений по сложным предметам, таким как математика и физика.

Усовершенствованное кодирование

Наша первая версия Gemini способна понимать, объяснять и генерировать высококачественный код на самых популярных языках программирования в мире, таких как Python, Java, C ++ и Go. Его способность работать на разных языках и анализировать сложную информацию делает его одной из ведущих базовых моделей для кодирования в мире.

Gemini Ultra превосходит несколько тестов кодирования, включая HumanEval, важный отраслевой стандарт для оценки производительности при выполнении задач кодирования, и Natural2Code, наш внутренний резервный набор данных, который использует авторские источники вместо информации из Интернета.

Gemini также может быть использована в качестве движка для более продвинутых систем кодирования. Два года назад мы представили AlphaCode, первую систему генерации кода искусственного интеллекта, достигшую конкурентоспособного уровня производительности на соревнованиях по программированию.

Используя специализированную версию Gemini, мы создали более совершенную систему генерации кода, AlphaCode 2, которая превосходно решает конкурентные задачи программирования, выходящие за рамки кодирования и включающие сложную математику и теоретическую информатику.

https://youtube.com/watch?v=LvGmVmHv69s%3F

Gemini преуспевает в кодировании и конкурентном программировании

При оценке на той же платформе, что и оригинальный AlphaCode, AlphaCode 2 демонстрирует значительные улучшения, решая почти в два раза больше проблем, и, по нашим оценкам, он работает лучше, чем 85% участников конкурса, по сравнению с почти 50% у AlphaCode. Когда программисты сотрудничают с AlphaCode 2, определяя определенные свойства для последующих примеров кода, это работает еще лучше.

Мы рады, что программисты все чаще используют высокопроизводительные модели искусственного интеллекта в качестве инструментов совместной работы, которые могут помочь им рассуждать о проблемах, предлагать дизайн кода и помогать с внедрением — чтобы они могли быстрее выпускать приложения и разрабатывать более качественные сервисы.

Смотрите более подробную информацию в нашем техническом отчете AlphaCode 2.

Более надежная, масштабируемая и эффективная

Мы масштабно обучили Gemini 1.0 на нашей оптимизированной для искусственного интеллекта инфраструктуре, используя тензорные процессоры собственной разработки Google (TPU) v4 и v5e. Мы разработали ее так, чтобы это была наша самая надежная и масштабируемая модель для обучения и наиболее эффективное обслуживание.

На процессорных процессорах Gemini работает значительно быстрее, чем более ранние, меньшие по размеру и менее производительные модели. Эти специально разработанные ускорители искусственного интеллекта лежат в основе продуктов Google на базе искусственного интеллекта, которые обслуживают миллиарды пользователей, таких как Поиск, YouTube, Gmail, Google Maps, Google Play и Android. Они также позволили компаниям по всему миру обучать крупномасштабные модели искусственного интеллекта с минимальными затратами.

Сегодня мы анонсируем самую мощную, эффективную и масштабируемую на сегодняшний день систему TPU, Cloud TPU v5p, предназначенную для обучения передовых моделей искусственного интеллекта. TPU следующего поколения ускорит разработку Gemini и поможет разработчикам и корпоративным заказчикам быстрее создавать крупномасштабные генеративные модели искусственного интеллекта, позволяя новым продуктам и возможностям быстрее доходить до клиентов.

Ряд суперкомпьютеров Cloud TPU v5p с ускорителем искусственного интеллекта в центре обработки данных Google.

В основе ее создания лежат ответственность и безопасность

В Google мы стремимся продвигать смелый и ответственный искусственный интеллект во всем, что мы делаем. Основываясь на принципах искусственного интеллекта Google и надежных политиках безопасности наших продуктов, мы добавляем новые средства защиты с учетом мультимодальных возможностей Gemini. На каждом этапе разработки мы рассматриваем потенциальные риски и работаем над их тестированием и снижением.

Gemini провела самую полную оценку безопасности из всех моделей искусственного интеллекта Google на сегодняшний день, в том числе на предмет предвзятости и токсичности. Мы провели новые исследования в областях потенциального риска, таких как кибератаки, убеждение и автономия, а также применили лучшие в своем классе методы состязательного тестирования Google Research, чтобы помочь выявить критические проблемы безопасности до развертывания Gemini.

Чтобы выявить слабые места в нашем подходе к внутренней оценке, мы работаем с разнообразной группой внешних экспертов и партнеров для стресс-тестирования наших моделей по целому ряду вопросов.

Для диагностики содержание вопросы безопасности во время Близнецы подготовки участка и обеспечить его выход соответствует нашим правилам, мы используем критерии, такие как реальную токсичность приглашений, набор 100,000 подсказки с той или иной степенью токсичности вытащил из интернета, разработанные специалистами Института Аллена по ИИ. Более подробная информация об этой работе появится в ближайшее время.

Чтобы ограничить вред, мы создали специальные классификаторы безопасности, например, для идентификации, маркировки и сортировки контента, связанного с насилием или негативными стереотипами. В сочетании с надежными фильтрами этот многоуровневый подход призван сделать Gemini безопаснее и более инклюзивным для всех. Кроме того, мы продолжаем решать известные проблемы, связанные с моделями, такими как достоверность, обоснование, атрибуция и подтверждение.

Ответственность и безопасность всегда будут занимать центральное место при разработке и внедрении наших моделей. Это долгосрочное обязательство, которое требует совместной работы, поэтому мы сотрудничаем с отраслью и более широкой экосистемой в определении передовых практик и установлении контрольных показателей безопасности с помощью таких организаций, как MLCommons, Frontier Model Forum и его Фонда безопасности искусственного интеллекта, а также нашей платформы Secure AI Framework (SAIF), которая была разработана для снижения рисков безопасности, характерных для систем искусственного интеллекта в государственном и частном секторах. Мы продолжим сотрудничать с исследователями, правительствами и группами гражданского общества по всему миру в процессе разработки Gemini.

Делаем Gemini доступной для всего мира

Gemini 1.0 сейчас распространяется на целый ряд продуктов и платформ:

Gemini Pro в продуктах Google

Мы представляем Gemini миллиардам людей с помощью продуктов Google.

Начиная с сегодняшнего дня, Bard будет использовать доработанную версию Gemini Pro для более сложных рассуждений, планирования, понимания и многого другого. Это крупнейшее обновление Bard с момента его запуска. Она будет доступна на английском языке более чем в 170 странах и территориях, и в ближайшем будущем мы планируем расширить ее до различных модальностей и поддерживать новые языки и местоположения.

Мы также внедряем Gemini в Pixel. Pixel 8 Pro – первый смартфон, разработанный под управлением Gemini Nano, который поддерживает новые функции, такие как Подведение итогов в приложении Recorder и запуск функции Smart Reply в Gboard, начиная с WhatsApp, Line и KakaoTalk¹, а в следующем году появятся новые приложения для обмена сообщениями.

В ближайшие месяцы Gemini будет доступна во многих наших продуктах и сервисах, таких как Поиск, реклама, Chrome и Duet AI.

Мы уже начинаем экспериментировать с Gemini в Search, где она ускоряет наш поисковый процесс (SGE) для пользователей, сокращая время ожидания на английском языке в США на 40% наряду с улучшением качества.

Создание с помощью Gemini

Начиная с 13 декабря разработчики и корпоративные заказчики могут получить доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI.

Google AI Studio – это бесплатный веб-инструмент для разработчиков, позволяющий создавать прототипы и быстро запускать приложения с помощью ключа API. Когда приходит время для полностью управляемой платформы искусственного интеллекта, Vertex AI позволяет настраивать Gemini с полным контролем данных и извлекать выгоду из дополнительных функций Google Cloud для обеспечения корпоративной безопасности, сохранности, конфиденциальности, управления данными и соответствия требованиям.

Разработчики Android также смогут создавать с помощью Gemini Nano, нашей самой эффективной модели для выполнения задач на устройстве, через AICore, новую системную функцию, доступную в Android 14, начиная с устройств Pixel 8 Pro. Подпишитесь на ранний предварительный просмотр AICore.

Скоро появится Gemini Ultra

В настоящее время мы завершаем обширные проверки надежности Gemini Ultra, включая повторное объединение сторон, которым доверяем, и дальнейшую доработку модели с использованием точной настройки и обучения подкреплению на основе отзывов людей (RLHF), прежде чем сделать ее широко доступной.

В рамках этого процесса мы сделаем Gemini Ultra доступной для выбора клиентов, разработчиков, партнеров и экспертов по безопасности и ответственности для ранних экспериментов и обратной связи, прежде чем распространить ее среди разработчиков и корпоративных клиентов в начале следующего года.

В начале следующего года мы также запустим Bard Advanced, новый, ультрасовременный инструмент искусственного интеллекта, который предоставит вам доступ к нашим лучшим моделям и возможностям, начиная с Gemini Ultra.

Эра Gemini: создание инновационного будущего

Это важная веха в развитии искусственного интеллекта и начало новой эры для нас в Google, поскольку мы продолжаем быстро внедрять инновации и ответственно расширять возможности наших моделей.

На данный момент мы добились значительного прогресса в разработке Gemini и прилагаем все усилия для дальнейшего расширения ее возможностей в будущих версиях, включая улучшения в планировании и памяти, а также увеличение контекстного окна для обработки еще большего количества информации для получения лучших ответов.

Мы в восторге от удивительных возможностей мира, в котором ИИ наделен ответственными полномочиями, — будущего инноваций, которое повысит креативность, расширит знания, продвинет науку и изменит образ жизни и работы миллиардов людей по всему миру.

Ссылка: https://blog.google/technology/ai/google-gemini-ai/#sundar-note