- Инструментариумът на Gemini комбинира стабилни инструменти като Canvas, Deep Research и Guided Learning с експериментални функции на Labs.
- Gemini API отключва мултимодални работни процеси и работни процеси с извикване на функции в Google Workspace и персонализирани автоматизации.
- Насоченото обучение, Canvas и агентите правят Gemini едновременно личен учител и работен асистент за документи, слайдове и имейл.
- Използването на интеграцията с Labs, Gemini Enterprise и Workspace позволява на екипите да тестват мощен изкуствен интелект безопасно върху собствените си данни.

„Gemini toolbox“ вече не е просто закачлива фраза; това е практичният набор от приложения, инструменти, агенти и API, които Google тихомълком вплита във всичко - от неформално обучение до корпоративни работни процеси. Вместо един-единствен монолитен асистент, Gemini сега се държи по-скоро като кутия с инструменти, където всяка функция е специфичен инструмент: изследователска система, преподавател, помощник по код, планиране на срещи, конструктор на слайдове и много други.
Ако разбирате как тези части се съчетават – Canvas, Guided Learning, Labs, агенти, Gemini Enterprise и Gemini API – можете да превърнете Gemini в истински работен кон, вместо в обикновен чатбот. По-долу ще намерите подробен преглед на този инструментариум: какво се намира в стабилната секция „Инструменти“, какво се тества в „Лаборатории“, как Gemini се държи като преподавател с изображения и видеоклипове и как разработчиците могат да свържат API-то с Google Workspace за сериозна автоматизация.
Какво точно има в инструментариума на Gemini днес?
Gemini се разбира най-добре като семейство от модели на изкуствен интелект (какво представляват езиковите модели) (Gemini 1.0, Gemini 1.5, Gemini 3 и т.н.), предоставяни чрез различни интерфейси: уеб, мобилни приложения, интеграция с Workspace и API за разработчици. Идеята за „кутия с инструменти“ идва от начина, по който Google сега групира конкретни възможности в интерфейса на Gemini, особено в мрежата.
В мрежата, основният инструмент за избор в Gemini е разделен на две основни зони: „Инструменти“ за стабилна, готова за производство функционалност и „Лаборатории“ за експерименти, които все още са в процес на разработка. Мислете за „Инструменти“ като за надеждната отвертка, която грабвате всеки ден, докато „Лаборатории“ е тавата, където държите прототипи, които може да променят формата си следващата седмица.
На мобилни устройства приложенията Gemini добавят много от същите тези инструменти – насочено обучение, подобни на Canvas преживявания, богата на изображения помощ – но те се въвеждат постепенно. Ако все още не виждате конкретна функция в приложението, Google изрично препоръчва да опитате отново по-късно или да преминете към gemini.google.com за да видите най-новата версия в мрежата.
Под капака, всички тези повърхности са подкрепени от Gemini API, който предоставя мултимодални модели и извикване на функции, така че можете да генерирате съдържание, да анализирате изображения или да организирате работни процеси чрез код. Този API е гръбнакът за много от автоматизациите на Workspace, които ще разгледаме по-късно.
Инструменти срещу Лаборатории: как Gemini организира своите функции
Тъй като Gemini натрупа повече бутони и режими, Google въведе по-ясно разделение между зрели функции и експериментални чрез два раздела: „Инструменти“ и „Лаборатории“. Тази промяна вече е видима в уеб интерфейса и се внедрява постепенно от сървърите на Google, така че не всеки акаунт вижда едно и също оформление едновременно.
Разделът „Инструменти“ е мястото, където Google разполага с възможности, които счита за стабилни и предвидими за ежедневна употреба. Доклади от източници като Android Police и 9to5Google показват, че тази област включва елементи като Deep Research, генериране на изображения, създаване на видео чрез Veo, Canvas, Guided Learning и Deep Think, понякога обвързани със специфични абонаментни нива като Google AI Pro или Google AI Ultra.
„Лаборатории“, от друга страна, е изрично определената площадка: специална област в инструмента за избор на Gemini, която групира функции, маркирани като експериментални. Обикновено ще виждате икони с малка лабораторна колба и етикети като Gemini Agent, Dynamic View (наричан още Visual layout) и Personal Intelligence. Очакването, когато щракнете върху нещо под Labs, е просто: поведението може да се промени, да изчезне или да се премести с малко предупреждение.
От гледна точка на продуктовия дизайн, това разделение е важно за доверието. Когато едно приложение с изкуствен интелект расте бързо, рискът не е просто „твърде много функции“, а „няма представа на кои функции мога да разчитам“. Като поставя ежедневните инструменти в една зона, а експериментите в друга, Gemini сигнализира за риск по начин, подобен на „нормален“ спрямо „спортен“ режим в автомобил.
Стабилните инструменти на Gemini: Deep Research, Canvas, Guided Learning и други
Основният набор от инструменти на Gemini за повечето потребители се намира в секцията „Инструменти“, където ще намерите преживяванията, около които Google иска да изградите навици. Въпреки че точният списък варира в зависимост от акаунта и нивото на абонамент, няколко елемента вече са от основно значение.
Deep Research трансформира Gemini в структуриран асистент за изследвания, а не в генеричен модел за чат. Когато задавате въпрос, който изисква проучване на множество източници, Deep Research следва по-ясен многоетапен процес, като извежда на повърхността последователна методология, така че потребителите да знаят какво да очакват всеки път, когато я използват.
Инструментите за създаване на съдържание за изображения и видео – включително интеграции, задвижвани от Veo – също се намират в чекмеджето с инструменти. Потребителите, които разчитат на Gemini за визуално съдържание, се нуждаят от тези възможности, които да са лесно откриваеми и сравнително стабилни, а не скрити зад променящи се експериментални флагове.
Canvas е друг стълб: режим на работно пространство, където можете да започнете документ или проект за кодиране директно от подкана, след което итеративно да го усъвършенствате с Gemini. Под лентата за заявки можете да изберете „Canvas“ и да въведете подканата си, за да генерирате начална точка за съдържание или код, след което да продължите да редактирате в интерактивно оформление едно до друго.
„Насочено обучение“ и „Дълбоко мислене“ допълват по-когнитивно фокусираните инструменти, особено за потребители, които искат структурирана помощ по сложни теми. Воденото обучение може да действа като преподавател, като ви води през идеите стъпка по стъпка, докато „Дълбоко мислене“ насърчава по-бавното и по-обмислено разсъждение по трудни въпроси.
Близнаци като личен учител: Насочено обучение, изображения и видеоклипове
Един от най-лесните за ползване аспекти на инструментариума Gemini е способността му да действа като частен учител, съчетавайки насочвани последователности с визуални обяснения. Вместо да затрупва със стена от текст, Gemini може да включва изображения, скици и дори видеоклипове в отговорите си, за да направи концепциите по-лесни за разбиране.
На практика можете да помолите Близнаци да обяснят дадена тема и изрично да поискат диаграма, визуално разбиване или илюстративно изображение. Отговорът може да вгради тези изображения директно в обяснението, помагайки ви да визуализирате, да речем, математическа концепция, работен процес или научен процес.
Поддържа се и видео-базирано обучение, въпреки че подробностите варират в зависимост от региона и фазата на внедряване. За някои теми Gemini може да показва или препраща към видеоклипове, които допълват текстовия му отговор, създавайки по-мултимодален път на обучение, където четете, гледате и взаимодействате с въпроси в един и същ поток.
Този режим на обучение се въвежда постепенно в мобилните приложения Gemini, така че е възможно да не видите всички опции веднага. Когато това се случи, резервният вариант е да се използва уеб интерфейсът, където функциите на Gemini често се появяват по-рано по време на поетапните внедрявания.
Gemini Enterprise и Workspace: AI агенти за екипи
Отвъд личната употреба, инструментариумът Gemini се простира и на работното място чрез интеграции с Gemini Enterprise и Google Workspace. Тук фокусът се измества от еднократни подкани към постоянни агенти, работни процеси и сътрудничество в голям мащаб.
Gemini Enterprise е описана от Google като усъвършенствана агентска платформа, която предоставя най-доброто от изкуствения интелект на Google на всеки служител и работен процес. На практика това позволява на екипите да откриват, създават, споделят и управляват AI агенти в сигурна среда, подкрепена от собствените им фирмени данни, намалявайки пречките при разработката и давайки възможност за случаи на употреба като анализ на продажбите, автоматизация на процеси и вътрешно търсене на знания.
Самият Google Workspace действа като платформа за сътрудничество, подсилена от Gemini, с изкуствен интелект, вплетен в приложения като Gmail, Docs и Meet. Вместо да преминават към отделен инструмент с изкуствен интелект, потребителите могат да призоват Gemini в рамките на своите ежедневни приложения за продуктивност, за да изготвят съдържание, да обобщават информация или да генерират идеи в контекст.
В някои конфигурации можете дори да чатите директно с Gemini през корпоративните си данни, съхранявани в Google Workspace, Microsoft 365 и други свързани системи. Това превръща Gemini в корпоративен слой от знания, който може да отговаря на въпроси въз основа на имейли, документи и файлове, в зависимост от разрешенията и настройките за сигурност, конфигурирани от ИТ отдела.
Gemini API: гръбнакът на инструментариума за разработчици
Под насочените към потребителя приложения Gemini се крие Gemini API, който предоставя на разработчиците същите основни модели, за да ги вградят в собствените си приложения. Този API е мястото, където мултимодалността, извикването на функции и персонализираните работни процеси се обединяват за сериозна автоматизация, особено с Google Workspace и Apps Script.
Моделите Gemini са най-мощните AI системи на Google, а API предоставя различни варианти на моделите – като например текстово-ориентирани и визуално-ориентирани версии – всеки със специфични възможности и ограничения. Можете да ги разгледате визуално в Google AI Studio, хостван интерфейс за изпробване на подкани, настройване на модели и дори настройване на персонализирани модели без писане на код.
За да започнете да използвате API, трябва да заявите API ключ чрез Google AI Studio или друга поддържана конзола, след което да го тествате с просто REST извикване. Например, можете да експортирате ключа си в променлива на средата, като GOOGLE_API_KEY, и да извикате крайната точка, която изброява наличните модели, получавайки JSON, например модели/gemini-1.0-pro ако всичко е конфигурирано правилно.
Оттам нататък, генерирането на съдържание е въпрос на ПУБЛИКУВАНЕ на JSON полезен товар към съответната крайна точка, като например генериране на съдържание метод за избран модел. Минималното искане включва съдържание поле с текстови части, докато е по избор Конфигурация на поколението намлява Настройки за безопасност позволяват ви да контролирате параметри като температура и предпазни филтри.
Извикване на Gemini API от Apps Script
Един от най-мощните модели в инструментариума на Gemini е комбинирането на API с Google Apps Script за автоматизиране на работните процеси в Workspace. Този подход ви позволява да управлявате Gemini заедно с услуги като Drive, Calendar, Gmail, Sheets и Slides, без да изграждате пълен backend.
Стандартната настройка започва с проект на Apps Script (например, създаден чрез script.new), където съхранявате вашия Gemini API ключ като свойство на скрипта. В кода извличате тази стойност и изграждате URL адрес на крайна точка за конкретен модел, често gemini-1.0-pro-latest:генериране на съдържание с вашия API ключ, подаден като параметър на заявката.
Помощна функция, като например callGemini(подкана, температура) обикновено изгражда JSON полезен товар, изпраща го чрез UrlFetchApp.fetch и анализира отговора, за да извлече генерирания текст. Тази обвивка опростява многократното използване на API от различни помощни програми във вашия скрипт.
Тестването е лесно: можете да създадете тестGemini() функция, която дефинира подкана, извиква вашия помощник и записва както входните, така и изходните данни в логовете за изпълнение. След като това работи, ще знаете, че вашата среда на Apps Script и ключът на Gemini API са правилно свързани за по-напреднали сценарии.
Използване на крайната точка Gemini Vision за изображения
Инструментариумът Gemini надхвърля текста благодарение на мултимодалната поддръжка, особено възможността за обработка на изображения чрез крайна точка с активирано зрение. В Apps Script това обикновено е отделна крайна точка, като например gemini-1.0-pro-vision-latest:генериране на съдържание, отново параметризиран от вашия API ключ.
Типичен помощник като callGeminiProVision (подкана, изображение, температура) ще конвертира blob изображение в base64, ще го вгради като вградени данни с подходящия MIME тип и го изпратете заедно с текстово подканване. След това моделът връща текст, който отразява неговото разбиране както за изображението, така и за подканата.
За да проверите настройката, можете да напишете малък тестGeminiVision() който изтегля примерно изображение от публичен URL адрес, предава го на вашия помощник и регистрира забавен факт или анализ, създаден от Gemini Vision. Този вид тест демонстрира, че мултимодалният вход работи правилно във вашата среда.
След като потокът от визуални данни се стабилизира, можете да го използвате повторно в автоматизации от по-високо ниво, като например анализ на диаграми от Google Sheets или изображения, съхранени в Drive. Именно тук мултимодалността започва да се усеща като наистина полезна част от инструментариума, а не като демонстрационен трик.
Извикване на функции: предоставяне на достъп до инструменти на Gemini
Друг ключов елемент от инструментариума на Gemini е извикването на функции, което позволява на модела да реши кога да извика вашите собствени инструменти или API. Вместо просто да генерира текст, Gemini може да върне структуриран извикване на функция обекти, които описват коя функция да се използва и с какви аргументи.
В Apps Script можете да настроите помощник, като например callGeminiWithTools(подкана, инструменти, температура) който изпраща инструментите спецификация заедно с подканата за потребителя. Тази спецификация следва Декларация на функция схема, където описвате името, предназначението и JSON параметрите на функцията.
Когато Gemini реши, че даден инструмент трябва да се използва, неговият отговор включва обект за извикване на функция, който можете да анализирате във вашия скрипт и да го пренасочите към действителната имплементация. Можете например да дефинирате инструмент тип „stub“ с име „datetime“, който връща текущата дата и час, и да наблюдавате как Gemini изисква тази функция за решаване на въпроси, свързани с календарни изчисления.
Извикването на функции е особено мощно, защото може да работи в рамките на множество заявки, а не само при единични заявки. Това означава, че можете да проектирате по-сложни, разговорни агенти, които решават кога да извикат инструменти, да интерпретират резултатите и да продължат диалога.
Демо интеграции: Gemini + Google Workspace като практичен набор от инструменти
След като комбинирате генериране на текст, въвеждане на визуални данни и извикване на функции, инструментариумът Gemini се превръща в практичен двигател за автоматизация на работни пространства. Материалът на Google Codelab очертава няколко конкретни примера, които илюстрират какво е възможно.
На високо ниво, входящите потребителски заявки се предават на Gemini с набор от налични инструменти, представляващи различни работни процеси: планиране на срещи, изготвяне на имейли от диаграми и създаване на слайдове. Въз основа на заявката, Gemini избира правилната функция и връща извикване на функция със структурирани аргументи, като например времена, имена на файлове или теми.
В Apps Script след това интерпретирате извикването на функция вътре в ако…иначе верига, извикваща съответния работен процес – например, setupMeeting(), черноваИмейл() or createDeck(). Тази комбинация от моделно разсъждение и експлицитна логика на скрипта е това, което превръща Gemini от прозорец за чат в кутия с инструменти за истинска работа.
Автоматизиране на срещи: обобщаване на файлове от Диск в събития в Календар
Една демонстрация показва как Gemini може да помогне за организирането на среща в Календар, която автоматично включва резюме на текстов файл, хостван в Google Drive. Потребителят може да напише нещо от рода на: „Уговорете среща с Хелън утре в 10:00 ч., за да обсъдим новините от файла Gemini-blog.txt.“
Зад кулисите, в спецификацията на инструментите е деклариран инструмент за работно пространство, наречен „setupMeeting“, с параметри за време, получател и име на файл. Когато Gemini интерпретира заявката, той избира този инструмент и връща извикване на функция с попълнените аргументи.
Съответните setupMeeting() След това функцията намира посочения файл в Drive, прочита съдържанието му и го предава на Gemini чрез извикванеGemini() с инструкции за създаване на кратък JSON обект, съдържащ заглавие и кратко резюме. Отговорът може да се върне, обвит във форматиращи огради, които премахвате, преди да го анализирате като JSON.
Използвайки извлеченото заглавие и резюме, скриптът създава събитие в Календар, използвайки Приложение за календар, задава описанието на резюмето и прикачва изходния файл чрез разширената услуга „Календар“. Резултатът е планирана среща с вграден контекст, задействана от една единствена заявка на естествен език.
Изготвяне на имейли от диаграми в Таблици с Gemini Vision
Друг работен процес в инструментариума на Gemini включва анализ на диаграма в Google Sheets и изготвяне на съобщение в Gmail въз основа на нея. Представете си, че водите електронна таблица с разходи за колеж и искате имейл, който обобщава показанията на таблицата за колежка на име Мери.
Потребителската заявка може да гласи: „Изготвяне на имейл за Мери с анализи от диаграмата в листа „Разходи за колеж“. Инструмент, наречен „draftEmail“, е дефиниран да приема име на лист и получател, а Gemini избира този инструмент, когато види този тип заявка.
- черноваИмейл() Функцията локализира заявената електронна таблица в Диск, отваря съответния лист, извлича първата му диаграма и я запазва като файл (например, ExpenseChart.png). След това се изгражда подкана, инструктираща Gemini да използва само информацията от графиката, да избягва исторически сравнения и да поддържа съобщението кратко.
Като се обадите callGeminiProVision(подкана, expenseChart), скриптът изпраща както подканата, така и изображението на диаграмата до Gemini Vision, което връща персонализирано тяло на имейла. Накрая скриптът създава чернова в Gmail, адресирана до имейла на получателя, задава тема, например „Разходи за колеж“, и прикачва изображението на графиката.
Този модел ефективно превръща Близнаците в анализатор, който може да разчете диаграма, да извлече ключовата история и да я формулира на естествен език от ваше име. Все още преглеждате и коригирате черновата, но по-голямата част от тежката работа се извършва автоматично.
Автоматично създаване на слайдове с Gemini и Google Slides
Третият основен демонстрационен работен процес в този инструментариум автоматично изгражда скелетна презентация в Google Slides по зададена от потребителя тема. Например, може да попитате: „Помогнете ми да съставя тесте за опазване на водата.“
Инструмент, наречен „createDeck“, е деклариран с един параметър, topic, и Gemini е инструктиран да върне структуриран JSON, описващ поредица от слайдове. Подканата казва на Gemini колко слайда да създаде (въз основа на константа като NUM_SLIDES), изисква кратки заглавия и точки, и изрично изисква валиден JSON обект, за да може скриптът да го анализира безопасно.
След обаждане извикванеGemini() С това подканяне скриптът премахва всички ограничения за форматиране, анализира JSON файла и след това го използва Приложение Slides за генериране на нова презентация. Първият слайд се третира като заглавна страница, а следващите слайдове следват оформление TITLE_AND_BODY, където скриптът попълва текста на заглавието и водещите символи.
В рамките на няколко секунди получавате основна презентация със структурирани теми за разговор на слайд, готова за визуално персонализиране. Въпреки че резултатът е умишлено минимален, този работен процес показва как Gemini може да даде тласък на структурата на съдържанието, така че да можете да се съсредоточите върху дизайна и нюансите.
Разширяване на инструментариума: чатботове, RAG и многооборотни инструменти
Горните примери са само отправна точка; по-широкият набор от инструменти на Gemini може да бъде разширен в много посоки, след като се почувствате комфортно с API и извикването на функции. Google изрично предлага няколко начина за проучване.
Един популярен случай на употреба е изграждането на чатботове за Google Chat, използвайки Gemini API. Тук важат същите модели: вие предоставяте инструменти, оставяте Gemini да реши кога да ги извика и свързвате отговорите обратно в разговорен интерфейс в Chat, като всичко това се управлява от Chat API и свързаните с него codelabs.
Друго основно направление е генерирането на добавено към извличането съдържание (RAG) в допълнение към личното съдържание в Drive или Keep. Вместо да обобщавате един текстов файл, можете да комбинирате Gemini API с векторна база данни и, по избор, рамка за оркестрация като LangChain, за да извлечете подходящи фрагменти от PDF файлове, изображения и бележки, преди да помолите Gemini да генерира отговор, основан на тези документи.
Многократното извикване на функции също така отключва по-сложни агенти, които могат итеративно да решават кои инструменти да използват и в каква последователност. Вместо едно-единствено решение, агентът може да извика функция, да разгледа резултата, след което да извика друга функция или да зададе уточняващ въпрос, всичко това в рамките на една текуща нишка.
И накрая, няма изискване да останете в Workspace; след като усвоите шаблоните на Gemini API, можете да свържете модела с външни API в по-широката мрежа. Ето как Gemini преминава от ограничен корпоративен асистент към универсален оркестратор на дигитална работа.
Взети заедно, тези части – стабилни инструменти, експериментални лаборатории, функции за обучение, корпоративни агенти и API за разработчици – образуват наистина богат набор от инструменти на Gemini, който може да се адаптира както към начинаещи учащи, така и към опитни потребители. Ако третирате Gemini не като едно-единствено приложение, а по-скоро като нарастващ набор от инструменти, които можете да композирате, ще бъдете в силна позиция да се възползвате от всичко, което Google добави следващо, без да се налага да преосмисляте целия си работен процес всеки път.
инженер. Любител на технологии, софтуер и хардуер и технологичен блогър от 2012 г
