Trusa de instrumente Gemini: tot ce poți face astăzi cu aplicațiile, instrumentele și API-ul de inteligență artificială de la Google

Ultima actualizare: 25 martie 2026
Autorul: Andy Green
  • Setul de instrumente Gemini combină instrumente stabile precum Canvas, Deep Research și Guided Learning cu funcții experimentale Labs.
  • API-ul Gemini deblochează fluxuri de lucru multimodale și de apelare a funcțiilor în Google Workspace, precum și automatizări personalizate.
  • Învățarea ghidată, Canvas și agenții fac din Gemini atât un tutore personal, cât și un asistent de lucru pentru documente, slide-uri și e-mailuri.
  • Folosind Labs, integrarea cu Gemini Enterprise și Workspace, echipele pot testa în siguranță inteligența artificială puternică pe baza propriilor date.

Conceptul de trusă de instrumente Gemini

„Setul de instrumente Gemini” nu mai este doar o expresie atrăgătoare; este setul practic de aplicații, instrumente, agenți și API-uri pe care Google le integrează discret în orice, de la învățarea ocazională la fluxurile de lucru ale întreprinderilor. În loc de un singur asistent monolitic, Gemini se comportă acum mai mult ca o trusă de instrumente în care fiecare funcționalitate este un instrument specific: motor de cercetare, tutore, ajutor de cod, planificator de întâlniri, constructor de diapozitive și multe altele.

Dacă înțelegi cum se îmbină aceste componente – Canvas, Guided Learning, Labs, agenți, Gemini Enterprise și Gemini API – poți transforma Gemini într-un adevărat instrument de lucru, în loc de un chatbot inovator. Mai jos veți găsi o prezentare detaliată a acestui set de instrumente: ce se află în zona stabilă „Instrumente”, ce se testează în „Labs”, cum se comportă Gemini ca tutore cu imagini și videoclipuri și cum pot dezvoltatorii să conecteze API-ul la Google Workspace pentru o automatizare serioasă.

Ce se află mai exact în setul de instrumente Gemini astăzi?

Gemini este cel mai bine înțeles ca o familie de modele de IA (Ce sunt modelele lingvistice) (Gemini 1.0, Gemini 1.5, Gemini 3 și așa mai departe) livrate prin diferite front-end-uri: web, aplicații mobile, integrare Workspace și o API pentru dezvoltatori. Ideea de „trusă de instrumente” provine din modul în care Google grupează acum capabilități concrete în interfața Gemini, în special pe web.

Pe web, selectorul principal din Gemini este împărțit în două zone majore: „Instrumente” pentru funcționalitate stabilă, gata de producție și „Laboratoare” pentru experimente încă în curs de dezvoltare. Gândește-te la „Unelte” ca la șurubelnița de încredere pe care o iei în mână în fiecare zi, în timp ce „Laboratoare” este tava în care păstrezi prototipurile care și-ar putea schimba forma săptămâna viitoare.

Pe mobil, aplicațiile Gemini adaugă multe dintre aceste instrumente – învățare ghidată, experiențe asemănătoare cu Canvas, ajutor bogat în imagini – dar acestea sunt implementate treptat. Dacă nu vedeți încă o anumită funcție în aplicație, Google vă recomandă în mod explicit să încercați din nou mai târziu sau să accesați direct gemini.google.com pentru a vedea cea mai recentă versiune pe web.

Sub capotă, toate aceste suprafețe sunt susținute de API-ul Gemini, care expune modele multimodale și apeluri de funcții, astfel încât să puteți genera conținut, analiza imagini sau orchestra fluxuri de lucru prin cod. Acea API este coloana vertebrală pentru multe dintre automatizările Workspace pe care le vom acoperi mai târziu.

Instrumente și funcții Gemini

Instrumente vs. Laboratoare: cum își organizează Gemini funcțiile

Pe măsură ce Gemini a acumulat mai multe butoane și moduri, Google a introdus o separare mai clară între funcțiile mature și cele experimentale prin intermediul a două secțiuni: „Instrumente” și „Laboratoare”. Această modificare este deja vizibilă pe interfața web și este implementată progresiv de pe serverele Google, așa că nu fiecare cont vede același aspect în același timp.

Secțiunea „Instrumente” este locul unde Google parchează funcționalitățile pe care le consideră stabile și previzibile pentru utilizarea de zi cu zi. Rapoarte din surse precum Android Police și 9to5Google arată că această zonă include elemente precum Deep Research, generarea de imagini, crearea de videoclipuri prin Veo, Canvas, Guided Learning și Deep Think, uneori legate de niveluri specifice de abonament, cum ar fi Google AI Pro sau Google AI Ultra.

„Labs”, pe de altă parte, este locul de joacă explicit: o zonă dedicată din interiorul selectorului Gemini care grupează funcții marcate ca experimentale. De obicei, veți vedea pictograme cu un mic recipient de laborator și etichete precum Agent Gemini, Vizualizare dinamică (numită și aspect vizual) și Inteligență personală. Așteptarea atunci când faceți clic pe orice element din secțiunea Laboratoare este simplă: comportamentul se poate schimba, dispărea sau muta fără prea mult avertisment.

Din punctul de vedere al designului de produs, această separare contează pentru încredere. Când o aplicație de inteligență artificială se dezvoltă rapid, riscul nu este doar „prea multe funcții”, ci „nicio idee pe ce funcții mă pot baza”. Prin plasarea instrumentelor de zi cu zi într-o zonă și a experimentelor în alta, Gemini semnalizează riscul într-un mod similar cu modul „normal” față de modul „sport” dintr-o mașină.

Instrumentele stabile Gemini: Cercetare profundă, Canvas, Învățare ghidată și multe altele

Instrumentele principale Gemini pentru majoritatea utilizatorilor se află în secțiunea „Instrumente”, unde veți găsi experiențele în jurul cărora Google dorește să vă dezvoltați obiceiuri. Deși gama exactă variază în funcție de cont și de nivelul abonamentului, câteva elemente sunt deja esențiale.

Deep Research transformă Gemini într-un asistent de cercetare structurat, mai degrabă decât într-un model generic de chat. Când pui o întrebare care necesită căutarea prin mai multe surse, Deep Research urmează un proces mai explicit, în mai mulți pași, scoțând la iveală o metodologie consistentă, astfel încât utilizatorii să știe la ce să se aștepte de fiecare dată când o invocă.

Instrumentele de creare de conținut pentru imagini și videoclipuri – inclusiv integrările oferite de Veo – se află și ele în secțiunea Instrumente. Utilizatorii care se bazează pe Gemini pentru conținut vizual au nevoie ca aceste capabilități să fie ușor de găsit și rezonabil de stabile, nu ascunse în spatele unor semnalizatoare experimentale schimbătoare.

Canvas este un alt pilon: un mod de spațiu de lucru în care poți începe un document sau un proiect de codare direct dintr-un prompt, apoi îl poți rafina iterativ cu Gemini. Sub bara de solicitări, puteți selecta „Canvas” și introduce solicitarea pentru a genera un punct de plecare pentru conținut sau cod, apoi puteți continua editarea într-un aspect interactiv, alăturat.

Învățarea ghidată și gândirea profundă completează instrumentele mai axate pe aspecte cognitive, în special pentru utilizatorii care doresc ajutor structurat cu subiecte complexe. Învățarea ghidată se poate comporta ca un tutore, ghidându-vă prin idei pas cu pas, în timp ce Deep Think încurajează un raționament mai lent și mai deliberat la întrebări dificile.

Gemeni ca tutore personal: Învățare ghidată, imagini și videoclipuri

Unul dintre cele mai ușor de utilizat aspecte ale setului de instrumente Gemini este capacitatea sa de a acționa ca un profesor privat, combinând secvențe ghidate cu explicații vizuale. În loc să afișeze un zid de text, Gemini poate încorpora imagini, schițe și chiar videoclipuri în răspunsurile sale pentru a face conceptele mai ușor de înțeles.

În termeni practici, îi poți cere Gemenilor să explice un subiect și să solicite în mod explicit o diagramă, o defalcare vizuală sau o imagine ilustrativă. Răspunsul poate încorpora acele imagini direct în explicație, ajutându-vă să vizualizați, de exemplu, un concept matematic, un flux de lucru sau un proces științific.

Învățarea bazată pe videoclipuri este, de asemenea, acceptată, deși detaliile variază în funcție de regiune și de faza de implementare. Pentru anumite subiecte, Gemini poate afișa sau face referire la videoclipuri care completează răspunsul său textual, creând o cale de învățare mai multimodală în care citești, vizionezi și interacționezi cu întrebările în același flux.

Acest mod de predare este introdus treptat în aplicațiile mobile Gemini, așa că este posibil să nu vedeți toate opțiunile imediat. Când se întâmplă asta, soluția de rezervă este utilizarea experienței web, unde setul de funcții Gemini apare adesea mai devreme în timpul implementărilor în etape.

Gemini Enterprise și Workspace: agenți AI pentru echipe

Dincolo de uzul personal, setul de instrumente Gemini se extinde și la locul de muncă prin integrări cu Gemini Enterprise și Google Workspace. Aici, accentul se mută de la solicitări unice la agenți persistenți, fluxuri de lucru și colaborare la scară largă.

Gemini Enterprise este descrisă de Google ca o platformă avansată pentru agenți care aduce ce e mai bun din inteligența artificială Google fiecărui angajat și fiecărui flux de lucru. În practică, permite echipelor să descopere, să creeze, să partajeze și să ruleze agenți de inteligență artificială într-un mediu securizat, susținut de propriile date ale companiei, reducând blocajele în dezvoltare și permițând cazuri de utilizare precum analiza vânzărilor, automatizarea proceselor și căutarea internă de cunoștințe.

Google Workspace în sine acționează ca o platformă de colaborare supraalimentată de Gemini, cu inteligență artificială integrată în aplicații precum Gmail, Docs și Meet. În loc să treacă la un instrument separat de inteligență artificială, utilizatorii pot invoca Gemini în aplicațiile lor de productivitate de zi cu zi pentru a redacta conținut, a rezuma informații sau a genera idei în context.

În unele configurații, poți chiar să discuți direct cu Gemini prin intermediul datelor companiei tale stocate în Google Workspace, Microsoft 365 și alte sisteme conectate. Acest lucru transformă Gemini într-un strat de cunoștințe corporative care poate răspunde la întrebări bazate pe e-mailuri, documente și fișiere, în funcție de permisiunile și setările de securitate configurate de departamentul IT.

API-ul Gemini: coloana vertebrală a instrumentelor pentru dezvoltatori

Sub aplicațiile Gemini orientate către utilizatori se află API-ul Gemini, care expune aceleași modele de bază pe care dezvoltatorii le pot integra în propriile aplicații. Această API este locul unde multimodalitatea, apelarea funcțiilor și fluxurile de lucru personalizate se combină pentru o automatizare serioasă, în special cu Google Workspace și Apps Script.

Modelele Gemini sunt cele mai puternice sisteme de inteligență artificială de la Google, iar API-ul oferă diverse variante de model – cum ar fi versiuni axate pe text și versiuni orientate spre vedere – fiecare cu capabilități și limite specifice. Le poți explora vizual în Google AI Studio, o interfață găzduită pentru testarea prompturilor, ajustarea setărilor modelului și chiar reglarea modelelor personalizate fără a scrie cod.

Pentru a începe să utilizați API-ul, solicitați o cheie API prin Google AI Studio sau o altă consolă acceptată, apoi o testați cu un simplu apel REST. De exemplu, puteți exporta cheia într-o variabilă de mediu precum GOOGLE_API_KEY și puteți invoca endpoint-ul care listează modelele disponibile, primind JSON precum modele/gemini-1.0-pro dacă totul este configurat corect.

De acolo, generarea de conținut este o chestiune de POSTARE a unei sarcini utile JSON la endpoint-ul corespunzător, cum ar fi generareConținut metodă pentru modelul ales. O cerere minimă include o conținut câmp cu părți de text, deși opțional configurație generație și Setări de siguranță vă permit să controlați parametri precum temperatura și filtrele de siguranță.

Apelarea API-ului Gemini din Apps Script

Unul dintre cele mai puternice modele din setul de instrumente Gemini este combinarea API-ului cu Google Apps Script pentru a automatiza fluxurile de lucru din Workspace. Această abordare vă permite să orchestrați Gemini alături de servicii precum Drive, Calendar, Gmail, Sheets și Slides fără a construi un backend complet.

Configurarea standard începe cu un proiect Apps Script (de exemplu, creat prin script.new) unde stocați cheia API Gemini ca proprietate de script. În cod, recuperați acea valoare și construiți o adresă URL de punct final pentru un anumit model, adesea gemini-1.0-pro-latest:generateContent cu cheia API transmisă ca parametru de interogare.

O funcție auxiliară, cum ar fi apelGemeni(prompt, temperatură) de obicei construiește o sarcină utilă JSON, o trimite prin UrlFetchApp.fetch și analizează răspunsul pentru a extrage textul generat. Acest wrapper simplifică utilizarea repetată a API-ului din diferite utilitare din scriptul tău.

Testarea este simplă: puteți crea un testGemini() funcție care definește un prompt, apelează helperul și înregistrează atât intrarea, cât și ieșirea în jurnalele de execuție. Odată ce funcționează, știi că mediul Apps Script și cheia API Gemini sunt conectate corect pentru scenarii mai avansate.

Utilizarea punctului final Gemini Vision pentru imagini

Trusa de instrumente Gemini depășește limitele textului datorită suportului multimodal, în special a capacității de a procesa imagini printr-un endpoint cu funcție vizuală. În Apps Script, acesta este de obicei un punct final separat, cum ar fi gemini-1.0-pro-vision-latest:generateContent, din nou parametrizat de cheia API.

Un asistent tipic, cum ar fi callGeminiProVision(prompt, imagine, temperatură) va converti o imagine blob în base64, o va încorpora ca Date în linie cu tipul MIME corespunzător și trimiteți-l împreună cu o solicitare textuală. Modelul returnează apoi text care reflectă înțelegerea sa atât a imaginii, cât și a solicitării.

Pentru a verifica configurația, puteți scrie un mic testGeminiVision() care descarcă o imagine eșantion de la o adresă URL publică, o transmite asistentului tău și înregistrează o informație interesantă sau o analiză produsă de Gemini Vision. Acest tip de test demonstrează că inputul multimodal funcționează corect în mediul dumneavoastră.

Odată ce fluxul vizual este stabil, îl puteți reutiliza în cadrul automatizărilor de nivel superior, cum ar fi analizarea diagramelor din Foi de calcul Google sau a imaginilor stocate în Drive. Aici multimodalitatea începe să pară o parte cu adevărat utilă a setului de instrumente, mai degrabă decât un truc demonstrativ.

Apelarea funcțiilor: oferirea accesului la instrumente pentru Gemini

Un alt element cheie al setului de instrumente Gemini este apelarea funcțiilor, care permite modelului să decidă când să invoce propriile instrumente sau API-uri. În loc să genereze doar text, Gemini poate returna text structurat apel de funcție obiecte care descriu ce funcție să fie utilizată și cu ce argumente.

În Apps Script, puteți configura un instrument auxiliar, cum ar fi apelGeminiWithTools(prompt, tools, temperature) care trimite o Unelte specificație împreună cu solicitarea utilizatorului. Această specificație urmează o Declarație de funcție schemă, unde descrieți numele funcției, scopul și parametrii JSON.

Când Gemini decide că un instrument ar trebui utilizat, răspunsul său include un obiect de apel de funcție pe care îl puteți analiza în script și îl puteți direcționa către implementarea propriu-zisă. De exemplu, ați putea defini un instrument de tip stub numit „datetime” care returnează data și ora curente și să observați cum Gemini solicită această funcție pentru a rezolva întrebări legate de calculele calendaristice.

Apelarea funcțiilor este deosebit de puternică deoarece poate opera pe mai multe ture, nu doar pe cereri singulare. Asta înseamnă că poți proiecta agenți conversaționali mai complecși, care decid când să apeleze instrumentele, să interpreteze rezultatele și să continue dialogul.

Integrări demonstrative: Gemini + Google Workspace ca instrumente practice

Odată ce combinați generarea de text, introducerea de date vizuale și apelarea funcțiilor, setul de instrumente Gemini devine un motor practic pentru automatizările spațiului de lucru. Materialul laboratorului de codare Google prezintă câteva exemple concrete care ilustrează ce este posibil.

La nivel general, interogările utilizatorilor sunt transmise către Gemini cu un set de instrumente disponibile care reprezintă diferite fluxuri de lucru: programarea întâlnirilor, redactarea e-mailurilor din diagrame și crearea de prezentări. Pe baza interogării, Gemini alege funcția potrivită și returnează un apel de funcție cu argumente structurate, cum ar fi ore, nume de fișiere sau subiecte.

În scriptul Apps, interpretați apoi apelul funcției în interiorul unui daca...altfel lanț, invocând fluxul de lucru corespunzător – de exemplu, setupMeeting(), schițăEmail() or createDeck(). Această combinație de raționament model și logică explicită de script este ceea ce transformă Gemini dintr-o fereastră de chat într-o trusă de instrumente pentru muncă reală.

Automatizarea întâlnirilor: rezumarea fișierelor Drive în evenimente din Calendar

O demonstrație arată cum Gemini poate ajuta la configurarea unei întâlniri în Calendar care include automat un rezumat al unui fișier text găzduit în Google Drive. Utilizatorul ar putea tasta ceva de genul: „Stabilește o întâlnire mâine la ora 10:00 cu Helen pentru a discuta noutățile din fișierul Gemini-blog.txt”.

În culise, în specificațiile instrumentelor este declarat un instrument Workspace numit „setupMeeting”, cu parametri pentru oră, destinatar și nume de fișier. Când Gemini interpretează interogarea, alege acest instrument și returnează un apel de funcție cu argumentele respective completate.

Corespondența setupMeeting() Funcția găsește apoi fișierul specificat în Drive, citește conținutul acestuia și îl transmite către Gemini prin apeleazăGemeni() cu instrucțiuni pentru a produce un obiect JSON scurt care conține un titlu și un scurt rezumat. Răspunsul poate fi returnat încapsulat în garduri de formatare pe care le eliminați înainte de a le analiza ca JSON.

Folosind titlul și rezumatul extrase, scriptul creează un eveniment din Calendar folosind Aplicația Calendar, setează descrierea la rezumat și atașează fișierul sursă prin intermediul serviciului Calendar avansat. Rezultatul este o întâlnire programată cu context integrat, totul declanșat de o singură solicitare în limbaj natural.

Redactarea e-mailurilor din diagrame din Foi de calcul cu Gemini Vision

Un alt flux de lucru din setul de instrumente Gemini implică analizarea unei diagrame în Google Sheets și redactarea unui mesaj Gmail pe baza acesteia. Imaginează-ți că ții o foaie de calcul cu cheltuielile pentru facultate și vrei un e-mail care să rezume ce arată graficul pentru o colegă pe nume Mary.

Interogarea utilizatorului ar putea spune: „Redactați un e-mail pentru Mary cu informații din graficul din foaia Cheltuieli Facultate”. Un instrument numit „draftEmail” este definit să accepte un nume_sheet și un destinatar, iar Gemini alege acel instrument atunci când vede acest tip de solicitare.

schițăEmail() Funcția localizează foaia de calcul solicitată în Drive, deschide foaia relevantă, preia primul grafic și salvează graficul respectiv ca fișier (de exemplu, ExpenseChart.png). Apoi construiește un prompt care îi instruiește pe Gemini să folosească doar informațiile din hartă, să evite comparațiile istorice și să păstreze mesajul concis.

Sunând apelGeminiProVision(prompt, cheltuieliChart), scriptul trimite atât promptul, cât și imaginea graficului către Gemini Vision, care returnează un corp de e-mail personalizat. În cele din urmă, scriptul creează o schiță Gmail adresată adresei de e-mail a destinatarului, setează un subiect precum „Cheltuieli de facultate” și atașează imaginea graficului.

Acest model îl transformă efectiv pe Gemini într-un analist care poate citi un grafic, extrage povestea cheie și o formulează în limbaj natural în numele tău. Încă revizuiți și ajustați schița, dar cea mai mare parte a sarcinilor grele se face automat.

Construirea automată a setului de diapozitive cu Gemini și Google Slides

Al treilea flux de lucru demonstrativ major din acest set de instrumente construiește automat o prezentare Google Slides scheletată pe un subiect specificat de utilizator. De exemplu, ai putea întreba: „Ajută-mă să alcătuiesc un pachet de fișe despre conservarea apei.”

Un instrument numit „createDeck” este declarat cu un singur parametru, topic, iar Gemini este instruit să returneze un JSON structurat care descrie o serie de diapozitive. Promptul îi spune programului Gemini câte diapozitive să creeze (pe baza unei constante precum NUM_SLIDES), solicită titluri scurte și puncte cu bullet-uri și solicită explicit un obiect JSON valid, astfel încât scriptul să îl poată analiza în siguranță.

După ce a sunat apeleazăGemeni() cu această solicitare, scriptul elimină orice garduri de formatare, analizează JSON-ul și apoi folosește SlidesApp pentru a genera o nouă prezentare. Primul diapozitiv este tratat ca pagină de titlu, iar diapozitivele ulterioare urmează un aspect TITLE_AND_BODY în care scriptul populează titlul și textul cu marcatori.

În câteva secunde, primești o prezentare de bază cu puncte de discuție structurate pe diapozitiv, gata de personalizare vizuală. Deși rezultatul este intenționat minim, acest flux de lucru arată cum Gemini poate impulsiona structurarea conținutului, astfel încât să vă puteți concentra pe design și nuanțe.

Extinderea setului de instrumente: chatbot-uri, RAG și instrumente multi-turn

Exemplele de mai sus sunt doar un punct de plecare; setul de instrumente Gemini mai amplu poate fi extins în mai multe direcții odată ce vă familiarizați cu API-ul și apelarea funcțiilor. Google sugerează în mod explicit mai multe căi de explorare.

Un caz de utilizare popular este construirea de chatbot-uri pentru Google Chat folosind API-ul Gemini. Aici, se aplică aceleași tipare: expui instrumente, lași Gemini să decidă când să le apeleze și conectezi răspunsurile înapoi la o interfață conversațională în Chat, totul guvernat de API-ul Chat și de laboratoarele de cod asociate.

O altă direcție majoră este generarea augmentată prin recuperare (RAG) peste conținutul privat din Drive sau Keep. În loc să rezumați un singur fișier text, puteți combina API-ul Gemini cu o bază de date vectorială și, opțional, cu un framework de orchestrare precum LangChain pentru a obține fragmente relevante din PDF-uri, imagini și note înainte de a solicita Gemini să genereze un răspuns bazat pe acele documente.

Apelul de funcții multi-turn deblochează, de asemenea, agenți mai sofisticați, care pot decide iterativ ce instrumente să utilizeze și în ce secvență. În loc de o singură decizie, un agent poate apela o funcție, examina rezultatul, apoi poate apela o altă funcție sau poate pune o întrebare clarificatoare, toate într-un singur fir de discuție continuu.

În cele din urmă, nu este obligatoriu să rămâneți în Workspace; odată ce stăpâniți modelele API Gemini, puteți conecta modelul la API-uri externe de pe web. Așa se transformă Gemini dintr-un asistent corporativ restrâns într-un orchestrator general al muncii digitale.

Împreună, aceste componente – instrumente stabile, laboratoare experimentale, funcții de îndrumare, agenți enterprise și API-ul pentru dezvoltatori – formează o trusă de instrumente Gemini cu adevărat bogată, care se poate adapta atât cursanților ocazionali, cât și utilizatorilor avansați. Dacă tratezi Gemini mai puțin ca pe o singură aplicație și mai mult ca pe un set tot mai mare de instrumente pe care le poți compune, vei fi într-o poziție puternică pentru a profita de orice va adăuga Google în continuare, fără a fi nevoie să-ți regândești întregul flux de lucru de fiecare dată.

Ce sunt modelele lingvistice?
Articol asociat:
Ce sunt modelele lingvistice și cum funcționează cu adevărat LLM-urile