Google обяви днес четири нови смартфона от серията Pixel 9, нов Pixel Watch в два размера за първи път и нови Pixel Buds. Докато хардуерът звучи като пълна вечерна програма, истинската звезда е съвсем различна: Gemini – и особено Gemini Live. Това ли е моментът на кацане на Луната за изкуствения интелект?
Какво е Близнаци – и колко далеч може да стигне?
Нека направим крачка назад: Google обединява донякъде объркващ брой различни неща под чадъра на Gemini. От една страна са генеративните AI модели Gemini Nano, Gemini Flash, Gemini Pro и Gemini Ultra. Тези модели напредват във възходящи версии; най-мощният модел в момента е „Gemini 1.5 Pro“, който превъзхожда конкуренцията от OpenAI & Co. в различни бенчмаркове на AI.
От началото на 2024 г. обаче Gemini също се нарича чатбот на Google, известен преди като Bard. И този чатбот сега получава езикова версия, наречена „Gemini Live“ в стила на легендарния гласов режим на ChatGPT 4o, който беше обявен един ден преди Google I/O през май 2024 г. Той все още не е наличен дори като широка бета версия, правейки заглавия по-скоро заради зловещи провали, отколкото заради изненадваща поява.
Между другото, Gemini също се отнася до различни модели на абонамент. Само „Gemini“ е безплатният достъп до AI на Google, наречен Gemini, базиран на модела „Gemini Pro“. Въпреки това имате достъп само до гореспоменатия „Gemini 1.5 Pro“ с абонаментния модел „Gemini Advanced“ за $19,99 на месец – или можете да се абонирате за Google One AI Premium. На този етап дори няма да започвам с Gemini Business. Но сега към предполагаемото кацане на Луната.
- Прочетете повече: Google Pixel Watch 3 – колко голяма е разликата с Watch 2?
Gemini Live: „Звездата“ на шоуто
В допълнение към тридесет и четирите различни Geminis, има още една функция със същото име, която сочи пътя към следващите години: Gemini Live. Това е така нареченият разговорен модел, който позволява естествени разговори – вместо просто обмен на походови гласови съобщения с AI модела, всяко от които се транскрибира като текст или се извежда чрез гласов изход. Разликата в динамиката е като да сравниш шах със спринт.
В демонстрацията на живо на събитието „Произведено от Google“ Джени Блекбърн поиска забавна и образователна дейност за племенницата и племенниците си в областта на химията, включително малко магия. Предложенията бяха магически вулкан, домашна лампа от лава или невидимо магическо мастило.
Джени избра магическото мастило, което в хода на следващия разговор се превърна в черно светло мастило, получи името на проекта „Лаборатория за тайни съобщения“ и уверението, че няма да прави голяма бъркотия, докато експериментира.
По-малко от чистия резултат, който лесно можеше да бъде потърсен в Google, пътуването беше наистина впечатляващо. С Gemini Live интернет става ваш партньор в разговора, а в бъдеще и вашият собствен живот, който вече може да се търси с помощта на Gemini AI благодарение на няколко нови функции.
Функцията „Call Notes“ например транскрибира вашите телефонни разговори след подсказка за вашия партньор в разговора и ви позволява да търсите в тях след това. „Пикселни екранни снимки“ трансформира вашата пренебрегната колекция от екранни снимки на предполагаеми важни неща в база данни с възможност за търсене с лични бележки. А с разширенията Workspace можете да говорите с вашия Google Календар, както и с вашите данни от имейли, задачи или Google Keep.
„Проблемът“: Gemini Live изисква мощния езиков модел Gemini 1.5 Pro, който работи в облака. Ако използвате AI модели за извличане на подробности от вашата вселена от лични данни в Google Workspace, транскрипции и т.н., това се прави само локално – с Gemini Nano. Има обаче огромна празнина в защитата на данните с облачно базирания Gemini 1.5 Pro. Поискахме от Google изявление по този въпрос и ще актуализираме статията веднага щом получим обратна връзка.
Gemini и пропуските в защитата на данните
Докато Gemini, латински за „близнак“, всъщност означава партньорството между двете лаборатории за изкуствен интелект на Google DeepMind и Brain, името може да се разглежда и като неволно описание на разделението между локално и облачно.
На обикновен език: Ако започнете да чатите с Gemini Live на английски в приложението Gemini за Android (да, разбира се, приложението се казва така), моделът на AI, работещ тук, няма достъп до вашите лични данни от вашия имейл, календар и т.н. И това е малко вероятно да се промени, когато Gemini Live стане наличен на други езици и дори за iOS през следващите седмици и месеци.
Ако искате да попитате Gemini дали можете да посетите концерт въз основа на снимка на плакат, трябва да въведете заявката си като в каменната ера или да използвате гласово въвеждане. Защото въпреки че локално работещият модел Gemini Nano има достъп до вашите лични данни, той няма достатъчно мощност за разговори в реално време.
- Също интересно: Google Pixel 9, Pixel 9 Pro (XL) и Pixel 9 Pro Fold в сравнение
Дали Gemini Live е кацането на Луната в „AI Race“?
В космическата надпревара от 60-те и 70-те години НАСА имаше космическа програма, наречена „Джемини“, която проправи пътя за първото кацане на Луната през 1969 г. с последвалата програма Аполо. Съвпадение? Едва ли, защото десетте гласа, налични за Gemini Live при стартирането, получиха англоезични имена за звездни съзвездия: Vega, Dipper, Ursa & Co.
Така че докато Google се протяга към звездите и има бивш инженер на НАСА на сцената на афтърпартито, все още липсва едно парче от кацането на Луната. Внимателно изкованата връзка между най-личните потребителски данни в локално работещите модели Gemini и мощните облачни модели, които позволяват естествено изглеждащи разговори.
Google вече обяви следващата стъпка с Project Аполон Astra: Тук Gemini Live трябва да получи достъп до камерата, както вече беше показано на Google I/O, и след това постепенно да интегрира приложения като Google Calendar.