
ეს ბლოგი შეეხება Google Research-ის უახლეს ინიციატივას, რომლის მიზანიცაა ასწავლოს დიდ ენობრივ მოდელებს (LLMs) იმუშაონ ბიოლოგიურ მონაცემებთან, განსაკუთრებით რთულ ერთუჯრედოვან მონაცემებთან. ტექნოლოგია სახელად C2S-Scale ან “Cell-to-Sentence Scale” აკონვერტირებს უჯრედის გენის ექსპრესიის მონაცემებს ტექსტურ ენად, რაც საშუალებას აძლევს ენურ მოდელებს, როგორიცაა Gemini და Gemma, გაიგონ, დააწვრილმანონ და ახსნან უჯრედის მდგომარეობა ისე, თითქოს ეს იყოს ბუნებრივი ენა.
აქამდე ერთუჯრედოვანი RNA-ს სექვენირების (scRNA-seq) ტექნოლოგია შესაძლებლობას გვაძლევდა, გაგვეგო თითოეული უჯრედის გენური აქტივობა, მაგრამ ამ მონაცემების ანალიზი მოითხოვდა დიდ რესურსსა და სპეციალურ ცოდნას. ათასობით რიცხვი თითოეულ უჯრედზე რთულად აღსაქმელი იყო როგორც ადამიანებისთვის, ისე თვითონ მოდელებისთვის. Google-ის იდეა კი იყო ის, რომ ეს რიცხვები თარგმნოს ენად, რომლის გააზრებაც შეუძლია ენურ მოდელს.
Cell2Sentence-Scale მოდელი სწორედ ამ კონცეფციაზეა დაფუძნებული: უჯრედის მონაცემები გადაიქცევა წინადადებად, რომელიც აღწერს ამ უჯრედში აქტიურ გენებს, როგორც სიტყვებს ტექსტში. მაგალითისთვის, უჯრედი შეიძლება აღიწეროს ასე:
“TP53 is highly active, followed by BAX and MDM2…”
ასეთი ფორმატით წარმოდგენილი ინფორმაცია უშუალოდ შეესაბამება ენის მოდელების ლოგიკას და სტრუქტურას.
Google-ის კვლევა, რომელიც გამოქვეყნდა ბიოპრეპრინტ პლატფორმაზე BioRxiv (იხილეთ სრული კვლევა), აჩვენებს, რომ ამ მოდელებს შეუძლიათ:
- უჯრედის ტიპის გამოცნობა მხოლოდ ტექსტის საფუძველზე
- გენეტიკური ფუნქციების ენობრივი ახსნა
- უჯრედის რეაქციის პროგნოზირება მედიკამენტზე
ეს მიდგომა აგრეთვე ამარტივებს დიდი მოცულობის მრავალსახეობრივ მონაცემებთან მუშაობას. კვლევის დროს გამოყენებული იქნა 100 მილიონზე მეტი უჯრედის მონაცემი, 10-ზე მეტი ბიოლოგიური სახეობიდან, რაც მეტყველებს ამ ინსტრუმენტის მასშტაბურობაზე და გაფართოების პოტენციალზე.
მნიშვნელოვანია, რომ ეს ყველაფერი ღია კოდზეა დაფუძნებული. პროექტის კოდი ხელმისაწვდომია GitHub-ზე აქ, ხოლო მოდელები შეგიძლიათ ნახოთ HuggingFace პლატფორმაზე აქ.
ტექნოლოგია არამხოლოდ მეცნიერებს აძლევს ძალას, არამედ ქმნის შესაძლებლობას, რომ გენომური ანალიზი გახდეს უფრო ხელმისაწვდომი კლინიკური გადაწყვეტილებების მისაღებად. მოდელი შეიძლება გამოყენებულ იქნას იმ შემთხვევაშიც კი, როცა მონაცემები ფრაგმენტულია ან ნაკლებად სტანდარტიზებული — ენობრივი ბუნების გამო ის მარტივად ახერხებს შევსებას და ინტერპრეტაციას.
შედეგად, ტექნოლოგია წარმოადგენს AI-ისა და ბიოლოგიის სინთეზის ერთ-ერთ ყველაზე მძლავრ დემონსტრაციას, სადაც მოდელებს აღარ უწევთ მხოლოდ ადამიანური ტექსტების წაკითხვა, არამედ ისინი სწავლობენ სიცოცხლის, უჯრედის და გენების ენას.
ეს არის გზა, რომელიც შეიძლება მიგვიყვანოს იმ მომენტამდე, როცა AI არამხოლოდ პასუხობს ჩვენს შეკითხვებს — არამედ ის თავად ჰკითხავს უჯრედს: „რისი გეშინია? რას გტკივა?“
ასეთი სიმბიოზი მეცნიერებასა და ხელოვნურ ინტელექტს შორის შეიძლება გახდეს ერთ-ერთი ყველაზე დიდი მიღწევა ციფრულ ბიოლოგიაში.
გამოყენებული წყარო: Research.Google