Η τεχνολογία AI μπορεί να συμπιέσει τη μνήμη συνομιλιών LLM chatbot κατά 3-4 φορές
Πίστωση: Το Google DeepMind από το Pexels Seoul National University College of Engineering ανακοίνωσε ότι μια ερευνητική ομάδα με επικεφαλής τον καθηγητή Hyun Oh Song από το Τμήμα Επιστήμης και Μηχανικών Υπολογιστών ανέπτυξε μια νέα τεχνολογία AI που ονομάζεται KVzip που συμπιέζει έξυπνα τη μνήμη συνομιλιών των chatbot που βασίζονται σε μεγάλα γλωσσικά μοντέλα (LLM) που χρησιμοποιούνται σε εργασίες μακράς διάρκειας και σύνοψης εγγράφων. Η μελέτη δημοσιεύεται στον διακομιστή προεκτύπωσης arXiv. Ο όρος μνήμη συνομιλίας αναφέρεται στην προσωρινή αποθήκευση προτάσεων, ερωτήσεων και απαντήσεων που διατηρεί ένα chatbot κατά τη διάρκεια της αλληλεπίδρασης, τις οποίες χρησιμοποιεί για να δημιουργήσει συνεκτικές απαντήσεις με βάση τα συμφραζόμενα. Χρησιμοποιώντας το KVzip, ένα chatbot μπορεί να συμπιέσει αυτήν τη μνήμη εξαλείφοντας περιττές ή περιττές πληροφορίες που δεν είναι απαραίτητες για την ανακατασκευή του περιβάλλοντος. Η τεχνική επιτρέπει στο chatbot να διατηρεί την ακρίβεια, ενώ μειώνει το μέγεθος της μνήμης και επιταχύνει τη δημιουργία απόκρισης – ένα σημαντικό βήμα προς τα εμπρός σε αποτελεσματικά, κλιμακούμενα συστήματα διαλόγου AI. Τα σύγχρονα chatbots LLM εκτελούν εργασίες όπως διάλογο, κωδικοποίηση και απάντηση ερωτήσεων χρησιμοποιώντας τεράστια περιβάλλοντα που μπορούν να εκτείνονται σε εκατοντάδες ή και χιλιάδες σελίδες. Καθώς οι συνομιλίες μεγαλώνουν, ωστόσο, η συσσωρευμένη μνήμη συνομιλιών αυξάνει το υπολογιστικό κόστος και επιβραδύνει τον χρόνο απόκρισης. Για την αντιμετώπιση αυτού του ζητήματος, οι ερευνητές έχουν αναπτύξει μεθόδους συμπίεσης μνήμης που επιτρέπουν στα chatbots να διατηρούν μόνο βασικές πληροφορίες συμφραζομένων, αντί να αποθηκεύουν κάθε λεπτομέρεια προηγούμενων ανταλλαγών. Ωστόσο, οι περισσότερες υπάρχουσες τεχνικές συμπίεσης εξαρτώνται από το ερώτημα, που σημαίνει ότι βελτιστοποιούν τη μνήμη μόνο για την τρέχουσα ερώτηση. Όταν τίθεται μια νέα ή επόμενη ερώτηση, η απόδοση του chatbot συνήθως επιδεινώνεται σημαντικά. Για να ξεπεράσει αυτόν τον περιορισμό, η ομάδα του καθηγητή Song πρότεινε το KVzip, μια νέα μέθοδο που μειώνει αποτελεσματικά το μέγεθος της μνήμης συνομιλιών σε διαλόγους μεγάλου περιβάλλοντος, διατηρώντας το ίδιο επίπεδο ακρίβειας. Το KVzip εκτελεί συμπίεση διατηρώντας μόνο τις πληροφορίες που είναι απαραίτητες για την ανακατασκευή του περιβάλλοντος, επιτρέποντας στο chatbot να χειρίζεται πολλαπλά μελλοντικά ερωτήματα χωρίς να χρειάζεται να επανασυμπιέζει τη μνήμη του κάθε φορά. Σε ένα ευρύ φάσμα εργασιών—συμπεριλαμβανομένης της απάντησης σε ερωτήσεις, της ανάκτησης, του συλλογισμού και της κατανόησης κώδικα—το KVzip πέτυχε 3–4× μείωση μνήμης και περίπου 2× ταχύτερους χρόνους απόκρισης, όλα αυτά χωρίς καμία απώλεια στην ακρίβεια. Η τεχνική έδειξε επίσης επεκτασιμότητα σε εξαιρετικά μεγάλα περιβάλλοντα έως και 170.000 tokens χρησιμοποιώντας μεγάλα LLM ανοιχτού κώδικα όπως τα Llama 3.1, Qwen 2.5 και Gemma 3. Επιπλέον, το KVzip διατήρησε σταθερή ποιότητα απόκρισης σε πολλούς γύρους διαφορετικών ερωτήσεων παρακολούθησης, ξεπερνώντας τα όρια γενίκευσης των προηγούμενων μεθόδων συμπίεσης μνήμης. Συγκεκριμένα, η τεχνολογία έχει ενσωματωθεί στη βιβλιοθήκη συμπίεσης κρυφής μνήμης KV ανοιχτού κώδικα της NVIDIA, KVPress, καθιστώντας την εύκολα προσβάσιμη για πρακτική ανάπτυξη. Στο εγγύς μέλλον, το KVzip αναμένεται να υιοθετηθεί ευρέως σε εταιρικής κλίμακας συστήματα LLM, συμπεριλαμβανομένων αγωγών επαυξημένης παραγωγής ανάκτησης (RAG) και εξατομικευμένων υπηρεσιών chatbot. Μειώνοντας τη χρήση μνήμης κατά 3–4× και μειώνοντας την καθυστέρηση απόκρισης κατά περίπου 2×, η μέθοδος επιτρέπει στους διακομιστές να χειρίζονται περισσότερους ταυτόχρονους χρήστες και μεγαλύτερες συνομιλίες, ενώ μειώνει σημαντικά το λειτουργικό κόστος. Σε μεγάλες συνομιλίες, τα chatbot δημιουργούν μεγάλες «μνήμες συνομιλίας» (KV). Το KVzip διατηρεί επιλεκτικά μόνο τις πληροφορίες χρήσιμες για οποιαδήποτε μελλοντική ερώτηση, επαληθεύοντας και συμπιέζοντας αυτόνομα τη μνήμη του για αποτελεσματική επαναχρησιμοποίηση. Credit: Seoul National University College of Engineering / Hyun Oh Song’s Lab Επιπλέον, επειδή η ίδια συμπιεσμένη μνήμη μπορεί να επαναχρησιμοποιηθεί σε διαφορετικούς τύπους ερωτημάτων, δεν υπάρχει ανάγκη για επανασυμπίεση σε κάθε ερώτηση και δεν υπάρχει κίνδυνος υποβάθμισης της ακρίβειας σε επόμενες ανταλλαγές. Αυτές οι ιδιότητες καθιστούν το KVzip ιδιαίτερα πλεονεκτικό για περιβάλλοντα κινητής τηλεφωνίας και άκρων, όπου οι υπολογιστικοί πόροι και οι πόροι μνήμης είναι περιορισμένοι, επιτρέποντας σταθερές δυνατότητες εξατομίκευσης μεγάλου πλαισίου ακόμη και στη συσκευή. Ο καθηγητής Hyun Oh Song, ο οποίος συμβούλεψε την έρευνα, δήλωσε: «Το KVzip είναι σημαντικό καθώς επιτρέπει επαναχρησιμοποιήσιμη συμπιεσμένη μνήμη που διατηρεί μόνο τις πιο βασικές πληροφορίες, ακόμη και σε πράκτορες LLM που απαιτούν μακρά κατανόηση των συμφραζομένων». Ο Δρ Jang-Hyun Kim, ο οποίος είναι ο κύριος συντελεστής του έργου, δήλωσε: “Το KVzip μπορεί να εφαρμοστεί απρόσκοπτα σε πραγματικές εφαρμογές LLM και συστήματα στη συσκευή για να εξασφαλίσει σταθερή ποιότητα και βελτιωμένη ταχύτητα για αλληλεπιδράσεις μεγάλου πλαισίου.” Ο πρώτος συγγραφέας, ο Δρ Jang-Hyun Kim, θα ενταχθεί στην ομάδα AI/ML Foundation Models της Apple ως ερευνητής μηχανικής μάθησης. Το Εργαστήριο Μηχανικής Μάθησης με επικεφαλής τον καθηγητή Song είχε επίσης δύο πρόσθετες εργασίες που έγιναν δεκτές ως παρουσιάσεις αφίσας στο NeurIPS 2025 και μία εργασία που δημοσιεύτηκε στο περιοδικό Transactions on Machine Learning Research (TMLR). Στην εργασία NeurIPS 2025 με τίτλο «Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment», η ομάδα παρουσίασε μια θεωρητική ανάλυση της βέλτιστης κατανομής εύρους bit σε επίπεδα κατά την κβαντοποίηση μοντέλων μεγάλων γλωσσών και εισήγαγε την «Q-Palette», ένα σύνολο από quantization all-bit. Η μέθοδος πέτυχε 36% βελτίωση στην ταχύτητα συμπερασμάτων σε σύγκριση με τις υπάρχουσες προσεγγίσεις κβαντισμού σε ισοδύναμα επίπεδα απόδοσης. Μια άλλη εργασία του NeurIPS 2025, “Learning to Better Search with Language Models via Guided Reinforced Self-Training”, πρότεινε το Guided-ReST, έναν νέο αλγόριθμο μάθησης ενίσχυσης που επιτρέπει σε μεγάλα γλωσσικά μοντέλα να μαθαίνουν αυτόνομα βελτιωμένη λογική και στρατηγικές αναζήτησης. Στο προκλητικό σημείο αναφοράς συλλογιστικής Αντίστροφης μέτρησης, το Guided-ReST βελτίωσε την ακρίβεια κατά 10% και την αποτελεσματικότητα της συλλογιστικής κατά 50%. Επιπλέον, το έγγραφο TMLR της ομάδας, «Μεγάλης κλίμακας Ανακάλυψη στοχευμένης αιτίας μέσω εκμάθησης από προσομοιωμένα δεδομένα», εισήγαγε μια εποπτευόμενη μέθοδο αιτιολογικής εξαγωγής για τον αποτελεσματικό προσδιορισμό των αιτιακών μεταβλητών των παραγόντων στόχου. Η προτεινόμενη μέθοδος κλιμακώνεται γραμμικά με τον αριθμό των μεταβλητών, καθιστώντας την κατάλληλη για συστήματα μεγάλης κλίμακας και επιτυγχάνει προηγμένη απόδοση αιτιώδους ανακάλυψης σε σημεία αναφοράς γονιδιακών ρυθμιστικών δικτύων. Περισσότερες πληροφορίες: Jang-Hyun Kim et al, KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction, arXiv (2025). DOI: 10.48550/arxiv.2505.23416 Deokjae Lee et al, Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment, arXiv (2025). DOI: 10.48550/arxiv.2509.20214 Seungyong Moon et al, Learning to Better Search with Language Models via Guided Reinforced Self-Training, arXiv (2024). DOI: 10.48550/arxiv.2410.02992 Jang-Hyun Kim et al, Large-Scale Targeted Cause Discovery via Learning from Simulated Data, arXiv (2024). DOI: 10.48550/arxiv.2408.16218 Πληροφορίες περιοδικού: arXiv Παρέχεται από το Εθνικό Πανεπιστήμιο της Σεούλ Αναφορά: Η τεχνολογία AI μπορεί να συμπιέσει τη μνήμη συνομιλιών συνομιλίας LLM κατά 3–4 φορές (2025, 7 Νοεμβρίου) που ανακτήθηκε στις 9 Νοεμβρίου 2025 από https://techxplore.com/news/2025-11-ai-tech-compress-llm-chatbot.html Αυτό το έγγραφο υπόκειται σε πνευματικά δικαιώματα. Εκτός από κάθε δίκαιη συναλλαγή για σκοπούς ιδιωτικής μελέτης ή έρευνας, κανένα μέρος δεν μπορεί να αναπαραχθεί χωρίς τη γραπτή άδεια. Το περιεχόμενο παρέχεται μόνο για ενημερωτικούς σκοπούς.
Δημοσιεύτηκε: 2025-11-07 16:08:00
πηγή: techxplore.com








