Φθηνότερη και καλύτερη AI – Η κινεζική DeepSeek εκθρόνισε εν μια νυχτί Google, Meta και OpenAI

ΕΠΙΜΕΛΕΙΑ

Βασίλης Διαμαντάκος 29.01.2025 | 01:29 ΧΡΟΝΟΣ ΑΝΑΓΝΩΣΗΣ 5 '

Πηγή Φωτογραφίας: medium / linkedin // Φθηνότερη και καλύτερη AI - Η κινεζική DeepSeek εκθρόνισε εν μια νυχτί Google, Meta και OpenAI

Pagenews.gr / EDITOR'S PICK / Φθηνότερη και καλύτερη AI – Η κινεζική DeepSeek εκθρόνισε εν μια νυχτί Google, Meta και OpenAI

Το προηγμένο συλλογιστικό μοντέλο R1 κλόνισε τον τεχνολογικό τομέα των ΗΠΑ

Ένα ερευνητικό εργαστήριο τεχνητής νοημοσύνης (AI) στην Κίνα, το DeepSeek, έσπασε το «ιερό δισκοπότηρο των μοντέλων τεχνητής νοημοσύνης» και αλλάζει τα δεδομένα επιτυγχάνοντας απόδοση ισοδύναμη με τα καλύτερα chatbot του κόσμου με ένα κλάσμα του κόστους.

Την περασμένη εβδομάδα, η μόλις ενός έτους εταιρεία αποκάλυψε το ανοιχτού κώδικα AI μοντέλο της, το DeepSeek-R1, που ανταγωνίζεται τα OpenAI, Google και Meta και αμφισβητεί την ευρέως διαδεδομένη άποψη ότι η ανάπτυξη AI χρειάζεται αυξανόμενα χρήματα και ενέργεια.

Η άφιξη του DeepSeek στη σκηνή της τεχνητής νοημοσύνης οδήγησε τις μετοχές των παγκόσμιων εταιρειών τεχνολογίας που εδρεύουν στις ΗΠΑ σε υποχώρηση, εγείροντας ερωτήματα σχετικά με τις αποτιμήσεις τους και τη θέση των ΗΠΑ ως ηγέτη τεχνολογίας σε αυτόν τον τομέα σύμφωνα με το Bloomberg.

Τι είναι το Deep Seek;

Η DeepSeek ιδρύθηκε το 2023 και εργάζεται για την ανάπτυξη μοντέλων τεχνητής νοημοσύνης ανοιχτού κώδικα. Ο ιδρυτής του, Liang Wenfeng, διαχειρίζεται ένα hedge fund, το High Flyer, το οποίο είναι γνωστό για τη χρήση προηγμένων υπολογιστών για την ανάλυση οικονομικών δεδομένων από το 2015.

Η επιστημονική περιέργεια του Liang σύντομα κυριάρχησε και δημιούργησε το DeepSeek για να αναπτύξει πρωτοποριακά μοντέλα που θα μπορούσαν να επιθεωρηθούν και να βελτιωθούν από την κοινότητα των προγραμματιστών και να μην στοχεύουν στη δημιουργία χρηματικών αποδόσεων.

Η εφαρμογή για κινητά του DeepSeek κυκλοφόρησε τον Ιανουάριο του τρέχοντος έτους και έχει ανέβει στην κορυφή των διαγραμμάτων λήψης iPhone. Σε αντίθεση με το ChatGPT του OpenAI, το chatbot του DeepSeek αρθρώνει το σκεπτικό του πριν απαντήσει σε μια προτροπή, ανέφερε το Bloomberg.

Ωστόσο, το προηγμένο συλλογιστικό μοντέλο R1 της DeepSeek έχει κλονίσει το έδαφος για τον τεχνολογικό τομέα των ΗΠΑ. Αν και οι λεπτομέρειες δεν έχουν αποκαλυφθεί, το κόστος της εκπαίδευσης και της ανάπτυξης του μοντέλου είναι μόνο ένα κλάσμα από αυτό που ξόδεψε η OpenAI ή η Meta για τη δημιουργία των μεγάλων γλωσσικών μοντέλων τους (LLM).

Ενώ οι εταιρείες έχουν αναπτύξει εποπτευόμενη λεπτομέρεια για την ανάπτυξη των μοντέλων τους, η DeepSeek ισχυρίζεται ότι έχει χρησιμοποιήσει την ενισχυτική μάθηση (RL) για να επιτύχει ισχυρές συλλογιστικές ικανότητες.

Το Bloomberg πρόσθεσε ότι το τελευταίο του μοντέλο, το R1, ταιριάζει με τις επιδόσεις των μοντέλων 01 του OpenAI σε συλλογιστικές εργασίες και υπερισχύει των ανταγωνιστικών μοντέλων σε σημεία αναφοράς για μαθηματικές εργασίες, γενικές γνώσεις και απόδοση ερωτήσεων και απαντήσεων.

Η DeepSeek τα κατάφερε όλα αυτά χρησιμοποιώντας ένα κλάσμα της υπολογιστικής ισχύος που χρησιμοποιεί η Meta για την ανάπτυξη των LLM της, ενώ το εγγεγραμμένο κεφάλαιο της εταιρείας είναι μόλις 10 εκατομμύρια γιουάν (1,4 εκατομμύρια δολάρια). Αυτό έρχεται σε αντίθεση με την τάση των εταιρειών τεχνητής νοημοσύνης, ακόμη και εκείνων που εδρεύουν στην Κίνα που αναζητούν περισσότερη χρηματοδότηση για να βελτιώσουν τα μοντέλα τους στο μέλλον.

Τα εμπόδια έγιναν ευκαιρίες

Για να αποφευχθεί ένα σενάριο όπου η Κίνα θα γίνει ο ηγέτης της τεχνολογίας στην τεχνητή νοημοσύνη, οι ΗΠΑ επέβαλαν ελέγχους εξαγωγών σε υπολογιστικό υλικό όπως τα τσιπ της NVIDIA ήδη από τον Οκτώβριο του 2022. Το ταξίδι του DeepSeek ξεκίνησε με 10.000 τσιπ H100, αλλά οι έλεγχοι εξαγωγών σήμαιναν ότι δεν μπορούσε να ανταγωνιστεί τις αμερικανικές εταιρείες που χρησιμοποιούν την ίδια προσέγγιση, σύμφωνα με έκθεση Business Standard.

Σε αντίθεση με άλλες κινεζικές εταιρείες τεχνητής νοημοσύνης που ακολούθησαν την προσέγγιση ανάπτυξης εφαρμογών, η ομάδα του DeepSeek εργάστηκε για τον επανασχεδιασμό της υποκείμενης αρχιτεκτονικής της τεχνητής νοημοσύνης και τη βελτιστοποίηση της αποδοτικότητας των πόρων. Αυτό περιλάμβανε προσαρμοσμένα σχήματα επικοινωνίας για αποτελεσματική ανταλλαγή δεδομένων, βελτιστοποίηση μνήμης και συνδυασμό μικρότερων μοντέλων για την επίτευξη ανώτερων αποτελεσμάτων.

Εκτός από το κορυφαίο μοντέλο R1, η εταιρεία διαθέτει έξι μικρότερες εκδόσεις που κυμαίνονται από 1,5 δισεκατομμύρια έως 70 δισεκατομμύρια παραμέτρους. Αυτά είναι αδειοδοτημένα από το MIT, δωρεάν στη χρήση και επιτρέπουν στους ερευνητές να τελειοποιήσουν και να εμπορευματοποιήσουν την εργασία τους.

Αυτό θα ωθήσει εταιρείες όπως το OpenAI και άλλες να μειώσουν τις τιμές τους για να διατηρήσουν το προβάδισμά τους, αλλά και να αμφισβητήσουν τα μοντέλα λειτουργίας τους ενόψει των εξαιρετικά αποτελεσματικών τρόπων ανάπτυξης της τεχνητής νοημοσύνης. Αυτό έχει τρομάξει τους επενδυτές, προκαλώντας ένα τεράστιο sell-off μετοχών τεχνολογίας στην αγορά.

Πηγή: pagenews.gr

Διαβάστε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο