С распространением центров обработки данных ИИ и связанных с этим расходов на обработку данных все большее внимание уделяется эффективности алгоритмов, и ни одна языковая модель не справляется с этим лучше, чем DeepSeek. Ее модели имеют открытый исходный код, и их обучение обходится гораздо дешевле, чем обучение моделей ChatGPT от OpenAI или Gemini от Google.
Недавно анонсированная модель DeepSeek-OCR - яркий пример эффективности обучения. Используя оптическое отображение, она может сжимать очень длинные документы, преобразуя их в изображения с 97% точностью распознавания при коэффициенте сжатия менее 10x.
Благодаря использованию усовершенствованных кодировщика и декодировщика, более девяти маркеров текста документа могут быть преобразованы в один визуальный маркер, что значительно сокращает вычислительные ресурсы, необходимые для обработки контента. Даже при 20-кратной степени сжатия новая система DeepSeek-OCR может достичь 60% точности оптического распознавания, что является беспрецедентным достижением.
Благодаря новым алгоритмам сжатия ИИ, DeepSeek-OCR может обучаться на научном или историческом тексте, обрабатываемом одним графическим процессором Nvidia A100 в центре обработки данных со скоростью 200 000 страниц в день. Таким образом, кластер из 20 узлов A100 может обрабатывать 33 миллиона страниц документов ежедневно, что является парадигмальным сдвигом в обучении LLM с использованием большого количества текста. Согласно рейтингу OmniDocBench, DeepSeek-OCR с большим отрывом опережает другие популярные решения, такие как GOT-OCR2.0 или MinerU2.0, когда речь идет о меньшем количестве маркеров зрения, используемых на страницу.
Новые алгоритмы DeepEncoder могут работать с документами различных размеров и разрешений без ущерба для скорости и точности, а декодер DeepSeek3B-MoE-A570M использует так называемую архитектуру "смесь экспертов", которая распределяет знания между специализированными моделями, необходимыми для каждой задачи OCR. В результате DeepSeel-OCR может обрабатывать сложные документы с графиками, научными формулами, диаграммами или изображениями, даже если они написаны на нескольких языках.
Чтобы достичь такого масштаба и точности, DeepSeek просмотрел 30 миллионов страниц в формате Portable Document Format (PDF), написанных почти на 100 языках, которые включали в себя все возможные категории - от газет и научных почерков до учебников и докторских диссертаций. Тем не менее, хотя скорость и эффективность визуальной токенизации, достигнутые новой системой DeepSeek-OCR, неоспоримы, еще предстоит выяснить, приведет ли это к улучшению производительности языковой модели, когда дело дойдет до реальных рассуждений, по сравнению с текущей парадигмой токенов на основе текста.