Синтетические данные: что это такое, как они помогут развитию ИИ, какие проблемы могут возникнуть с ними

«Имея синтетические данные, вам не нужно беспокоиться о законах или регламентах по защите данных. Это демократизирует доступ к статистике. Небольшие компании могут участвовать в гонке и даже победить»
Фото: Unsplash.com
За последние несколько лет разработчики машинного обучения для ИИ поняли, что лучше больших данных (big data) могут быть только хорошие данные. Пионер машинного обучения Эндрю Ын недавно запустил кампанию Landing AI, призывающую коллег переключить внимание с моделей обучения и алгоритмов на качество данных, используемое для тренировки этих моделей. Суть в том, что небольшие объемы правильных, чисто маркированных данных способны улучшить работу системы ИИ в большей степени, чем в 10 раз больший объем «неочищенных» данных или даже более совершенный алгоритм.
Например, компания Affectiva, лидер в сфере «эмоционального» искусственного интеллекта, создает системы, которые помогают машинам понимать эмоции или когнитивные состояния человека. Один из ее проектов помогает автопроизводителям создавать умные помощники водителя, которые способны распознавать, когда человек засыпает за рулем. Но снимать показания с тысяч испытуемых, сидящих в автомобильных симуляторах, довольно дорого и занимает много времени. Тогда Affectiva обращается в такие стартапы как Datagen или Synthesis AI, которые генерирует синтетических людей, а точнее – 3D-модели лиц высокого разрешения.
Подпишитесь, чтобы прочитать целиком
Оформите подписку Redefine.Media, чтобы читать Republic
Подписаться [Можно оплатить российской или иностранной картой. Подписка продлевается автоматически. Вы сможете отписаться в любой момент.]