Посмотрим на девочек? Или ml.net в работе / forpes.ru

Главная
Посмотрим на девочек? Или ml.net в работе

Посмотрим на девочек? Или ml.net в работе +31

19.03.2021 22:27

tweekaz 62 48600 Источник

К сожалению, мир машинного обучения принадлежит python.

Он давно закрепился, как рабочий язык для Data Science , но Microsoft решила поспорить и представила свой инструмент, который легко можно интегрировать с экосистемой, которой сейчас пользуется весь мир. Так появился ML.NET, кросс-платформенная и открытая система машинного обучения для разработчиков .NET.

В данной статье, я хочу показать, что использовать ml.net - не сложнее, чем остальные варианты, которые есть, на реально работающем примере, ссылку на который оставлю внизу. Это канал в телеграмме, который в автоматическом режиме забирает данные, классифицирует их (это и будем рассматривать) и постит. Кому интересно, добро пожаловать.

Постановка задачи

Я в подростковом возрасте очень хотел, чтобы у меня был прикольный бот, где я могу смотреть на девочек, который не будет забит рекламой под завязку, а просто фото и все. Так что, когда выдалось свободное время, сошлись звезды и желание, я сразу же приступил к решению этой задачи

Сбор данных

Для начала, я купил выгрузку данных твиттера по интересующему меня тегу, которую сервис отдает в формате csv(несколько разных файлов, которые различаются: сам твит, медиа, ссылки). Выбрав нужный мне файл, быстро пишем класс, чтобы распарсить данные, отсеять дубликаты. В итоге, в памяти, оставляются только ссылки на изображения, которые будут участвовать в обучении. Это хорошо, но все равно изображения нужно промаркировать, то есть разделить на категории. В моем случае, я выбрал: boys, girls, trash и other(вначале выбрал default, но, когда перешёл от строк к Enum, пришлось менять название категории). Все эти фото, я выгрузил, скрупулёзно разделил на папочки, которые отражали метку фотографии, так что настало время для самого интересного - код.

Обучение модели

Для определения того, что изображено на фото, используются алгоритмы классификации изображений.

Классификация изображений

Классификация изображений — это задача из области компьютерного зрения. Классификация изображений принимает изображение в качестве входных данных и классифицирует его, относя к предписанному классу.

Конкретнее, я буду использовать глубокое обучение.

Глубокое обучение

Глубокое обучение (глубинное обучение; англ. Deep learning) — совокупность методов машинного обучения (с учителем, с частичным привлечением учителя, без учителя, с подкреплением), основанных на обучении представлениям (англ. feature/representation learning), а не специализированным алгоритмам под конкретные задачи.

Чтобы не тратить множество часов на обучение, проще всего взять готовую модель, которая уже содержит признаки изображений, и дообучить её для своих классов, чем обучать её с ноля. Я буду использовать TensorFlow Inception , которая уже обучена на популярном сете ImageNet.

Теперь можно добавить тип проекта "Библиотека классов", для более удобного переиспользования данной модели и наконец начать писать код (распределение 2000 картинок, у меня заняло около 2х часов, при условии, что мне требовалось +- равное количество изображений в каждой из категорий).

Оффтоп

Я немного экспериментировал с количеством изображений в наборах для обучения, но лучше всего себя показывал вариант, когда количество изображений, в каждой категории, примерно, равно. В данном примере используется 4 категории по 500 фото.

Сначала создадим класс. Например, model и после этого добавим нужные библиотеки через nuget и добавим их к файлу класса:

using Microsoft.ML; 
using Microsoft.ML.Data;

Теперь добавим элементы, которые потребуются для работы основного функционала:

    private readonly string _inceptionTensorFlowModel; // путь к модели Inception 
    private MLContext mlContext;
    private ITransformer model;
    private DataViewSchema schema;
    private string modelName = "model.zip"; // название модели для её сохранения
    private string _setsPath = @"C:\datasets"; // путь к сетам и место, куда будет сложена модель после сохранения
    
    
        public Model(string inceptionTensorFlowModel)
        {
            mlContext = new MLContext();
            _inceptionTensorFlowModel = inceptionTensorFlowModel;
        }

MLContext - это отправная точка в мир машинного обучения в .NET. Этот класс "связывает" всю работу и все элементы, примерно, как DbContext в EntityFramework.

ITransformer - описывает то, как изменять данные, и то, как они будут выглядеть после трансформации.

DataViewSchema - схема данных колонок сета.

Теперь добавил классы, которые будут описывать "вход", то есть данные, которые мы будем подавать приложению.

public class ImageData
    {
        [LoadColumn(0)]
        public string ImagePath;

        [LoadColumn(1)]
        public string Label;

  		//метод, который я использую, чтобы забрать данные из папок и отмаркировать их
        public static (IEnumerable<ImageData> train, IEnumerable<ImageData> test) ReadData(string pathToFolder)
        {
            List<ImageData> list = new List<ImageData>();
            var directories = Directory.EnumerateDirectories(pathToFolder);
            foreach (var dir in directories)
            {
                if (!dir.Contains("girls") && !dir.Contains("boys") && !dir.Contains("trash") && !dir.Contains("other"))
                    continue;
                var label = dir.Split(@"\").Last();
                foreach (var file in Directory.GetFiles(dir))
                {
                    list.Add(new ImageData()
                    {
                        ImagePath = file,
                        Label = label
                    });
                }
            }
            list = list.Shuffle().ToList();
            return GetSets(list);
        }

				//Делим изображения на тестовую и основную выборки
        public static (IEnumerable<ImageData> train, IEnumerable<ImageData> test) GetSets(IEnumerable<ImageData> data)
        {
            var trainCount = data.Count() / 100 * 99;
            var train = data.Take(trainCount);
            var test = data.Skip(trainCount);
            return (train, test);
        }
    }
    public class ImagePrediction : ImageData
    {
        [ColumnName("Score")]
        public float[] Score;

        public string PredictedLabelValue;
    }

И расширение для IEnumerable для перемешивания данных:

Оффтоп по новому редактору

Попытался в спойлер вставить код, после чего у меня полностью зависла вкладка браузера

 public static IEnumerable<T> Shuffle<T>(this IEnumerable<T> source)
        {
            return source.Shuffle(new Random());
        }
        public static IEnumerable<T> Shuffle<T>(this IEnumerable<T> source, Random rng)
        {
            if (source == null) throw new ArgumentNullException("source");
            if (rng == null) throw new ArgumentNullException("rng");

            return source.ShuffleIterator(rng);
        }

        private static IEnumerable<T> ShuffleIterator<T>(
            this IEnumerable<T> source, Random rng)
        {
            var buffer = source.ToList();
            for (int i = 0; i < buffer.Count; i++)
            {
                int j = rng.Next(i, buffer.Count);
                yield return buffer[j];

                buffer[j] = buffer[i];
            }
        }

А также скруктуру, которая будет описывать настройки для модели:

private struct InceptionSettings
        {
            public const int ImageHeight = 224;
            public const int ImageWidth = 224;
            public const float Mean = 117;
            public const float Scale = 1;
            public const bool ChannelsLast = true;
        }

Она нужна, чтобы просто дать более понятные имена параметрам.

Наконец приготовления закончены и можно начинать писать метод обучения модели:

private double TrainModel()
        {
            IEstimator<ITransformer> pipeline = mlContext.Transforms.LoadImages(outputColumnName: "input", imageFolder: "", inputColumnName: nameof(ImageData.ImagePath))
                           .Append(mlContext.Transforms.ResizeImages(outputColumnName: "input", imageWidth: InceptionSettings.ImageWidth, imageHeight: InceptionSettings.ImageHeight, inputColumnName: "input"))
                           .Append(mlContext.Transforms.ExtractPixels(outputColumnName: "input", interleavePixelColors: InceptionSettings.ChannelsLast, offsetImage: InceptionSettings.Mean))
                           .Append(mlContext.Model.LoadTensorFlowModel(_inceptionTensorFlowModel).
                               ScoreTensorFlowModel(outputColumnNames: new[] { "softmax2_pre_activation" }, inputColumnNames: new[] { "input" }, addBatchDimensionInput: true))
                           .Append(mlContext.Transforms.Conversion.MapValueToKey(outputColumnName: "LabelKey", inputColumnName: "Label"))
                           .Append(mlContext.MulticlassClassification.Trainers.LbfgsMaximumEntropy(labelColumnName: "LabelKey", featureColumnName: "softmax2_pre_activation"))
                           .Append(mlContext.Transforms.Conversion.MapKeyToValue("PredictedLabelValue", "PredictedLabel"))
                           .AppendCacheCheckpoint(mlContext);

            var loadImages = ImageData.ReadData(_setsPath);
            IDataView trainingData = mlContext.Data.LoadFromEnumerable<ImageData>(loadImages.train);
            ITransformer model = pipeline.Fit(trainingData);
            IDataView testData = mlContext.Data.LoadFromEnumerable<ImageData>(loadImages.test);
            IDataView predictions = model.Transform(testData);
            List<ImagePrediction> imagePredictionData = mlContext.Data.CreateEnumerable<ImagePrediction>(predictions, true).ToList();
            MulticlassClassificationMetrics metrics =
                mlContext.MulticlassClassification.Evaluate(predictions,
                  labelColumnName: "LabelKey",
                  predictedLabelColumnName: "PredictedLabel");
            schema = trainingData.Schema;
            return metrics.LogLoss;
        }

Разберем по порядку:

IEstimator<ITransformer> pipeline = mlContext.Transforms.LoadImages(outputColumnName: "input", imageFolder: "", inputColumnName: nameof(ImageData.ImagePath))
     .Append(mlContext.Transforms.ResizeImages(outputColumnName: "input", imageWidth: InceptionSettings.ImageWidth, imageHeight: InceptionSettings.ImageHeight, inputColumnName: "input"))
     .Append(mlContext.Transforms.ExtractPixels(outputColumnName: "input", interleavePixelColors: InceptionSettings.ChannelsLast, offsetImage: InceptionSettings.Mean))

Создаем пайплайн. Добавляем загрузку, изменение размера и извлечение пикселей из изображений:

.Append(mlContext.Model.LoadTensorFlowModel(_inceptionTensorFlowModel).
    ScoreTensorFlowModel(outputColumnNames: new[] { "softmax2_pre_activation" }, inputColumnNames: new[] { "input" }, addBatchDimensionInput: true))

Применение входных данных к модели глубокого обучения и формирование выходных данных с помощью модели называется оценкой. Добавляем в пайплайн модель по пути, заданному раннее и оцениваем модель:

.Append(mlContext.Transforms.Conversion.MapValueToKey(outputColumnName: "LabelKey", inputColumnName: "Label"))

Для работы моделей ml.net, метки должны быть в формате ключей, которые являются целочисленными значениями.

Добавляем алгоритм классификации:

.Append(mlContext.MulticlassClassification.Trainers.LbfgsMaximumEntropy(labelColumnName: "LabelKey", featureColumnName: "softmax2_pre_activation"))

И средство преобразования ключей обратно в строку:

.Append(mlContext.Transforms.Conversion.MapKeyToValue("PredictedLabelValue", "PredictedLabel"))
.AppendCacheCheckpoint(mlContext);

Теперь остальная часть метода:

var loadImages = ImageData.ReadData(_setsPath);
            IDataView trainingData = mlContext.Data.LoadFromEnumerable<ImageData>(loadImages.train);
            model = pipeline.Fit(trainingData);

Данный отрезок отвечает за получение данных, их загрузку и обучение модели.

						IDataView testData = mlContext.Data.LoadFromEnumerable<ImageData>(loadImages.test);
            IDataView predictions = model.Transform(testData);
            List<ImagePrediction> imagePredictionData = mlContext.Data.CreateEnumerable<ImagePrediction>(predictions, true).ToList();
            MulticlassClassificationMetrics metrics =
                mlContext.MulticlassClassification.Evaluate(predictions,
                  labelColumnName: "LabelKey",
                  predictedLabelColumnName: "PredictedLabel");

Сначала мы загружаем наш тестовый сет. Далее трансформируем его и пытаемся классифицировать. После чего, этот "классифицированный" список используем для оценки точности модели.

            schema = trainingData.Schema;
            return metrics.LogLoss;

Записываем схему данных в переменную класса и возвращаем LogLoss(метрика точности модели).

Наконец метод обучения модели готов, осталось только собрать все в одну кучу.

Сразу же создадим метод, которым будем сохранять модель на диске, чтобы её можно было в дальнейшем использовать:

  public void SaveModel() => mlContext.Model.Save(model, schema, Path.Combine(_setsPath, modelName));

И после добавим публичный метод, которым мы сразу и учим, и сохраняем модель:

    public void FitModel()
    {
        var LogLoss = TrainModel();
        Console.WriteLine($"LogLoss is {LogLoss}");
        SaveModel();
    }

Можно было после обучения сразу же сохранять модель, но данный метод удобнее будет расширить, если будет желание переучивать модель, записывать лог лосс и сохранять в том случае, если точность выше, а не ниже.

Теперь мы готовы к тому, чтобы обучить модель, но я рекомендую дописать возможность произвольной классификации одного изображения, чтобы модель было удобно использовать после обучения.

Под переменными класса добавим сам классификатор:

    private PredictionEngine<ImageData, ImagePrediction> predictor;

А теперь и метод, который его будет использовать(+ сразу же и загрузка модели):

        public ImagePrediction ClassifySingleImage(string filePath)
        {
            if (model == null)
                LoadModel();
            if (predictor == null)
                predictor = mlContext.Model.CreatePredictionEngine<ImageData, ImagePrediction>(model);
            var imageData = new ImageData()
            {
                ImagePath = filePath
            };
            return predictor.Predict(imageData);
        }
        public void LoadModel() =>
            model = mlContext.Model.Load(Path.Combine(_setsPath, modelName), out schema);

Теперь мы можем свободно использовать данный класс как для обучения, так и для классификации изображений.

Для демострации работы, я добавил в проект приложение консольного типа и написал такой код:

 static void Main(string[] args)
        {
            Console.ForegroundColor = ConsoleColor.White;
            Stopwatch s = new Stopwatch();
            s.Start();

            Model model = new Model(@"C:\tensorflow_inception_graph.pb");
            model.FitModel();
            Console.WriteLine($"##### Model train ended for {s.Elapsed.Minutes}:{s.Elapsed.Seconds} #####");

            s.Restart();

            var res1 = model.ClassifySingleImage(@"C:\EugRqKFXUAYMTWz.jpg");
            Console.WriteLine($" > It's trash. Classification result is {res1.PredictedLabelValue} with score: {res1.Score.Max()}");
            Console.WriteLine($"##### Ended for {s.Elapsed.Minutes}:{s.Elapsed.Seconds} #####");

            s.Restart();

            var res2 = model.ClassifySingleImage(@"C:\EvpmOjIXcAMgj5r.jpg");
            Console.WriteLine($" > It's girl. Classification result is {res2.PredictedLabelValue} with score: {res1.Score.Max()}");
            Console.WriteLine($"##### Ended for {s.Elapsed.Minutes}:{s.Elapsed.Seconds} #####");
        }

Выбранные изображения

И получил такие результаты:

Несмотря на достаточно слабые метрики (я все таки использовал для тестов 20 изображений): 0.55, но модель отлично справилась со своими задачами. Именно такую модель, я использую для своего nsfw-бота, который получает данные из твиттера, а потом классифицирует и постит их.

Так что достаточно не сложно обучить модель и добавить в свой проект, главное желание разобраться. И никогда не стоит останавливаться в том, чтобы учиться чему-то новому.

P.s. ссылка на сеты

Комментарии (62)

granvi
20.03.2021 04:26
#22827690
Data Silence & Doctor Collector
1. WondeRu
  20.03.2021 09:16
  #22827914
  +1
  А мне опечатка зашла: потянуло на философию.
1. tweekaz Автор
  20.03.2021 11:55
  #22828232
  Простите, я писал ночью и просто не заметил: (

WondeRu
20.03.2021 09:17
#22827916
+2
Оффтоп: а может ли алгоритм отличить, является ли девушка бревном?
1. S_A
  20.03.2021 09:22
  #22827928
  (мечтательно) вот бы мог взяться за разметку датасета на 500 сэмплов.
  
  но сначала фичи осмотреть следовало бы)
  1. thatsme
    20.03.2021 11:22
    #22828152
    Меня тоже расстроило отсутствие датасетов в статье. Вообще, как-то слабовато оформлено…
    
    tweekaz Автор
    20.03.2021 11:55
    #22828236
    Добавил датасеты )
    
    Sabin
    20.03.2021 13:05
    #22828426
    +1
    Вы разрешили доступ к ним только по запросу, а не всем владельцам ссылки
    
    tweekaz Автор
    20.03.2021 17:53
    #22829174
    Исправил
1. tweekaz Автор
  20.03.2021 11:56
  #22828240
  Такой — точно нет ;)

dataman
20.03.2021 09:23
#22827932
+2
скурпулезно

Обучение было неглубоким?
1. tweekaz Автор
  20.03.2021 11:56
  #22828242
  Русский не родной язык, так что допустил несколько ошибок. Исправлены все, на которые указало сообщество.

santa324
20.03.2021 09:25
#22827938
+4
А девочки то где?

da-nie
20.03.2021 10:00
#22827986
Хех. Вот вам свёрточная нейронка безо всяких библиотек (на Си++), которая этих самых девочек (в стиле «ню») раскидает с вероятностью около 85% по четырём категориям. На «не-девочках» результат непредсказуем. :) Исходные jpg помещаются в папку Input. Результат будет в папке Output. Для работы требуется CUDA.
1. tweekaz Автор
  20.03.2021 12:01
  #22828250
  Видите, пошли ограничения: требуется CUDA.
  Мой пример работает почти на любой машине, даже без GPU, которjй, кстати, у меня нет. Да, потребуется .net, но это намного проще, чем купить видеокарту в наше бурное время )
  1. da-nie
    20.03.2021 12:42
    #22828378
    Это устраняется. :) Всё дело просто в том, что блок прямого прохода сети взят напрямую из обучалки с CUDA. Но в реальности там довольно нересурсоёмкие операции и можно убрать CUDA, оставив обычный CPU — разницу в данном случае никто и не заметит.

nullptr
20.03.2021 13:17
#22828434
Статья терпимая, но автор персоналия жалковатая — такие-то потуги с передовыми технологиями и прочим датасоенсом ради того, что бы заперевшись к комнате втихоря смотреть твиттерных шмар.

Лучше б волшебными понями инетерсовался, ей богу.
1. da-nie
  20.03.2021 15:01
  #22828718
  Лучше б волшебными понями инетерсовался, ей богу.
  
  Так это уже зоофилия какая-то будет тогда. :)
  1. nullptr
    20.03.2021 15:22
    #22828774
    Ой, давайте не будем вскрывать эту тему.
    А то мы же молодые, шутливые, нам все легко.
    
    da-nie
    20.03.2021 15:31
    #22828800
    Не знаю, не знаю, дочки этот мультфильм не выделили — ещё один в большом ряду мультиков. Да и я что-то не оценил. Староват, наверное.
    А в песенку на телефончике «милые пони...» хочется вставить "… двинули кони". :)
    
    nullptr
    20.03.2021 16:29
    #22828956
    Вы, скорее всего, просто пропустили тренд когда от этих поней в интернете было не протолкнуться. В основном ими увлеклаись как раз таки «двадцатилетние бородатые юноши, просиживающие молодость у компа в интернетах» — я думаю, вы понимаете типаж.
    
    Там тоже технические статьи с участием поней писались, даже целый язык программирования запилили и много еще всякого.
    
    Но пони это еще куда ни шло, а вот строчить целого бота с мошын ленингом ради каких-то аттеншенвхор — это уже перебор, за такое в порядочных обществах могут и симпом назвать.
    
    Подводя итог, ранньчче бородатые юноши были лучче, зумерки нонеча совсем берега потеряли.
    
    da-nie
    20.03.2021 16:48
    #22829004
    Я, наверное, не хожу туда, где этот тренд и был. :)
    
    двадцатилетние бородатые юноши, просиживающие молодость у компа в интернетах»
    
    А, ну тогда всё в порядке. Мне-то 37. :)
    
    а вот строчить целого бота с мошын ленингом ради каких-то аттеншенвхор
    
    А пуркуа бы да не па? :)
    
    nullptr
    20.03.2021 21:24
    #22829782
    Да я и не о вас говорил. :)
    
    thatsme
    21.03.2021 07:39
    #22830556
    +1
    Почему вы решили, что кто-то должен за вас делать, то что интересно вам. Хотите поней, обрабатывайте их сами.
    
    Chamie
    21.03.2021 19:05
    #22831790
    А, ну тогда всё в порядке. Мне-то 37. :)
    Так это 11 лет назад и началось…
    
    da-nie
    21.03.2021 19:17
    #22831820
    Я как-то мимо прошёл. :)
    
    Chamie
    21.03.2021 19:08
    #22831800
    А в песенку на телефончике «милые пони...» хочется вставить "… двинули кони". :)
    А, всё понятно — вы русский перевод смотрели. От него, помнится, всё комьюнити бомбило, когда он вышел, потому что всё, что можно, включая овер 9000 «говорящих» имён уже краудсорсом на тот момент придумали, как перевести нормально, а «оффициалы» просто закинули текст в Гугл-транслейт. Бомбёжка была такая, что даже до меня долетело, хотя я к «брони» никак не относился.
    
    da-nie
    21.03.2021 19:16
    #22831818
    Ну как бы и сейчас на Карусели идут эти пони. :) Я их вынужден смотреть. :)
    А эта песенка на детской игрушке-телефончике.
1. tweekaz Автор
  20.03.2021 18:16
  #22829240
  Я сначала думал проигнорировать, но все же...)
  Напишите лучше. Вот просто возьмите и напишите. А рассуждать о моей персоне — это не ваше дело.
  Если я захочу — я буду рассматривать твиттерных в закрытой комнате. Если не захочу — не буду.
  
  Качество моей статьи — рассудит сообщество.
  Как и Вас.
  1. nullptr
    20.03.2021 18:23
    #22829262
    Напишите лучше.
    
    А, вам в районе 16-ти. Тогда ничего, эта ваша фиксация скоро пройдет.
    
    tweekaz Автор
    20.03.2021 21:55
    #22829874
    +9
    За свои скромные 25 лет, я закончил школу, отслужил, бросил две вышки и это научило меня тому, что если человек переходит на личности — это лишь обычный тролль, который пытается развести демагогию.
    Но я все же попытался отнестись к этому более критично и разобраться в ситуации: кто же этот nullptr? Может мне имеет смысл принять его мнение во внимание?
    Публикация лишь одна. В 2012 году, за которую, по-факту, и пригласили на хабр.
    Статья не имеет особой ценности для программистов — это личностные рассуждения на тему того, стоит ли обучать программированию в школах. Она вызвала бурное обсуждение и Вы были приглашены на данный сайт.
    Но моему сожалению, за эти славные 9 лет Вы не осилили прочитать такую вещь, как правила сайта. О да, они тут есть. Кстати, Вы их нарушили, но речь пойдет не об этом.
    Когда я не нашел Ваши публикации, я пошел к Вам в комментарии, чтобы понять, какую же пользу Вы приносите сообществу вообще, если Вы не готовы предоставь часть своих знаний в текстовом виде, чтобы могли чему-то научиться, что-то обсудить или что-либо другое, ради чего мы тут и сидим. И оказалось, прочитав первую страницу Ваших комментариев, что… Вы просто критик. Вам почти все не нравится, Вы способны только разводить демагогию и ссоры; Вы не несете пользу сообществу, а лишь пытаетесь испортить настроение. Ах ну да, ещё такие комментарии, я не могу их проигнорировать:
    
    Статья и мысль интересная, пишите еще!
    
    Отвечу Вам на комментарий от 24 февраля 2021 года:
    
    Хабр это уже давно не технический ресурс а айтишная пикабушечка, на которой интересно холиварить в постах про угон Миг-25 в Японию да раз в сто лет читать чо там у сишарпов. Это в принципе неплохо — обсуждения интересные, но на хорошую техническую статью на Хабре обычно попадаешь через поиск в гугле, а не в новостной ленте самого Хабра.
    
    Начните с себя.
    Возьмите и напишите техническую статью. Ведь, если верить Вашим комментариям, Вы вполне образованный человек, который способен создать шедевр технического текста.
    А до тех пор, я буду просто Вас игнорировать, как обычного ворчливого деда, который потратил всю жизнь на то, что ненавидел, а потом возненавидел себя. И теперь его задача — выплеснуть это все на других, чтобы оно окончательно не сожрало тебя изнутри.
    
    nullptr
    21.03.2021 00:13
    #22830208
    -6
    Весьма польщен таким вниманием к моей… персоне. Рад, что мой пост вызвал такой бурный и эмоциональный откли
    
    А теперь без клоунады.
    
    Неуместно строить техническую статью исключительно вокруг удовлетворения сексуальных потребностей, тем более таких, которые могут выставить автора и его аудиторию в несколько негативном свете. Это уровень желтых журнальчиков вроде каких-нибудь «Тайн звезд».
    
    Тут не столько вопрос морали или там еще какого пуританизма (Господи упаси!), сколько просто вкуса. О нем, конечно, не спорят, но мух надо все-таки отделять от котлет.
    
    Что касается «начните с себя», то, не отрицая наличия в этом рационального зерна, рекомендую к прочтению бессмертную классику.
    
    invasy
    22.03.2021 14:23
    #22834182
    Статью строить не уместно, а компанию уместно будет? PornHub какой-нибудь, с высоконагруженными распределёнными системами и порноактрисами. Где там мухи и котлеты?
1. Acuna
  21.03.2021 19:57
  #22831902
  Чем пони, которых вы всем показали лучше чем «втихоря смотреть твиттерных шмар»? Как-бы садистские наклонности это не гуд, а особенно считать что это лучше.

Nehc
20.03.2021 14:13
#22828590
Эх! ;) Обидно…

Увидел в одном заголовке C# и ML — думал сейчас как начну в Unity прикручивать нейронки направо и налево… Ан нет! С 2018-го года вопросы подвисли (раз, два), а решения нативного так и нет… Только через сокеты с отдельным приложением народ изголяется… Жизнь-боль! ;)

Но вообще все равно интересно! Не знаю как обучать (вроде как в Python привычнее), а вот готовое решение выкатывать — вполне вариант.

Если что:
1. torch.onnx.export
2. mlContext.Transforms.ApplyOnnxModel

DeXPeriX
20.03.2021 14:34
#22828644
Хм. Тема интересует. А возможно ли обучение сделать на Питоне, а в C# потом только загружать веса из h5-файла и использовать уже обученную нейронку?
1. Nehc
  20.03.2021 14:58
  #22828712
  +1
  можно через onnx же…

WhiteBlackGoose
20.03.2021 18:08
#22829214
Попытался в спойлер вставить код, после чего у меня полностью зависла вкладка браузера
Тоже такое было. Маякнул техподдержке, те не смогли воспроизвести. Если вы можете, может, сообщите им?
1. tweekaz Автор
  20.03.2021 18:12
  #22829224
  Я попробую ближе к вечеру сделать.
  Вообще, открытая вкладка забирала около 30% процессора, что не есть нормально.

kogemrka
20.03.2021 19:43
#22829504
0.55 — это accuracy?
1. tweekaz Автор
  20.03.2021 21:12
  #22829738
  LogLoss

Politura
20.03.2021 21:13
#22829744
-2
Не понял из статьи, где же альтернатива Питону? ML.NET это всего лишь фреймворк, а Питон победил не потому-что, что под него есть фреймворки, а потому-что под него есть ноутбуки вроде Jupyter, или гугловский кодлаб: colab.research.google.com где в одну строчку загружаются данные, тут-же анализируются, с различными графиками, таблицами, трансформируются по всякому ну и обучение с анализом результатов это только часть работы.
Вот когда ноутбуки будут поддерживать дотнет, или кто-нибудь запилит подобный ноутбук под дотнет, тогда и можно будет говорить о то, что кто-то там решил поспорить с питоном.
1. vabka
  21.03.2021 02:39
  #22830404
  Так есть же ноутбук)
  Называется dotnet-interactive.
  И в Юпитере и в vscode поддержка есть.
  Про гугловый кодлаб не в курсе, но думаю и с этим можно что-то придумать1
1. egorozh
  21.03.2021 12:55
  #22831058
  На всякий случай приложу ссылку на офф. репу, где можно посмотреть примеры notebook'ов на .net, в которых есть всё, о чём вы говорите)

nlinker
20.03.2021 22:10
#22829896
Безотносительно девочек всё же не оставляет вопрос "зачем?", в смысле зачем переписывать пайплайн на заведомо более тжеловесный и шумный язык? Понятно, что питон неидеален, и его попытки заменить тоже пока неубедительны (julia, swift), но хоть какое-то преимущество должно же быть достигнуто по сравнению с каким-то решением по-умолчанию, на мой взгляд. Или я что-то не увидел?
1. tweekaz Автор
  20.03.2021 22:29
  #22829958
  Никто не говорит, что нужно заменять питон.
  ML.NET — скорее инструмент для dotnet-программистов, не больше.

silentfobos
20.03.2021 22:12
#22829908
Может немного оффтоп, но так сходу не нашел в ml.net возможности постоянно дообучать модель в процессе работы приложения
1. tweekaz Автор
  20.03.2021 22:27
  #22829948
  docs.microsoft.com/ru-ru/dotnet/machine-learning/how-to-guides/retrain-model-ml-net
  
  Это вполне не оффтоп, а дельный вопрос. Действительно, там нет хорошей инструкции по дообучению.
  Лишь та, на которую я дал ссылку выше.
  1. silentfobos
    20.03.2021 22:31
    #22829964
    Если вдруг кто найдет, буду благодарен ответу!)
    Ещё интересено было бы поэкспериментировать с генеративными сетями, надеюсь и это появится в ml.net
    
    GennPen
    20.03.2021 23:53
    #22830164
    +1
    Так по ссылке в разделе «Переобучение модели».
    На сколько понял, это и есть дообучение.
    
    Единственное отличие заключается в том, что метод Fit, помимо данных, принимает в качестве входных данных параметры обученной модели и использует их как отправную точку в процессе переобучения.
    
    ArtemidasMaster
    24.03.2021 22:27
    #22844362
    docs.microsoft.com/ru-ru/dotnet/machine-learning/how-to-guides/retrain-model-ml-net
    
    Retrain в даный момент работает только на ограниченном кол-ве тренеров. В ссылке есть список и в нем нет тренера для мультиклассификации изображений. Нужно искать выход самому
1. lostmsu
  22.03.2021 04:32
  #22832710
  Немного порекламируюсь: www.nuget.org/packages/LostTech.TensorFlow
  
  Можно делать всё, что делает обычный TensorFlow (но надо паковать питон с программой или он должен стоять у пользователя).
  1. tweekaz Автор
    22.03.2021 14:24
    #22834192
    Рекомендую написать статью об этом.
    Было бы интересно почитать формате статьи ;)
    
    lostmsu
    22.03.2021 22:36
    #22836100
    +1
    Так уже есть пара на хабре и несколько в отдельном блоге (все на английском):
    
    .NET, TensorFlow, and the windmills of Kaggle — the journey begins (простейшие вещи)
    Writing billion songs with C# and Deep Learning (GPT-2)
    Блог проекта (RL в Unity, CNNs, скоро ещё будет SIREN)

gaba_m
20.03.2021 23:58
#22830176
К сожалению, мир машинного обучения принадлежит python.
Он давно закрепился, как рабочий язык для Data Science, но Microsoft решила поспорить и представила свой инструмент, который легко можно интегрировать с экосистемой, которой сейчас пользуется весь мир.

Очень не хочу показаться невоспитанным, но не понятно, почему к сожалению, особенно учитывая то, что от этой «экосистемы», которой пользуется весь мир, уже немного подташнивает, начиная с сайта, на котором черт ногу сломит и заканчивая требованиями учетной записи на каждый чих и последними обновлениями до синего экрана. Но это просто ворчание, безотносительно к теме статьи.
1. tweekaz Автор
  20.03.2021 23:58
  #22830178
  Было бы интересно узнать Ваше мнение подробнее )

bluetooth
21.03.2021 13:20
#22831126
"Канал в Telegram", или, если уже очень хочется на русском, "канал в Телеграме".

virtual_hack2root
21.03.2021 20:19
#22831938
+1
А почему не на Python?
1. tweekaz Автор
  22.03.2021 14:25
  #22834194
  Все просто, я люблю писать на C#.
  Питон хорошая штука — но мне нравится именно шарп ;)

OnvogSGN
21.03.2021 22:50
#22832262
Я в подростковом возрасте очень хотел, чтобы у меня был прикольный бот, где я могу смотреть на девочек, который не будет забит рекламой под завязку, а просто фото и все
Ничо не понял. Просто смотреть фото «девочек» (совершеннолетние, надеюсь, имеются в виду)? Любых, в любом виде? А бот зачем для этого? Остального интернета не хватало? Да и термин «бот» во времена вашей подростковости совсем другое означал
1. tweekaz Автор
  22.03.2021 14:32
  #22834248
  Несовершеннолетних отсеивает другая сетка и сразу же удаляет с ПК.
  Мне нравится формат канала — просто каждые 30 минут прилетает новое фото. Остальной интернет — это куча рекламы, жесткая цензура(сложно найти кого-то, кто не 90-60-90) или же это платно.
  А тут огромный источник фото, который можно свободно использовать, но неудобно смотреть.
  Вот поэтому я и сделал это так, как сделал ;)

pomponchik
22.03.2021 14:25
#22834196
+1
Я сюда зашел, чтобы посмотреть на девочек, а тут какие-то коды.

Посмотрим на девочек? Или ml.net в работе +31

Сбор данных

Обучение модели

Комментарии (62)

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор

tweekaz Автор