Формульный движок с обратной польской нотацией на JavaScript / forpes.ru

Главная
Формульный движок с обратной польской нотацией на JavaScript

Формульный движок с обратной польской нотацией на JavaScript +1

26.07.2020 12:36

leossnet 45 1700 Источник

Имеющиеся реализации расчетных движков на обратной польской нотации, которые можно найти в интернете, всем хороши, только вот не поддерживают функции, такие как round(), max(arg1; arg2, …) или if(условие; истина; ложь), что делает такие движки бесполезными с практической точки зрения. В статье представлена реализация формульного движка на обратной польской нотации, поддерживающего Excel-подобные формулы, который написан на чистом JavaScript в объектно-ориентированном стиле.

Следующий код демонстрирует возможности движка:

const formula = "if( 1; round(10,2); 2*10)";
const formula1 = "round2(15.542 + 0.5)";
const formula2 = "max(2*15; 10; 20)";
const formula3 = "min(2; 10; 20)";
const formula4 = "round4(random()*10)";
const formula5 = "if ( max(0;10) ; 10*5 ; 15 ) ";
const formula6 = "sum(2*15; 10; 20)";

const calculator = new Calculator(null);
console.log(formula+" = "+calculator.calc(formula));    // if( 1; round(10,2); 2*10) = 10
console.log(formula1+" = "+calculator.calc(formula1));  // round2(15.542 + 0.5) = 16.04
console.log(formula2+" = "+calculator.calc(formula2));  // max(2*15; 10; 20) = 30 
console.log(formula3+" = "+calculator.calc(formula3));  // min(2; 10; 20) = 2
console.log(formula4+" = "+calculator.calc(formula4));  // round4(random()*10) = 5.8235
console.log(formula5+" = "+calculator.calc(formula5));  // if ( max(0;10) ; 10*5 ; 15 )  = 50
console.log(formula6+" = "+calculator.calc(formula6));  // sum(2*15; 10; 20) = 60

До начала описания архитектуры формульного движка необходимо сделать несколько замечаний:

Объект Calculator в качестве аргумента может принимать источник данных ячеек электронных таблицы в виде Map, в котором ключом выступает имя ячейки в формате А1, а значением – единичный токен или массив объектов токенов, на которые разбирается строка формул при ее создании. В данном примере в формулах не используются ячейки, поэтому источник данных указан как null.
Функции пишутся в формате [имя_функции]([аргумент1]; [аргумент2]; …).
Пробелы при написании формул не учитываются – при разбиении строки формул на токены все пробельные символы предварительно удаляются.
Десятичную часть числа можно разделять как точкой, так и запятой – при разбиении строки формул на токены десятичная запятая преобразуется в точку.
Деление на 0 дает в результате 0, так как в прикладных расчетах в ситуациях возможного деления на 0 подставляется функция [если ( делитель != 0; делимое/делитель; 0)]

Про саму польскую нотацию в интернете можно найти довольно много материалов, поэтому лучше сразу начать с описания кода. Сам исходный текст формульного движка размещен по адресу https://github.com/leossnet/bizcalc под лицензией MIT в разделе /js/data и включает в себя файлы calculator.js и token.js. Попробовать расчетчик сразу в деле можно по адресу bizcalc.ru.

Итак, начнем с типов токенов, которые сосредоточены в объекте Types:

const Types = {
    Cell: "cell" ,
    Number: "number" ,
    Operator: "operator" ,
    Function: "function",
    LeftBracket: "left bracket" , 
    RightBracket: "right bracket",
    Semicolon: "semicolon",
    Text: "text"
};

По сравнению с типовыми реализациями движков добавлены следующие типы:

Cell: «cell» – имя ячейки электронной таблицы, которая может содержать текст, число или формулу;
Function: «function» – функция;
Semicolon: «semicolon» – разделитель аргументов функции, в данном случае «;»;
Text: «text» – текст, который игнорируется расчетным движком.

Как и в любом другом движке реализована поддержка пяти основных операторов:

const Operators = {
    ["+"]: { priority: 1, calc: (a, b) => a + b },  // сложение
    ["-"]: { priority: 1, calc: (a, b) => a - b },  //вычитание
    ["*"]: { priority: 2, calc: (a, b) => a * b },  // умножение
    ["/"]: { priority: 2, calc: (a, b) => a / b },  // деление
    ["^"]: { priority: 3, calc: (a, b) => Math.pow(a, b) }, // возведение в степень
};

Для тестирования движка настроены следующие функции (список функций может быть расширен):

const Functions = {
    ["random"]: {priority: 4, calc: () => Math.random() }, // случайное число
    ["round"]:  {priority: 4, calc: (a) => Math.round(a) },  // округление до целого
    ["round1"]: {priority: 4, calc: (a) => Math.round(a * 10) / 10 },
    ["round2"]: {priority: 4, calc: (a) => Math.round(a * 100) / 100 },
    ["round3"]: {priority: 4, calc: (a) => Math.round(a * 1000) / 1000 },
    ["round4"]: {priority: 4, calc: (a) => Math.round(a * 10000) / 10000 },
    ["sum"]:    {priority: 4, calc: (...args) => args.reduce( (sum, current) => sum + current, 0) },
    ["min"]:    {priority: 4, calc: (...args) => Math.min(...args) }, 
    ["max"]:    {priority: 4, calc: (...args) => Math.max(...args) },
    ["if"]:     {priority: 4, calc: (...args) => args[0] ? args[1] : (args[2] ? args[2] : 0) }
};

Думаю, что приведенный код говорит сам за себя. Далее рассмотрим код класса токена:

class Token {

    // строка разделителей вида "+-*/^();""
    static separators = Object.keys(Operators).join("")+"();"; 
    // шаблон разделителей вида "[\+\-\*\/\^\(\)\;]"
    static sepPattern = `[${Token.escape(Token.separators)}]`; 
    // шаблон функций вида "random|round|...|sum|min|max|if"
    static funcPattern = new RegExp(`${Object.keys(Functions).join("|").toLowerCase()}`, "g");

    #type;
    #value;
    #calc;
    #priority;


    /**
     * Конструктор токена, которому передаются в качестве аргументов тип и значение токена, 
     * а прочие параметры устанавливаются в зависимости от типа
     */
    constructor(type, value){
        this.#type = type;
        this.#value = value;
        if ( type === Types.Operator ) {
            this.#calc = Operators[value].calc;
            this.#priority = Operators[value].priority;
        }
        else if ( type === Types.Function ) {
            this.#calc = Functions[value].calc;
            this.#priority = Functions[value].priority;
        }
    }

    /**
     * Реализация геттеров для приватных полей класса
     */

    /**
     * Разбирает формулу на токены 
     * @param {String} formula - строка с формулой
     */
    static getTokens(formula){
        let tokens = [];
        let tokenCodes = formula.replace(/\s+/g, "") // очистка от пробельных символов
            .replace(/(?<=\d+),(?=\d+)/g, ".") // заменяет запятую на точку (для чисел)
            .replace(/^\-/g, "0-") // подставляет отсутсующий 0 для знака "-" в начале строки
            .replace(/\(\-/g, "(0-") // подставляет отсутсующий 0 для знака "-" в середине строки
            .replace(new RegExp (Token.sepPattern, "g"), "&$&&") // вставка знака & перед разделителями
            .split("&")  // разбиение на токены по символу &
            .filter(item => item != ""); // удаление из массива пустых элементов
        
        tokenCodes.forEach(function (tokenCode){
            if ( tokenCode in Operators ) 
                tokens.push( new Token ( Types.Operator, tokenCode ));
            else if ( tokenCode === "(" )  
                tokens.push ( new Token ( Types.LeftBracket, tokenCode ));
            else if ( tokenCode === ")" ) 
                tokens.push ( new Token ( Types.RightBracket, tokenCode ));
            else if ( tokenCode === ";" ) 
                tokens.push ( new Token ( Types.Semicolon, tokenCode ));
            else if ( tokenCode.toLowerCase().match( Token.funcPattern ) !== null  )
                tokens.push ( new Token ( Types.Function, tokenCode.toLowerCase() ));
            else if ( tokenCode.match(/^\d+[.]?\d*/g) !== null ) 
                tokens.push ( new Token ( Types.Number, Number(tokenCode) )); 
            else if ( tokenCode.match(/^[A-Z]+[0-9]+/g) !== null )
                tokens.push ( new Token ( Types.Cell, tokenCode ));
        });
        return tokens;
    }

    /**
     * Экранирование обратным слешем специальных символов
     * @param {String} str 
     */    
    static escape(str) {
        return str.replace(/[-\/\\^$*+?.()|[\]{}]/g, '\\$&');
	}    
}

Класс Token представляет собой контейнер для хранения неделимых текстовых единиц, на которые разбивается строка формул, каждый из которых несет определенную функциональность.

Конструктор класса Token в качестве аргумента принимает тип токена из полей объекта Types, а в качестве значения – неделимую текстовую единицу, выделенную из формульную строки.
Внутренние приватные поля класса Token, хранящие значение приоритета и вычисляемого выражения, определяются в конструкторе на основании значений объектов Operators и Functions.

В качестве вспомогательного метода реализована статическая функция escape(str), код который взят из первой найденной страницы в интернете, экранирующая символы, которые объект RegExp воспринимает как специальные.

Самый важный метод в классе Token – это статическая функция getTokens, которая разбирает строку формул и возвращает массив объектов Token. В методе реализована небольшая хитрость – перед разбиением на токены предварительно к разделителям (операторам и круглым скобкам) добавляется символ “&”, который не используется в формулах, и только затем происходит разбиение по символу “&”.

Сама реализация метода getTokens представляет собой сравнение в цикле всех полученных токенов с шаблонами, определение типа токена, создание объекта класса Token и добавление его в результирующий массив.

На этом предварительная работа по подготовке вычислений завершается. Следующим этапом следуют сами вычисления, которые реализованы в классе Calculator:

class Calculator {
    #tdata;

    /**
     * Конструктор калькулятора
     * @param {Map} cells хеш ячеек, содержащих формулы или первичные значения
     */
    constructor(tableData) {
        this.#tdata = tableData;
    }

    /**
     * Расчет значения для формулы
     * @param {Array|String} formula - массив токенов или формула строки
     */
    calc(formula){
        let tokens = Array.isArray(formula) ? formula : Token.getTokens(formula);
        let operators = [];
        let operands = [];
        let funcs = [];
        let params = new Map();
        tokens.forEach( token => {
            switch(token.type) {
                case Types.Number : 
                    operands.push(token);
                    break;
                case Types.Cell :
                    if ( this.#tdata.isNumber(token.value) ) {
                        operands.push(this.#tdata.getNumberToken(token));
                    }
                    else if ( this.#tdata.isFormula(token.value) ) {
                        let formula = this.#tdata.getTokens(token.value);
                        operands.push(new Token(Types.Number, this.calc(formula)));
                    }
                    else {
                        operands.push(new Token(Types.Number, 0));
                    }
                    break;
                case Types.Function :
                    funcs.push(token);
                    params.set(token, []);
                    operators.push(token);             
                    break;
                case Types.Semicolon :
                    this.calcExpression(operands, operators, 1);
                    // получить имя функции из стека операторов
                    let funcToken = operators[operators.length-2];  
                    // извлечь из стека последний операнд и добавить его в параметы функции
                    params.get(funcToken).push(operands.pop());    
                    break;
                case Types.Operator :
                    this.calcExpression(operands, operators, token.priority);
                    operators.push(token);
                    break;
                case Types.LeftBracket :
                    operators.push(token);
                    break;
                case Types.RightBracket :
                    this.calcExpression(operands, operators, 1);
                    operators.pop();
                    // если последний оператор в стеке является функцией
                    if (operators.length && operators[operators.length-1].type == Types.Function ) {
                        // получить имя функции из стека операторов
                        let funcToken = operators.pop();        
                        // получить массив токенов аргументов функции
                        let funcArgs = params.get(funcToken);   
                        let paramValues = [];
                        if ( operands.length ) {
                            // добавить последний аргумент функции
                            funcArgs.push(operands.pop());     
                            // получить массив значений всех аргументов функции
                            paramValues = funcArgs.map( item => item.value ); 
                        }
                        // вычислить значение функции и положить в стек операндов
                        operands.push(this.calcFunction(funcToken.calc, ...paramValues));  
                    }
                    break;
            }
        });
        this.calcExpression(operands, operators, 0);
        return operands.pop().value; 
    }

    /**
     * Вычисление подвыражения внутри (без) скобок
     * @param {Array} operands массив операндов
     * @param {Array} operators массив операторов 
     * @param {Number} minPriority минимальный приоритет для вычисления выражения
     */
    calcExpression (operands, operators, minPriority) {
        while ( operators.length && ( operators[operators.length-1].priority ) >= minPriority ) {
            let rightOperand = operands.pop().value;
            let leftOperand = operands.pop().value;
            let operator = operators.pop();
            let result = operator.calc(leftOperand, rightOperand);
            if ( isNaN(result) || !isFinite(result) ) result = 0;
            operands.push(new Token ( Types.Number, result ));
        }
    }

    /**
     * Вычисление значений функции
     * @param {T} func - функция обработки аргументов
     * @param  {...Number} params - массив числовых значений аргументов
     */
    calcFunction(calc, ...params) {
        return new Token(Types.Number, calc(...params));
    }
}

Как и в обычном формульном движке все вычисления выполняется в основной функции calc(formula), где в качестве аргумента передается либо строка формул, либо уже готовый массив токенов. Если методу calc передается формульная строка, то она предварительно преобразуется в массив токенов.

В качестве вспомогательного метода используется метод calcExpression, который принимает в качестве аргументов стек операндов, стек операторов и минимальный приоритет операторов для вычисления выражения.

В качестве расширения обычного формульного движка реализована довольно простая функция calcFunction, которая принимает в качестве аргументов имя функции, а также произвольное число аргументов этой функции. Функция calcFunction вычисляет значение функции формулы и возвращает новый объект класса Token с числовым типом.

Для вычисления функций в рамках общего чикла вычислений к стекам операндов и операторов добавлены стек функций и Map для аргументов функции, в котором ключом выступает имя функции, а значениями – массив аргументов.

В заключении приведу пример, как можно использовать источник данных в виде хеша ячеек и их значений. Для начала определяется класс, реализующий интерфейс, который используется расчетчиком:

class Data {
    #map;
    // конструктор класса
    constructor() {
        this.#map = new Map();
    }
    // добавление ячейки и ее значения 
    add(cellName, number) {
        this.#map.set(cellName, number);
    }
    // проверка, что значение ячейки является числом, используется в Calculator.calc()
    isNumber(cellName) {
        return true;
    }
    // получение токена числового типа, используется в Calculator.calc()
    getNumberToken (token) {
        return new Token (Types.Number, this.#map.get(token.value) );
    }
}

Ну а затем все просто. Создаем источник данных, содержащий значения ячеек. Затем определяем формулу, в которой операнды представляют собой ссылки на ячейки. И в заключении производим вычисления:

let data = new Data();
data.add("A1", 1);
data.add("A2", 1.5);
data.add("A3", 2);

let formula = "round1((A1+A2)^A3)";
let calculator = new Calculator(data);

console.log(formula+" = "+calculator.calc(formula));  // round1((A1+A2)^A3) = 6.3

Спасибо за внимание.

Комментарии (45)

nin-jin
26.07.2020 15:59
#21889508
-2
Бежать по токенам в цикле и проверять что это за токены — это не очень быстро. JIT тут не сможет ничего соптимизировать. Самый быстрый метод — сгенерировать JS код и скормить его в new Function. На втором месте — для каждого подвыражения сформировать замыкание завязанное на конкретный набор подвыражений, тогда JIT сможет это неплохо оптимизировать. Пример второго подхода можно глянуть в библиотеке $mol_time, имеющей самый быстрый форматтер среди конкурентов:
1. leossnet Автор
  26.07.2020 16:10
  #21889544
  Смысл разбиения на токены заключается не в повышения скорости единоразового вычисления формулы, а в относительно медленном разбиении на токены при сохранении формулы с последующим многократным быстрым вычислением значений формулы при изменении числовых значений в ячейках, на которые есть ссылки в формуле.
  
  Кроме того, предложенные формульный движок довольно прост в реализации, не требователен к памяти, так как работает с объектами, доступ к которым осуществляется по ссылке, легко расширяем, а также не зависим от сторонних библиотек.
  1. nin-jin
    26.07.2020 16:33
    #21889642
    Так я и говорю про множественные вычисления. На одноразовых вычислениях указанные мной оптимизации только замедлят исполнение.
    
    leossnet Автор
    26.07.2020 16:52
    #21889694
    Можете привести ссылки на реализацию вычислений, а не форматирования строк?
    
    nin-jin
    26.07.2020 17:40
    #21889840
    Форматирование времени так-то содержит в себе много нетривиальных вычислений. То, что на выходе строка, а не число, сути не меняет.
    
    Ок, вот простой пример:
    
    // Фабрики выражений const Const = ( v )=> ()=> v const Arg = ( index )=> x => x[ index ] const Sum = ( a , b )=> x => a(x) + b(x) const Pow = ( a , b )=> x => a(x) ** b(x) const Square = ( a )=> Pow( a , Const(2) ) const Sqrt = ( a )=> Pow( a , Const(1/2) ) // Собираем формулу const distance = Sqrt( Sum( Square( Arg('x') ), Square( Arg('y') ), ) ) // Вычисляем формулу const result = distance({ x : 3 , y : 4 }) // 5
    
    После прогрева JIT получаем ускорение в несколько раз:
    
    nin-jin
    26.07.2020 18:02
    #21889914
    Хотя, так ещё быстрее:
    
    // Аргументы: F( X , Y ) const X = (x,y) => x const Y = (x,y) => y // Фабрики выражений const Const = ( v )=> ()=> v const Sum = ( a , b )=> (x,y) => a(x,y) + b(x,y) const Pow = ( a , b )=> (x,y) => a(x,y) ** b(x,y) const Square = ( a )=> Pow( a , Const(2) ) const Sqrt = ( a )=> Pow( a , Const(1/2) ) // Создание формулы const distance = Sqrt( Sum( Square( X ), Square( Y ), ) ) // Вычисление формулы const result = distance( 3 , 4 ) // 5
    
    leossnet Автор
    26.07.2020 18:43
    #21890024
    Видимо мы все же говорим о разных прикладных аспектах. В моем случае для вычисления значений по двум аргументам, значения которых содержатся в ячейках A1 и A2, в любой другой ячейке электронной таблицы нужно написать следующую формулу, в которую можно еще добавить округление до 2 знаков после запятой:
    
    =round2((A1^2+A2^2)^0.5)
    
    Проверить работу формулы при изменении исходных значений можно на bizcalc.ru (формулу нужно будет прописать вручную).
    
    nin-jin
    26.07.2020 19:39
    #21890184
    В результате парсинга этой формулы вы можете собрать функцию как я описал выше. А то и вообще можете позволить выполнять произвольный яваскрипт.
    
    leossnet Автор
    26.07.2020 20:49
    #21890426
    В том то и дело, что задачей движка является исключение возможности выполнения произвольного кода, а только в соответствии с формальным синтаксисом формул. При этом формулы должны быть понятны и привычны обычным пользователям Excel.
    
    nin-jin
    26.07.2020 21:17
    #21890496
    Excel между прочим поддерживает JScript.
    
    Deosis
    27.07.2020 07:58
    #21891752
    На вивальди выдается странный результат:
    
    nin-jin
    27.07.2020 11:46
    #21892584
    Там влияние непредсказуемых факторов высокое из-за простоты тестируемого кода. Я привёл максимальные значения, что смог накликать.

wyfinger
26.07.2020 17:54
#21889890
У вас реализован оператор степени.
Как правильно его реализовывать?
4^3^2= (4^3)^2= 4096
или
4^3^2= 4^(3^2)= 262144

Некоторое время назад столкнулся с таким вопросом, ответа не нашел.
1. nin-jin
  26.07.2020 18:08
  #21889928
  Лучше всего кидать ошибку, чтобы пользователь не ломал голову, а чётко дал понять свои намерения. А так, первый вариант единообразен с остальными операторами, вычисляемыми обычно слева на право. С другой стороны он имеет мало смысла, ибо (4^3)^2 проще записать как 4^(3*2).
  1. wyfinger
    27.07.2020 04:28
    #21891482
    На самом деле не понимаю, почему «наука» не договорилась о едином подходе.
    Другой вариант — убрать оператор и оставить функцию.
    Как я понял у автора понятия ошибок нет, по крайней мере 1/0=0.
    С ошибками могут быть проблемы, сейчас при вычислении if(1;2+2;3+3) считается 2+2 и 3+3, а затем if(1;4;6), если вводить понятие ошибок то какой должен быть результат при if(1;2+3;4/0), 5 или ошибка?
    
    leossnet Автор
    27.07.2020 12:30
    #21892798
    Прошу прощения, что забыл упомянуть про специфику расчетчика. Обработка выражения 1/0 эквивалентно созданию функции if ( B != 0; A/B; 0). Данную функцию приходится постоянно писать в Excel при выполнении различных отчетов, иначе таблица превращается в нагромождение сообщений об ошибках. А в специализированном экономическом программном обеспечении, используемом в нашей организации, данное умолчание используется более 10 лет, поэтому как-то и подзабыл.
    
    leossnet Автор
    27.07.2020 12:36
    #21892814
    Добавил уточнение про деление на 0 в статью.
1. leossnet Автор
  26.07.2020 18:32
  #21889996
  Так как используется единственный оператор возведения в степень, то без скобок вычисления производятся слево направо. То есть верен первый вариант 4^3^2= (4^3)^2= 4096. Сработает также вариант со скобками 4^(3^2)= 262144. Можете потестировать на bizcalc.ru.
  1. Alexandroppolus
    26.07.2020 19:20
    #21890128
    Вообще-то везде по разному направление.
    В JS, к примеру, 4**3**2 = 4**(3**2), то есть как в «степенной башне».
    
    leossnet Автор
    26.07.2020 19:28
    #21890152
    Честно говоря, только сейчас об этом узнал. В результате в Википедии нашел следующую фразу: «Иногда в компьютерных системах и языках программирования значок возведения в степень имеет левую ассоциативность, в отличие от принятого в математике соглашения о правой ассоциативности возведения в степень».
    
    С другой стороны, расчетчик предназначен для электронных таблиц и разбора Excel-подобных формул, где используется классический математический подход. Кроме того, скобки никогда лишними не бывают (в разумных количествах) — они если и не меняют последовательность расчетов, то могут повысить читаемость формул.

tzlom
27.07.2020 09:46
#21892026
+2
Это не обратная польская запись, в ней 2 + 3 записывается как 2 3 +, а скобки вообще отсутствуют.
1. leossnet Автор
  27.07.2020 11:43
  #21892560
  В представленном алгоритме реализована именно обратная польская запись, в процессе которого операнды складываются в один стек, а операторы со скобками — в другой. При этом скобки не участвуют в расчетах, а лишь определяют, когда нужно передавать стек операторов и стек операндов расчетной функции.
1. leossnet Автор
  27.07.2020 13:55
  #21893154
  Возможно, следует уточнить, что исходные формулы пишутся в привычной всем инфиксной нотации, затем они переводятся в массив токенов, и только когда этот массив токенов начинает обрабатываться функцией calc, то лишь тогда подключаются стеки. При этом, действительно, порядок токенов не приводится к постфиксному виду на отдельной стадии, а преобразуется к нему одновременно с вычислениями.
  1. tzlom
    27.07.2020 16:42
    #21893876
    хм, то есть если я возьму пример
    formula1 = "round2(15.542 + 0.5)";
    и запишу его как
    formula1 = "round2(+ 15.542 0.5)";
    то он все ещё будет работать?
    
    leossnet Автор
    27.07.2020 16:52
    #21893920
    Нет. Такое преобразование делает алгоритм, по ходу дела распихивая токены по стекам. На входе алгоритма должна быть классическая формула в инфиксной нотации.

andreyverbin
27.07.2020 11:07
#21892362
+1
Дорогой автор, а в чем смысл публикации? Ваш код демонстрирует нежизнеспособный подход и обратной польской нотацией тут не пахнет.

Ваш код это демонстрация как делать нельзя. Обычно, для решения подобных задач делают токенизатор, парсер и интерпретатор. Ваш код ломается на элементарных вещах вроде « max(1;2--2)» А когда вы начнёте его расширять, то будет вообще мрак. Чтобы не ломался нужно
- Написать лексер, вполне сойдёт лексер на регулярках. На выходе лексера поток токенов (тип токена, значение). Из лексера вылетают лексемы, синтаксические примитивы вроде «имя», «число», «точка с запятой», «строка». На данном этапе никакой семерики нет. У вас есть тип токена — function, это не верно, может быть name, но точно не function.
- Написать грамматику в виде bnf и сделать для неё LL парсер руками или сгенерировать. Сгенерировать сложнее, там нужно больше теории знать. Парсер разбирает поток токенов и выплевывает либо AST, либо код для стековой машины (та сама польская запись), либо сразу интерпретирует.
Кода будет побольше на пару экранов, но все будет работать как часы. Почитайте про LL парсеры, найдите примеры, из полно онлайн. Раз вы делаете что-то вроде Excel, вам без этого никуда.
1. leossnet Автор
  27.07.2020 13:16
  #21892980
  Смысл публикации довольно прост — поделиться с сообществом своими мыслями и получить на них обратную связь. Про обратную польскую нотацию, честно говоря, не совсем понял. Вы уже второй, который не видит ее в алгоритме. Вот здесь довольно много примеров реализации обратной польской нотации на стеках: https://ru.wikiversity.org/wiki/Обратная_польская_запись:_примеры реализации.
  
  Что касается обработки ошибок, то согласен, ее пока нет. На текущий момент это было сделано, чтобы упростить код для понимания, когда в него вписывал механизм работы с функциями. Технически же реализовать обработку ошибок довольно просто — в типах токенов добавляется массив ожидаемых типов токенов по ходу движения парсера, которые отслеживаются на стадии разбора формул. По скобкам еще проще — вводятся счетчики открытых и закрытых скобок.
  
  Алгоритм, который Вы предлагаете, вполне имеет право на существование. Просто я реализовал на JS свой алгоритм 20-летней давности на Java, когда еще в Java еще не было нормальной поддержки регулярных выражений, а приходилось работать с отдельными символами строки. Тем не менее, этот алгоритм вроде бы достаточно быстр, но хотелось бы получить объективную сравнительную оценку со стороны, ради которой и сделал эту публикацию.
  1. andreyverbin
    27.07.2020 14:39
    #21893350
    Обратная польская запись, (1+1), как у вас, это инфиксная запись, (1 1 +) это обратная польская запись.
    
    leossnet Автор
    27.07.2020 14:52
    #21893426
    1. Запись (1+1) превращается в два стека (в виде массивов) перед передачей ее расчетной функции calcExpression после обнаружения закрывающей скобки:
    массив операндов: [1, 1]
    массив операторов: ["(", "+"]
    2. Функция calcExpression после вычисления возвращает следующие стеки:
    массив операндов: [2]
    массив операторов: ["("]
    3. Функция calc после возврата значения функцией calcExpression выбрасывает из стека открывающую скобку, в результате чего стеки имеют следующий вид:
    массив операндов: [2]
    массив операторов: []
    4. В завершении цикла обхода токенов функция calc снимает из стека операндов последний результат, то есть 2
    
    andreyverbin
    27.07.2020 15:02
    #21893468
    Это все прекрасно и никакого отношения к обратной польской записи не имеет. ОПЗ она про запись, то есть синтаксис, а не про стеки. При разборе ОПЗ используется один стек, а у вас их уже на шаге №1 два.
    
    leossnet Автор
    27.07.2020 15:16
    #21893524
    Ошибаетесь. Обратная польская нотация — это именно про стеки. В свое время даже выпускались стековые калькуляторы, такие как ru.wikipedia.org/wiki/Электроника_МК-61, где в инструкциях примеры ввода и последующего расчета проводились именно в обратной польской нотации.
    
    leossnet Автор
    27.07.2020 14:59
    #21893454
    То есть выражение 1+2-3 будет передано на вычисление в виде двух стеков:
    массив операндов: [1, 2, 3]
    массив операторов: ["+", "-"]
    Чем не обратная польская запись?
    
    Tangeman
    27.07.2020 15:37
    #21893608
    Наверное, тем что в обратной польской записи операции идут за операндами?
    
    1 + 2 - 3 в RPN будет 1 2 + 3 - а вовсе не "массив операндов" и "массив операторов".
    
    Вы упорно продолжаете путать запись и алгоритм — первое это то с чем имеет дело пользователь, второе (ваши массивы и прочие детали) он вообще не видит (и ему всё равно).
    
    Если бы вам нужно было реализовать обработку выражений именно в RPN — то реализация алгоритма уместилась бы в двух десятках строк (но пользователи вас бы проклинали).
    
    leossnet Автор
    27.07.2020 15:55
    #21893686
    Ок. Если Вам так будет удобнее, можно назвать представленный алгоритм как стековую машину, производящую вычисления по обратной польской записи, как это сформулировано на ru.wikipedia.org/wiki/Обратная_польская_запись
    
    Tangeman
    27.07.2020 16:29
    #21893812
    В самом начале сказано же — "форма записи математических и логических выражений" — причём тут вообще алгоритмы и способы обработки?
    
    производящую вычисления по обратной польской записи
    Это значит — "производит вычисления имея на входе обратную польскую запись" — это не название алгоритма.
    
    Почему важно называть вещи правильно? Да потому что любой, знакомый с RPN и прочитав название вашей статьи решит что речь о том что выражения записаны в RPN (что, собственно, несколько человек уже и отметило).
  1. Tangeman
    27.07.2020 15:19
    #21893542
    Вы уже второй, который не видит ее в алгоритме.
    Я буду третий (наверное). Потому что, как уже чуть выше сказали, речь про "запись", да и ваша ссылка говорит о способе записи выражений, а у вас обычный инфикс. Как это реализовано внутри (стеки, регистры etc) совершенно не имеет значения с точки зрения нотации.
    
    Кстати, есть неплохая реализация разбора и вычисления выражений на JS, может вам пригодится в качестве источника идей, раз уж интересуетесь этой темой.
    
    leossnet Автор
    27.07.2020 15:36
    #21893598
    За ссылку спасибо. А вот на тему обратной польской нотации просто задайте себе вопрос — а для чего она вообще нужна, если не для обслуживания определенных структур данных. Повторюсь, но в свое время выпускались стековые калькуляторы, такие как ru.wikipedia.org/wiki/Электроника_МК-61, у которых в инструкциях для пользователей примеры вычислений приводились именно в обратной польской нотации, которая сама по себе, вне контекста стекового калькулятора, выглядела жутко неудобной и непонятной. Но вот после обуздания стекового калькулятора, на котором можно было еще и программировать, привычные всем бытовые калькуляторы выглядели палкой-копалкой на фоне экскаватора.
    
    Tangeman
    27.07.2020 16:05
    #21893724
    Она нужна для упрощения обработки выражений введённых человеком. Алгоритм который будет разбирать и обрабатывать инфиксную запись потребует гораздо больше ресурсов (памяти и кода) чем алгоритм который обрабатывает обратную польскую запись — это единственная её польза, правда, ценой того что на человека перекладывается тяжкое бремя расстановки операндов и операций в нужной последовательности.
    
    В калькуляторах (старых) были очень ограниченные ресурсы, именно по этой причине старались всё упростить — вот собственно и вся история.
    
    Вы же пытаетесь называть стековую (и то не совсем — у вас массивы, которые их эмулируют) обработку "обратной польской нотацией" — хотя стек он и есть стек, он появился до того как появилась RPN, более того, она появилась как раз по той простой причине что прекрасно "ложилась" на стековую архитектуру, а не наоборот.
    
    leossnet Автор
    27.07.2020 16:20
    #21893788
    Ну про массивы все просто. В JS в отличие от, например, Java или C#, нет стека как специально выделенной структуры данных, а его интерфейс в виде функций push и pop реализован на массиве.
    
    Кстати, в репозитории, на который Вы дали ссылку, функция evaluate также выполняется на стеке в виде массива, плюс там используются временные переменные, которых у меня нет, так как два стека передаются по ссылке в виде аргументов функции вычисления промежуточных результатов, в которой и обрабатываются. Хотя довольно интересно сравнить эту и мою реализацию на больших объемах вычислений.
    
    При этом не понятно, для чего человек должен сам переводить запись формул из инфиксной в постфиксную форму, если машина на стеках это делает просто не задумываясь?
    
    Tangeman
    27.07.2020 16:38
    #21893836
    функция evaluate также выполняется на стеке в виде массива
    Да, безусловно, почти все разборщики выражений используют стеки в том или ином виде (прямо или через массивы), но это всё не имеет ровно никакого отношения к RPN, в принципе, по причинам которые я уже описал несколько раз в других ответах.
    
    для чего человек должен сам переводить запись формул из инфиксной в постфиксную форму
    Потому что когда-то были калькуляторы (и другие вычислительные устройства) которые не понимали инфиксной формы. На самом деле они всё ещё есть, в ряде очень специфичных областей, и есть даже языки программирования с RPN записью и стековой архитектурой, к которым относится и PostScript.

wyfinger
27.07.2020 16:30
#21893814
Кажется это вариация алгоритма сортировочной станции:

"… который применяется для разбора математических выражений, представленных в инфиксной нотации. Может быть использован для получения вывода в виде обратной польской нотации или в виде абстрактного синтаксического дерева.."

Только у вас на два стека, данных и команд, хотя можно обойтись одним.
Тоже делал на два стека, тогда казалось, что так логичнее.

Все-же я не понял, это просто эксперимент или вы делаете рабочий продукт? если последнее почему не взять что-нибудь готовое и куда более мощное, хотя-бы math-js?
1. leossnet Автор
  27.07.2020 16:46
  #21893900
  Спасибо за наводку на алгоритм сортировочной станции. Что касается библиотек типа указанной Вами, то меня сильно напрягают их размеры, а также зависимости от других библиотек. С этой точки зрения работу можно назвать экспериментом на тему того, можно ли писать полнофункциональные приложения на современном чистом JS без использования сторонних библиотек. Конечно же при допущении, что поддержка старых браузеров не нужна.
  
  С другой стороны, в рамках проекта BizCalc также происходит переосмысление некоторых концепций, которые сейчас реализованы в проекте JetCalc, в котором я участвую только в части постановки и тестирования по предметной области и в части организации структуры базы данных.
1. leossnet Автор
  27.07.2020 17:12
  #21894018
  Есть еще одно соображение. При создании библиотек для широкого круга пользователей волей-неволей приходится реализовывать дополнительные уровни абстракций, которые для интерпретируемых языков являются довольно-таки узким местом, которые сказываются на производительности на больших объемах данных либо при интенсивных режимах работы.
  
  Ну и не следует упускать из внимания тот фактор, что большой объем кода потенциально может нести и большое количество уязвимостей. И то, что код открыт, совершенно не означает, что даже крутой профессионал способен быстро найти потенциальные уязвимости в таком коде.
  1. wyfinger
    27.07.2020 17:16
    #21894044
    1. думаю найдется немало куда более быстрых готовых библиотек;
    2. просто признайтесь — вам было интересно это писать, это самая важная причина из всех, какие могут быть :)
    
    leossnet Автор
    27.07.2020 17:19
    #21894050
    Кайф и коронавирус рулят.

Формульный движок с обратной польской нотацией на JavaScript +1

Комментарии (45)

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор

leossnet Автор