RU2761015C1

RU2761015C1 - Способ генерирования данных управления переключением передач, устройство управления переключением передач и система управления переключением передач

Info

Publication number: RU2761015C1
Application number: RU2021116344A
Authority: RU
Inventors: Кота ФУДЗИИ; Ацуси ТАБАТА; Коити ОКУДА; Кен ИМАМУРА; Хидеаки БУНАДЗАВА; Кеита САСАКИ
Original assignee: Тойота Дзидося Кабусики Кайся
Priority date: 2020-07-28
Filing date: 2021-06-07
Publication date: 2021-12-02
Also published as: US11236819B1; BR102021010868A2; EP3945226B1; EP3945226A1; US20220034398A1; JP2022024842A; KR20220014284A; JP7439680B2; CN114004362A

Abstract

Изобретение относится к управлению переключением передач. Способ генерирования данных управления переключением передач включает сбор данных о состоянии транспортного средства, приведение в действие трансмиссии для переключения, вычисление выгоды и обновление данных реляционного регулирования. Отображение обновления выводит данные реляционного регулирования, которые обновляются для увеличения отдачи для выгоды, в соответствии с данными реляционного регулирования. Критерий назначения выгоды определяется для комбинации значений первой и второй переменных, которые являются двумя из четырех переменных времени переключения передач, величины тепловыделения трансмиссии в течение периода переключения, величины, на которую частота вращения входного вала при переключении передаточного числа превышает опорную частоту, и величины удара, генерируемой при переключении. Сокращаются человеко-часы, необходимые эксперту при установке соответствующей взаимосвязи между состоянием транспортного средства и переменной действия. 3 н. и 8 з.п. ф-лы, 13 ил.

Description

Область техники

[0001] Настоящее изобретение относится к способу генерирования данных управления переключением передач, устройству управления переключением передач и системе управления переключением передач.

Уровень техники

[0002] Например, в публикации не прошедшей экспертизу заявки на патент Японии № 2007-64464 описано устройство управления, которое переключает передаточное число посредством управления электромагнитным клапаном, который регулирует давление масла, назначая значение команды давления масла для гидравлического масла трансмиссии.

Сущность изобретения

[0003] Чтобы установить рабочий объем для переключения передаточного числа на подходящее значение, такое как командное значение давления масла, требуются знания специалиста и большое количество человеко-часов для регулировки.

[0004] Далее будет описана конфигурация согласно настоящему изобретению и ее преимущественный эффект.

[0005] Первым аспектом настоящего изобретения является способ генерирования данных управления переключением передач, выполняемый исполнительным устройством в состоянии, в котором данные реляционного регулирования, используемые для регулирования взаимосвязи между состоянием транспортного средства и переменной действия, хранятся в устройство хранения. Переменная действия представляет собой переменную, связанную с работой трансмиссии, установленной на транспортном средстве. Способ генерирования данных управления переключением передач включает процесс сбора данных для сбора данных о состоянии транспортного средства на основе значения обнаружения датчика; рабочий процесс для приведения в действие трансмиссии для переключения передаточного числа; процесс вычисления выгоды для назначения, на основе состояния транспортного средства, полученного в процессе сбора данных, более высокой выгоды тогда, когда характеристика транспортного средства удовлетворяет критерию, чем когда характеристика не удовлетворяет указанному критерию; и процесс обновления для обновления данных реляционного регулирования путем ввода в заранее определенное отображение обновления состояния транспортного средства, полученного с помощью процесса сбора данных, значения переменной действия, используемой для работы трансмиссии, и выгоды, соответствующей работе. Отображение обновления выводит данные реляционного регулирования, которые обновляются для увеличения ожидаемой отдачи для выгоды, когда трансмиссия задействуется в соответствии с данными реляционного регулирования. Критерий, когда в процессе вычисления выгоды назначается выгода, определяется для комбинации значений первой переменной и второй переменной, которые являются двумя из четырех переменных времени переключения передач, необходимого для переключения передаточного числа, величины тепловыделения трансмиссии в течение периода переключения передаточного числа, величины, на которую частота вращения входного вала во время периода переключения передаточного числа превышает опорную частоту вращения, и величины удара, генерируемой при переключении передаточного числа.

[0006] В вышеупомянутом способе можно понять, какой тип выгоды получен за операцию передачи, путем вычисления выгоды, связанной с операцией. Затем на основе выгоды можно установить соответствующую взаимосвязь между состоянием транспортного средства и переменной действия путем обновления данных реляционного регулирования с использованием отображения обновлений в соответствии с обучением с подкреплением сигналами. Следовательно, могут быть сокращены человеко-часы, необходимые эксперту при установке соответствующей взаимосвязи между состоянием транспортного средства и переменной действия.

[0007] Однако, когда выгода назначается независимо в соответствии со значением первой переменной, представляющей один из двух требуемых элементов для переключения передаточного числа, и значением второй переменной, представляющей другой из двух требуемых элементов, обучение может выполняться так, чтобы получить высокую выгоду, игнорируя один из двух требуемых элементов и удовлетворяя другой. Следовательно, в вышеупомянутом способе вместо назначения выгоды для первой переменной и второй переменной независимо друг от друга критерий назначения выгоды определяется для комбинации их значений. В результате можно назначить высокую выгоду, когда каждый из двух требуемых элементов удовлетворяется хорошо сбалансированным образом, и, кроме того, узнать значение переменной действия, которая удовлетворяет по меньшей мере двум обязательным элементам в хорошо сбалансированном состоянии посредством обучения с подкреплением.

[0008] В первом аспекте критерий, когда выгода назначается процессом вычисления выгоды, может быть определен для комбинации значений первой переменной, второй переменной и третьей переменной, которые являются тремя из четырех переменных.

[0009] С помощью вышеупомянутого метода критерий, когда назначается выгода, определяется для комбинации значений первой, второй и третьей переменных, так что значение переменной действия, которое удовлетворяет по меньшей мере трем обязательным элементам в сбалансированном состоянии можно научиться с помощью обучения с подкреплением.

[0010] В первом аспекте, даже в комбинации, в которой значения соответствующих переменных одинаковы, процесс вычисления выгоды может включать в себя процесс изменения значения выгоды согласно по меньшей мере одной из двух переменных, которые являются переменной крутящего момента, представляющей крутящий момент, приложенный к трансмиссии, и переменной переключения, представляющей тип переключения передаточного числа.

[0011] При переключении передаточного числа требуются различные элементы, и приоритеты множества требуемых элементов могут изменяться в зависимости от величины значения переменной крутящего момента или типа переключения передач. По этой причине, когда размер выгоды одинаков для комбинации, в которой значения множества переменных, представляющих требуемые элементы, одинаковы независимо от величины значения переменной крутящего момента или типа переключения передач, может быть затруднительным получить результат обучения, который удовлетворяет требованию, имеющему высокий приоритет. Кроме того, степень затрудненности удовлетворения каждого из требуемых элементов по заранее определенному критерию может варьироваться в зависимости от значения переменной крутящего момента или типа переключения передач. По этой причине, когда размер выгоды одинаков для комбинации, где значения переменных, представляющих требуемые элементы, одинаковы, независимо от величины значения переменной крутящего момента или типа переключения передач, это может быть затруднено удовлетворение требуемым элементам. Следовательно, в приведенной выше конфигурации, изменяя выгоду, назначенную для комбинации значений вышеупомянутых переменных, в соответствии с величиной значения переменной крутящего момента или типом переключения передач, можно повысить уверенность в получении результата обучения, который удовлетворяет требуемому элементу, имеющему высокий приоритет, и обеспечить плавное продолжение обучения.

[0012] В первом аспекте запоминающее устройство может хранить данные карты, которые имеют значения по меньшей мере первой и второй переменных в качестве входных переменных и имеют значение выгоды в качестве выходной переменной. Процесс вычисления выгоды может включать в себя процесс вычисления выгоды по карте на основе значений первой и второй переменных.

[0013] С помощью вышеупомянутого метода, используя данные карты, которые имеют значения первой и второй переменных в качестве входных переменных, можно легко увеличить степень свободы для установки отношения между значениями первой и второй переменных и выгодой.

[0014] В первом аспекте информация о множестве фаз, на которые делится период переключения передаточного числа, может быть получена из данных реляционного регулирования, когда значение переменной действия определяется данными реляционного регулирования.

[0015] В вышеупомянутом способе период переключения передаточного числа может быть разделен на несколько участков из-за изменений физических явлений. Тогда значение соответствующей переменной действия может сильно отличаться для каждой отдельной секции. Следовательно, в вышеупомянутом способе, когда определяется значение переменной действия, данные реляционного регулирования используются в качестве данных, из которых делается ссылка на информацию о фазах, на которые делится период переключения передаточного числа. В результате, при изучении соответствующего значения переменной действия, поскольку трудоемкость обучения для идентификации секции из-за вариаций физических явлений сохраняется, можно найти значение переменной действия, которая увеличивает отдачу на ранней стадии обучения с подкреплением.

[0016] В первом аспекте фазы могут включать в себя фазу, которая заканчивается, когда завершается передача крутящего момента посредством элемента фрикционного зацепления. Элемент фрикционного зацепления переключается из состояния зацепления в состояние отпускания путем переключения передаточного числа трансмиссии.

[0017] Управление, которое изменяет рабочую величину трансмиссии до и после момента, когда заканчивается передача крутящего момента фрикционным элементом зацепления, который переключается из состояния зацепления в состояние отпускания путем переключения передаточного числа, имеет тенденцию приведения к оптимальному значению посредством настройки специалистом. По этой причине, предоставляя фазу, которая заканчивается по времени, накопление знаний прошлого эксперта может быть отражено в обучении с подкреплением. Таким образом, с помощью такого обучения можно найти значение переменной действия, которое фактически увеличивает отдачу на ранней стадии.

[0018] В первом аспекте переменная, представляющая состояние транспортного средства, связь которого со значением переменной действия регулируется данными реляционного регулирования, может включать в себя переменную крутящего момента, представляющую крутящий момент, прикладываемый к трансмиссии, переменную переключения, представляющую вид переключения передаточного числа, и температурную переменную, представляющую температуру гидравлического масла трансмиссии.

[0019] Соответствующее значение переменной действия для удовлетворения каждого из требуемых элементов в заданном критерии может варьироваться в зависимости от значения переменной крутящего момента, типа переключения передач или температуры гидравлического масла. По этой причине, когда значение общей переменной действия определяется для различных комбинаций переменной крутящего момента, типа переключения передач и температуры гидравлического масла, может быть затруднительным удовлетворить требуемые элементы. Следовательно, в вышеупомянутой конфигурации, включающей величину значения переменной крутящего момента, тип переключения передач или температуру гидравлического масла в состоянии для определения значения переменной действия, можно плавно продолжить обучение.

[0020] В первом аспекте переменная, представляющая состояние транспортного средства, связь которого со значением переменной действия регулируется данными реляционного регулирования, может включать в себя переменную, представляющую состояние вращения входного вала трансмиссии.

[0021] Состояние вращения входного вала в течение периода переключения передач может изменяться в зависимости от значения переменной действия в течение каждого периода переключения передач. По этой причине в вышеупомянутом способе, путем включения переменной, представляющей состояние вращения входного вала в состояние, значение переменной действия после этого может быть определено в соответствии с состоянием, сгенерированным в результате значения переменной действия до тех пор.

[0022] В первом аспекте способ генерирования данных управления переключением передач может включать в себя процесс генерирования данных отображения переключения передач, который принимает состояние транспортного средства в качестве входных данных и выводит величину работы трансмиссии, которая максимизирует ожидаемую отдачу, путем связывания состояния транспортного средства со значением переменной действия, которая максимизирует ожидаемую отдачу на основе данных реляционного регулирования, которые обновляются в процессе обновления.

[0023] В вышеупомянутом способе данные отображения переключения передач генерируются на основе данных реляционного регулирования, полученных посредством обучения с подкреплением. По этой причине, установив данные отображения переключения передач на устройство управления, можно легко установить объем работы, который максимизирует ожидаемую отдачу на основе состояния транспортного средства.

[0024] Устройство управления переключением передач согласно второму аспекту настоящего изобретения включает в себя исполнительное устройство и запоминающее устройство в способе генерирования данных управления переключением передач. Рабочий процесс является процессом управления трансмиссией для переключения передаточного числа на основе значения переменной действия, которая определяется данными реляционного регулирования и состояния транспортного средства, которое определяется процессом сбора данных.

[0025] В вышеупомянутой конфигурации значение переменной действия устанавливается на основе данных реляционного регулирования, полученных путем обучения с подкреплением, и передача управляется на основе значения, так что передача может работать так, чтобы увеличить ожидаемую выгоду.

[0026] Система управления переключением передач согласно третьему аспекту настоящего изобретения включает в себя исполнительное устройство и запоминающее устройство в способе генерирования данных управления переключением передач. Исполнительное устройство включает в себя первое исполнительное устройство, установленное на транспортном средстве, и второе исполнительное устройство, отдельное от устройства транспортного средства. Первое исполнительное устройство выполняет по меньшей мере процесс сбора данных и рабочий процесс, а второе исполнительное устройство выполняет по меньшей мере процесс обновления.

[0027] В вышеупомянутой конфигурации посредством выполнения процесса обновления вторым исполнительным устройством вычислительная нагрузка на первое исполнительное устройство может быть ниже, чем когда процесс обновления выполняется первым исполнительным устройством. Тот факт, что второе исполнительное устройство является отдельным от устройства транспортного средства, означает, что второе исполнительное устройство не является устройством, расположенным на транспортном средстве.

Краткое описание чертежей

[0028] Признаки, преимущества, а также техническая и промышленная значимость примерных вариантов осуществления изобретения будут описаны далее со ссылкой на прилагаемые чертежи, на которых одинаковыми ссылочными позициями обозначены одинаковые элементы и на которых:

Фиг. 1 - схема, иллюстрирующая устройство управления и систему привода транспортного средства согласно первому варианту осуществления;

Фиг. 2 - блок-схема, иллюстрирующая процедуру обработки, выполняемую устройством управления согласно первому варианту осуществления;

Фиг. 3 - временная диаграмма, иллюстрирующая каждую фазу периода переключения передач согласно первому варианту осуществления;

Фиг. 4 - диаграмма, иллюстрирующая данные карты значения команды давления масла согласно первому варианту осуществления;

Фиг. 5 - схема, иллюстрирующая систему, которая генерирует данные карты согласно первому варианту осуществления;

Фиг. 6 - блок-схема, иллюстрирующая процедуру обработки для генерирования данных карты согласно первому варианту осуществления;

Фиг. 7 - схема, иллюстрирующая определение переменной действия согласно первому варианту осуществления;

Фиг. 8 - блок-схема, иллюстрирующая подробную процедуру обработки обучения согласно первому варианту осуществления;

Фиг. 9 - схема, иллюстрирующая устройство управления и систему привода транспортного средства согласно второму варианту осуществления;

Фиг. 10 - блок-схема, иллюстрирующая процедуру обработки, выполняемую устройством управления согласно второму варианту осуществления;

Фиг. 11 - блок-схема, иллюстрирующая подробную процедуру обработки обучения согласно второму варианту осуществления;

Фиг. 12 - схема, иллюстрирующая конфигурацию системы согласно третьему варианту осуществления; и

Фиг. 13 A и B - соответствующие иллюстрации процедур обработки, выполняемых системой согласно третьему варианту осуществления.

Подробное описание вариантов осуществления изобретения

Первый вариант

[0029] Далее будет описан первый вариант осуществления со ссылкой на чертежи. Как показано на фиг. 1 устройство 20 разделения мощности механически соединено с коленчатым валом 12 двигателя 10 внутреннего сгорания. Устройство 20 разделения мощности разделяет мощность двигателя 10 внутреннего сгорания, первого электродвигателя-генератора 22 и второго электродвигателя-генератора 24. Устройство 20 разделения мощности включает в себя планетарный зубчатый механизм. Коленчатый вал 12 механически соединен с водилом C планетарного зубчатого механизма, вал 22a вращения первого двигателя-генератора 22 механически соединен с его солнечной шестерней S, а вал 24a вращения второго электродвигателя-генератора 24 механически соединен с кольцевой шестерней R. Выходное напряжение первого инвертора 23 подается на клеммы первого электродвигателя-генератора 22. Кроме того, выходное напряжение второго инвертора 25 подается на клеммы второго электродвигателя-генератора 24.

[0030] В дополнение к валу 24a вращения второго электродвигателя-генератора 24 ведущие колеса 30 механически соединены с коронной шестерней R устройства 20 разделения мощности через трансмиссию 26. Кроме того, ведомый вал 32a масляного насоса 32 механически соединен с водилом C. Масляный насос 32 забирает масло в масляный поддон 34 и выпускает его в виде гидравлического масла в трансмиссию 26. Гидравлическое масло, выпускаемое из масляного насоса 32, используется за счет регулирования давления с помощью контура 28 гидравлического управления в трансмиссии 26. Контур 28 гидравлического управления включает в себя множество электромагнитных клапанов 28a и регулирует состояние потока или давление гидравлического масла путем подачи питания на каждый из электромагнитных клапанов 28a. Когда давление гидравлического масла регулируется, элемент фрикционного зацепления, такой как муфты C1, C2 или тормоз B1, переключается из одного из двух состояний зацепленного состояния и отпущенного состояния в другое состояние.

[0031] Устройство 40 управления имеет двигатель 10 внутреннего сгорания в качестве объекта управления и управляет различными рабочими блоками двигателя 10 внутреннего сгорания для управления крутящим моментом, соотношением компонентов выхлопных газов и т.п., что является его величиной управления. Кроме того, устройство 40 управления имеет первый электродвигатель-генератор 22 в качестве объекта управления и управляет первым инвертором 23 для управления крутящим моментом, частотой вращения и т.п., что является их величиной управления. Кроме того, устройство 40 управления имеет второй электродвигатель-генератор 24 в качестве объекта управления и управляет вторым инвертором 25 для управления крутящим моментом, частотой вращения и т.п., что является его величиной управления.

[0032] При управлении величиной управления устройство 40 управления обращается к выходному сигналу Scr датчика 50 угла поворота коленчатого вала и выходному сигналу S_m1 первого датчика 52 угла поворота, который определяет угол поворота вала 22a вращения первого электродвигателя-генератора 22, или выходному сигналу S_m2 второго датчика 54 угла поворота, который определяет угол поворота вала 24а вращения второго электродвигателя-генератора 24. Кроме того, устройство 40 управления обращается к температуре T_oil масла, которая представляет собой температуру масла, обнаруженную датчиком 56 температуры масла, скорости SPD транспортного средства, обнаруженной датчиком 58 скорости транспортного средства, или величине ACCP работы акселератора, которая представляет собой величину нажатия педали 62 акселератора, обнаруженную датчиком 60 акселератора.

[0033] Устройство 40 управления включает в себя ЦП 42, ПЗУ 44, запоминающее устройство 46, которое является электрически перезаписываемой энергонезависимой памятью, и периферийную схему 48. Они могут взаимодействовать друг с другом через локальную сеть 49. Здесь примеры периферийной схемы 48 включают в себя схему, которая генерирует тактовый сигнал, регулирующий внутреннюю операцию, схему источника питания или схему сброса. Устройство 40 управления управляет величиной управления, когда ЦП 42 выполняет программу, хранящуюся в ПЗУ 44.

[0034] Фиг. 2 иллюстрирует процедуру обработки, выполняемую устройством 40 управления. Обработка, показанная на фиг. 2, реализуется, когда ЦП 42 многократно выполняет управляющую программу DPC, хранящуюся в ПЗУ 44, например, в заранее определенном цикле. Далее, номер этапа каждого процесса представлен числом с префиксом «S».

[0035] В серии процессов, показанных на фиг. 2, ЦП 42 сначала определяет, является ли это периодом переключения передаточного числа, то есть периодом переключения передач (S10). Затем, после определения того, что это период переключения передач (S10: ДА), ЦП 42 получает величину ACCP работы акселератора, переменную ΔV_sft переключения и температуру T_oil масла (S12). Здесь переменная переключения ΔV_sft определяет передаточные числа до и после переключения, например, переключается ли передача с первой передачи на вторую передачу или со второй передачи на первую передачу. Другими словами, она представляет собой переменную, определяющую тип переключения передач.

[0036] Затем ЦП 42 вычисляет на основе карты значение P⃰ команды давления масла, используя данные DMS карты управления переключением передач, которые хранятся в запоминающем устройстве 46, проиллюстрированном на фиг. 1 (S14). Данные карты управления переключением передач DMS содержат величину ACCP работы акселератора, переменную ΔV_sft переключения и температуру T_oil масла в качестве входных переменных и значение P⃰ команды давления масла в качестве выходной переменной. Данные карты представляют собой набор данных дискретных значений входных переменных и значений выходных переменных, соответственно соответствующих значениям входных переменных. Кроме того, при вычислении карты, например, когда значение входной переменной соответствует любому из значений входных переменных данных карты, значение соответствующей выходной переменной данных карты используется в качестве результата вычисления, тогда как когда значение входной переменной не соответствует ни одному из значений входных переменных данных карты, значение, полученное путем интерполяции значений множества выходных переменных, включенных в данные карты, используется в качестве результата вычисления.

[0037] Здесь значение P⃰ команды управления давлением масла представляет собой значение команды давления масла, регулируемое электромагнитным клапаном 28a, который приводит в действие элемент фрикционного зацепления, который переключается из освобожденного состояния в состояние сцепления путем переключения передаточного числа, из числа электромагнитных клапанов 28а. В частности, в настоящем варианте осуществления значение P⃰ команды управления давлением масла устанавливается для каждой фазы, проиллюстрированной на фиг. 3. Здесь фаза 1 представляет собой период от начала управления переключением передаточного числа до истечения заранее определенного времени. Фаза 2 представляет собой период от конца фазы 1 до конца фазы крутящего момента. Другими словами, это период до тех пор, пока передаваемый крутящий момент фрикционного элемента зацепления, который переключается из состояния зацепления в состояние отпускания путем переключения передаточного числа, не станет равным нулю. ЦП 42 определяет конечную точку фазы 2 на основе разницы между фактической частотой вращения входного вала и частотой вращения входного вала, определяемой частотой вращения выходного вала трансмиссии 26 и передаточным числом в начале периода переключения передач. Фактическая частота вращения входного вала равна частоте вращения Н_m2. Кроме того, ЦП 42 вычисляет частоту вращения выходного вала в соответствии со скоростью SPD транспортного средства. Фаза 3 представляет собой период от конца фазы 2 до точки, в которой переключение передач завершено. ЦП 42 вычисляет частоту N_m2 вращения на основе выходного сигнала S_m2.

[0038] Фиг. 4 иллюстрирует данные DMS карты управления переключением передач. Как показано на фиг. 4, данные DMS карты управления переключением передач являются данными, в которых величина значения P⃰ команды давления масла установлена для каждой величины ACCP работы акселератора, типа переключения передач и температуры T_oil масла. Для величины ACCP работы акселератора или температуры T_oil масла средние значения областей, разделенных на фиг. 4, используются в качестве значений входных переменных данных DMS карты управления переключением передач. На фиг. 4 показан пример значения A1 выходной переменной для переключения с первой передачи на вторую передачу, когда величина ACCP работы акселератора равна 5%. Данные, показанные на фиг. 4 фактически предоставляются отдельно в фазе 1, фазе 2 и фазе 3.

[0039] Возвращаясь к фиг. 2, ЦП 42 преобразует значение P⃰ команды давления масла в текущее значение I⃰ команды соответствующего соленоидного клапана 28a (S16). Затем ЦП 42 управляет соленоидным клапаном 28a, выдавая рабочий сигнал MS на соленоидный клапан 28a (S18).

[0040] После завершения процесса S18 или принятия отрицательного решения в процессе S10 ЦП 42 временно завершает серию процессов, проиллюстрированных на фиг. 2. Фиг. 5 иллюстрирует конфигурацию системы, которая генерирует данные DMS карты управления переключением передач.

[0041] Как показано на фиг. 5, в настоящем варианте осуществления динамометр 70 может быть механически связан с зубчатой шестерней R устройства 20 разделения мощности и валом 24a вращения второго электродвигателя-генератора 24 через трансмиссию 26. Затем различные переменные состояния, когда работает двигатель 10 внутреннего сгорания, первый электродвигатель-генератор 22 или второй электродвигатель-генератор 24, обнаруживаются группой 90 датчиков, и результаты обнаружения вводятся в генератор 80, который является компьютером, который генерирует данные DMS карты управления переключением передач. Группа 90 датчиков включает датчик, установленный на транспортном средстве VC, показанном на фиг. 1.

[0042] Генератор 80 включает в себя ЦП 82, ПЗУ 84, электрически перезаписываемую энергонезависимую память (запоминающее устройство 86) и периферийную схему 88. Они могут взаимодействовать друг с другом через локальную сеть 89.

[0043] Фиг. 6 иллюстрирует процедуру обработки, выполняемую генератором 80. Обработка, показанная на фиг. 6, реализуется, когда ЦП 82 выполняет программу DPL обучения, хранящуюся в ПЗУ 84. В серии процессов, показанных на фиг. 6, ЦП 82 сначала определяет, является ли это периодом переключения передач (S20). После определения того, что это период переключения передач (S20: ДА), ЦП 82 получает в качестве состояния s рабочую величину ACCP работы акселератора, переменную ΔV_sft переключения, температуру T_oil масла, фазовую переменную V_pase, первую переменную S_v1 (S_v2, S_v3) отклонения и вторую переменную S_t1 (S_t2) (S22) отклонения.

[0044] На фиг. 7 показаны первые переменные S_v1, S_v2, S_v3 отклонения и вторые переменные S_t1, S_t2отклонения. Как показано на фиг. 7, в настоящем варианте осуществления частота N_m2* вращения определяется как опорная частота вращения входного вала трансмиссии 26. Частота вращения N_m2* в качестве эталонного значения может изменяться в зависимости от величины ACCP работы акселератора, переменной ΔV_sft переключения и температуры T_oil масла.

[0045] Первая переменная S_v1 отклонения иллюстрирует величину разности между частотой N_m2* вращения в качестве эталонного значения при первом времени, которое представляет собой заранее заданный момент времени на начальной стадии переключения передач, и фактической частотой N_m2 вращения. Кроме того, вторая переменная S_t1 отклонения иллюстрирует величину разности между моментом временем, в который фактическая частота N_m2* вращения достигает частоты вращения N_m2* в качестве эталонного значения в первый момент времени, и первым моментом времени.

[0046] Кроме того, первая переменная S_v2 отклонения иллюстрирует величину разности между частотой N_m2* вращения в качестве эталонного значения во второй момент времени, который представляет собой заранее заданный момент времени на промежуточном этапе переключения передач, и фактической частотой N_m2 вращения. Кроме того, первая переменная S_v3 отклонения иллюстрирует величину разности между частотой вращения N_m2* в качестве эталонного значения в третий момент времени, который представляет собой заранее заданный момент времени на заключительной стадии переключения передач, и фактической частотой N_m2 вращения. Кроме того, вторая переменная S_t2 отклонения иллюстрирует величину разности между синхронизацией, при котором фактическая частота N_m2* вращения достигает частоты N_m2* вращения в качестве эталонной величины в третий момент времени, и третьим моментов времени.

[0047] В начале фазы 1, в процессе S22, ЦП 82 получает первую переменную S_v1 отклонения и вторую переменную S_t1 отклонения в самом недавнем прошлом, в котором величина ACCP работы акселератора, переменная ΔV_sft переключения и температура T_oil масла соответствуют друг другу в областях, разделенных данными DMS карты управления переключением передач на фиг. 4. Кроме того, в начале фазы 2, в процессе S22, ЦП 82 получает первую переменную S_v2 отклонения в самом недавнем прошлом, в которой величина ACCP работы акселератора, переменная переключения ΔV_sft и температура T_oil масла соответствуют друг другу в областях, разделенных данными DMS карты управления переключением передач на фиг. 4. Кроме того, в начале фазы 3, в процессе S22, ЦП 82 получает первую переменную S_v3 отклонения и вторую переменную S_t2 отклонения в самом недавнем прошлом, в котором величина ACCP работы акселератора, переменная ΔV_sft переключения и температура T_oil масла соответствуют друг другу в областях, разделенных данными DMS карты управления переключением передач на фиг. 4.

[0048] В системе, показанной на фиг. 5, педаль 62 акселератора отсутствует. По этой причине предполагается, что величина ACCP работы акселератора виртуально генерируется, когда генератор 80 имитирует состояние транспортного средства VC, и виртуально сгенерированная величина ACCP работы акселератора рассматривается как состояние транспортного средства на основе значения обнаружения датчика. Кроме того, скорость SPD транспортного средства вычисляется ЦП 82 как скорость движения транспортного средства в предположении, что транспортное средство действительно существует. В настоящем варианте осуществления скорость транспортного средства рассматривается как состояние транспортного средства на основе значения обнаружения датчика. В частности, ЦП 82 вычисляет скорость SPD транспортного средства на основе частоты вращения динамометра 70.

[0049] Состояние s является значением переменной, взаимосвязь которой с переменной действия регулируется данными DR реляционного регулирования, хранящимися в запоминающем устройстве 86, показанном на фиг. 5. Здесь, в настоящем варианте осуществления, в качестве переменной действия приведена в качестве примера величина ΔP* коррекции значения P⃰ команды давления масла в качестве выходной переменной данных DMS карты управления переключением передач, проиллюстрированных на фиг. 4. Переменная действия фазы 3, фактически включенная в данные DR реляционного регулирования, может быть величиной коррекции скорости повышения давления.

[0050] В частности, данные DR реляционного регулирования включают в себя функцию Q значения действия. Функция Q значения действия имеет состояние s и действие a как независимые переменные и ожидаемую отдачу для состояния s и действия a как зависимую переменную. В настоящем варианте осуществления функция Q значения действия является функцией табличного типа. В частности, в настоящем варианте осуществления состояние s как независимая переменная функции Q значения действия имеет определенную ширину, показанную областью разделения, проиллюстрированной на фиг. 4. Другими словами, например, как видно из настройки ширины, показанной на фиг. 4, случай, когда величина ACCP работы акселератора составляет «3%», и случай, когда величина работы акселератора составляет «6%», не становятся отличными друг от друга состояниями s только на основании того факта, что случаи имеют разные значения.

[0051] Затем ЦП 82 определяет, равно ли значение флага F «0» (S24). Когда значение флага F равно «0», это указывает, что поиск в обучении с подкреплением разрешен, а когда значение флага F равно «1», это указывает, что поиск не разрешен.

[0052] После определения того, что значение флага F равно «0» (S24: ДА), ЦП 82 вычисляет значение переменной действия на основе политики π, регулируемой данными DR реляционного регулирования (S26). В настоящем варианте осуществления в качестве политики проиллюстрирована ε-политика. Другими словами, проиллюстрирован пример политики, в которой, когда предоставлено состояние s, определяется правило для предпочтительного выбора действия, которое максимизирует функцию значения действия Q (далее именуемую действием ag) из числа функций Q значения действия, в которых независимая переменная становится заданным состоянием s с определением выбора других действий с заранее определенной вероятностью. В частности, когда общее количество значений, которые могут быть приняты действием, выражается «|A|», вероятности выполнения действий, отличных от затратного действия, выражаются «ε/|A|», соответственно.

[0053] Затем ЦП 82 корректирует значение P⃰ команды давления масла данных DMS карты управления переключением передач, хранящихся в запоминающем устройстве 86, на величину коррекции ΔP⃰ как значение переменной действия, выбранной в процессе S26 (S28). Затем ЦП 82 управляет током I включения электромагнитного клапана 28a, так что ток I включения становится значением, которое определяется на основе значения P⃰ команды давления масла, скорректированного процессом S28 (S30).

[0054] Затем ЦП 82 вычисляет величину ΔN_out отклонения для выходного вала, которая представляет собой разность между максимальным значением и минимальным значением в единицу времени частоты вращения выходного вала трансмиссии 26 и количеством CV выделяемого тепла (S32). Здесь величина ΔN_out отклонения для выходного вала является переменной, которая количественно определяет удар, создаваемый в транспортном средстве VC при переключении передаточного числа. ЦП 82 вычисляет частоту вращения выходного вала в соответствии со скоростью SPD транспортного средства.

[0055] С другой стороны, в настоящем варианте осуществления величина CV тепловыделения вычисляется как величина, пропорциональная произведению разности частот вращения между парой элементов фрикционного зацепления и крутящего момента, прилагаемого к ним при переключении из одного из двух состояний - высвобожденное состояние и закрепленное состояние - в другое. В частности, ЦП 42 вычисляет величину CV тепловыделения на основе частоты N_m2 вращения в качестве частоты вращения входного вала трансмиссии 26, частоты вращения выходного вала трансмиссии 26, взятой из скорости SPD транспортного средства, и крутящего момента, полученного от величины ACCP работы акселератора. В частности, ЦП 42 вычисляет на основе карты величину CV тепловыделения в состоянии, в котором данные карты, которые имеют частоту вращения входного вала, частоту вращения выходного вала и величину ACCP работы акселератора в качестве входных переменных, и величина CV тепловыделения в качестве выходной переменной заранее сохраняется в ПЗУ 44.

[0056] ЦП 82 выполняет процессы S30 и S32 до тех пор, пока текущая фаза не будет завершена (S34: НЕТ). Затем, после определения того, что текущая фаза завершена (S34: ДА), ЦП 82 обновляет данные DR реляционного регулирования посредством обучения с подкреплением (S36).

[0057] Фиг.8 детально иллюстрирует процесс S36. В серии процессов, показанных на фиг. 8, ЦП 82 сначала определяет, равна ли фазовая переменная V_pase «3» (S60). Затем, после определения того, что переменная равна «3» (S60: ДА), поскольку переключение передач завершено, ЦП 82 вычисляет время T_sft переключения передач, которое является временем, требуемым для переключения передач (S62). Кроме того, ЦП 82 вычисляет количество InCV тепловыделения, которое представляет собой интегрированное значение количества CV тепловыделения, вычисленное в процессе S32 в течение периода от начала до конца одной фазы (S64). Кроме того, ЦП 82 вычисляет максимальное значение ΔN_outmax колебания для выходного вала, которое является максимальным значением ΔN_out колебания для выходного вала, вычисленным в процессе S32 в течение периода от начала до конца одной фазы (S66).

[0058] Затем ЦП 82 вычисляет выгоду r в соответствии со временем T_sft переключения передач, величиной InCV тепловыделения и максимальным значением ΔN_outmax колебаний для выходного вала (S68). В частности, ЦП 82 вычисляет выгоду r как большее значение, когда время T_sft переключения передач меньше, чем когда оно является длинным. Кроме того, ЦП 82 вычисляет выгоду r как большее значение, когда количество InCV тепловыделения мало, чем когда оно велико. Кроме того, ЦП 82 вычисляет выгоду r как большее значение, когда максимальное значение ΔN_outmax колебаний выходного вала меньше, чем когда оно велико.

[0059] В частности, ЦП 82 вычисляет на основе карты выгоду r в состоянии, где данные D_rm карты выгоды, которые имеют время T_sft переключения передач, количество InCV тепловыделения и максимальное значение ΔN_outmax колебаний выходного вала в качестве входных переменных, и выгода r в качестве выходной переменной сохраняется в запоминающем устройстве 86, показанном на фиг. 5. Здесь данные D_rm карты выгоды устанавливают выгоду r таким образом, чтобы иметь возможность удовлетворить, хорошо сбалансированным образом, требуемый элемент для времени T_sft переключения передач, требуемый элемент для количества InCV тепловыделения или требуемый элемент для величины удара во время переключения передач. Например, даже когда максимальное значение ΔN_outmax колебаний выходного вала и величина InCV тепловыделения являются небольшими, в случае, когда время T_sft переключения передач чрезмерно велико, значение выгоды r устанавливается небольшим. Другими словами, данные D_rm карты выгоды задают критерий для назначения высокой выгоды состоянию, в котором каждый требуемый элемент удовлетворяется в определенной степени, а не состоянию, когда некоторые из требуемых элементов удовлетворяются на чрезмерно низком уровне с достаточным удовлетворением конкретного требуемого элемента. Этот параметр направлен на предотвращение выполнения обучения способом, который в достаточной мере удовлетворяет другие требуемые элементы, путем игнорирования некоторых требуемых элементов.

[0060] С другой стороны, после определения того, равна ли фазовая переменная V_pase «1» или «2» (S60: НЕТ), ЦП 82 вводит «0» в выгоду r (S70). Когда процессы S68 и S70 завершены, ЦП 82 обновляет на основе выгоды r функцию Q(s, a) значения действия, используемую в процессе S26 (S72). Функция Q(s, a) значения действия, используемая в процессе S26, является функцией Q(s, a) значения действия, которая имеет состояние s, полученное процессом S22, и действие a, установленное процессом S26, в качестве независимых переменных.

[0061] В настоящем варианте осуществления функция Q(s, a) значения действия обновляется посредством так называемого Q-обучения, которое является методом TD с отключенной политикой. В частности, функция Q(s, a) значения действия обновляется посредством следующего уравнения (c1):

[0062] Q(s, a) ← Q+α⋅{r+γ⋅maxQ(s+1, a)-Q(s, a)} … (c1)

Здесь степень γ дисконтирования и скорость α обучения используются в величине обновления «α⋅{r+γ⋅maxQ(s+1, a)-Q(s, a)}». Как степень γ дисконтирования, так и скорость α обучения являются константами больше «0» и равными или меньше «1». Кроме того, когда текущая фаза - это фаза 1 или фаза 2, «maxQ(s+1, a)» означает функцию значения действия, имеющую максимальное значение из функций Q значения действия, которые имеют переменную состояния на момент завершения фазы, то есть состояние s+1, которое должно быть получено процессом S22 после серии процессов, проиллюстрированных на фиг. 6, как независимая переменная. Если текущая фаза является фазой 3, состояние s, полученное процессом S22 после серии процессов, проиллюстрированных на фиг. 6, является состоянием s+1, используемым процессом S72. С другой стороны, когда текущая фаза является фазой 3, «maxQ(s+1, a)» является функцией значения действия, фактически выбранной в процессе S26.

[0063] Когда процесс S72 завершается, ЦП 82 завершает процесс S36 с фиг. 6. Возвращаясь к фиг. 6, ЦП 82 определяет, продолжается ли состояние, в котором величина ΔQ изменения функции Q значения действия меньше порогового значения ΔQ_th, в течение заранее определенного периода (S38). Этот процесс представляет собой процесс определения, сошлось ли обучение с подкреплением. После определения того, что обучение с подкреплением сошлось (S38: ДА), ЦП 82 вводит «1» во флаг F (S40).

[0064] С другой стороны, после определения того, что значение флага F равно «1» (S24: НЕТ), ЦП 82 устанавливает действие a, представленное функцией значения действия, имеющей максимальное значение из числа функций Q значения действия, в котором состояние, которое является независимой переменной, совпадает с состоянием s, полученным в процессе S22, как величина коррекции ΔP_th (S42). Затем ЦП 82 выполняет процессы S44 и S46, соответствующие процессам S28 и S30, и определяет, меньше ли состояние, в котором величина коррекции ΔP_th, установленная в процессе S42, чем заданное значение ΔP_th, продолжается в течение заданного периода (S48). Этот процесс представляет собой процесс определения того, сойдутся ли данные DMS карты управления переключением передач, скорректированные на величину ΔP* коррекции. После положительного определения в процессе S48 (S48: ДА), ЦП 82 сохраняет данные DMS карты управления переключением передач в это время в запоминающем устройстве 86 как данные карты, которые должны быть установлены на транспортном средстве VC (S50).

[0065] После завершения процессов S40 и S50 или принятия отрицательного определения в процессах S20, S38 и S48, ЦП 82 временно завершает последовательность процессов, показанных на фиг. 6. Здесь будут описаны действие и полезный эффект настоящего варианта осуществления.

[0066] Во время периода переключения передач ЦП 82 выбирает затратное действие ag, управляет током возбуждения соленоидного клапана 28а и ищет лучшее значение P_th команды давления масла, используя действие, отличное от затратного действия с предопределенной вероятностью. Затем ЦП 82 обновляет функцию Q значения действия, используемую для определения значения P_th команды давления масла посредством Q-обучения.

[0067] Здесь, при назначении выгоды r, используемой в Q-обучении, в соответствии со временем T_sft переключения передач, величиной InCV тепловыделения и максимальным значением ΔN_outmax колебаний выходного вала, ЦП 82 устанавливает критерий для назначения заранее определенной выгоды за комбинацию времени T_sft переключения передач, количества InCV тепловыделения и максимального значения ΔN_outmax колебаний выходного вала. В результате с помощью обучения с подкреплением можно узнать значение P_th команды давления масла, которое удовлетворяет хорошо сбалансированным образом трем требуемым элементам: времени T_sft переключения передач, количеству InCV тепловыделения и величине удара из-за переключения передач.

[0068] С помощью вышеописанного настоящего варианта осуществления может быть дополнительно получен благоприятный эффект, который будет описан далее.

(1) Выгода r была рассчитана на основе карты с использованием данных D_rm карты выгоды. В результате можно легко увеличить степень свободы в установке соотношения между временем T_sft переключения передач, величиной InCV тепловыделения и величиной удара из-за переключения передач и выгодой r.

[0069] (2) Функция Q значения действия была установлена для каждой фазы, на которую период переключения передач был разделен в соответствии с физическими явлениями. В результате, при изучении соответствующего значения переменной действия, поскольку трудоемкость обучения для идентификации секции из-за вариаций физических явлений сохраняется, можно найти значение переменной действия, которое увеличивает фактическую отдачу на ранней стадии обучения с подкреплением.

[0070] (3) Путем включения величины ACCP работы акселератора, переменной ΔV_sft переключения и температуры T_oil масла в переменную, представляющую состояние транспортного средства, связь которого со значением переменной действия регулируется данными DR реляционного регулирования, можно плавно продолжить обучение по сравнению со случаем, когда они не включены в переменную. Другими словами, подходящее значение переменной действия для удовлетворения каждого из требуемых элементов по заранее определенному критерию может варьироваться в зависимости от значения рабочего значения акселератора, типа переключения передач или температуры гидравлического масла. По этой причине, когда значение общей переменной действия определяется для различных комбинаций рабочего значения акселератора, типа переключения передач и температуры гидравлического масла, может быть трудно удовлетворить требуемые элементы. Другими словами, может быть трудно продолжить обучение плавно.

[0071] (4) Сгенерированы данные DMS карты управления переключением передач, которые принимают в качестве входных данных состояние транспортного средства, связывая состояние транспортного средства со значением переменной действия, которая максимизирует ожидаемую отдачу на основе данных DR реляционного регулирования и выводит значение P_th команды давления масла, которое максимизирует ожидаемую отдачу. Посредством установки данных DMS карты управления переключением передач на устройстве 40 управления можно легко установить значение P_th команды давления масла, которое максимизирует ожидаемую отдача.

[0072] (5) Первая переменная S_v1 (S_v2, S_v3) отклонения и вторая переменная S_t1 (S_t2) отклонения были включены в состояние s, и переменной действия была величина коррекции ΔP_th. В результате эксперт может легко оценить результат обучения с подкреплением. Другими словами, когда эксперт регулирует значение P_th команды давления масла, работа по установке величины коррекции значения команды давления масла на разумное значение, определенное из опыта, повторяется в соответствии с отличием от идеальной частоты вращения. С другой стороны, с обучением с подкреплением согласно настоящему варианту осуществления, с помощью функции Q значения действия можно понять, какая величина коррекции ΔP_th является затратным действием для разницы от частоты N_m2* вращения в качестве эталонного значения. По этой причине с точки зрения эксперта можно оценить, является ли величина коррекции ΔP_th, которая является затратным действием, разумным значением.

Второй вариант

[0073] Далее со ссылкой на чертежи будет описан второй вариант осуществления изобретения, с акцентом на отличия от первого варианта осуществления.

[0074] Фиг. 9 иллюстрирует систему привода и устройство управления транспортного средства VC согласно настоящему варианту осуществления. На фиг. 9, части, соответствующие частям с фиг. 1, для удобства обозначены теми же ссылочными позициями. Как показано на фиг. 9, в настоящем варианте осуществления ПЗУ 44 хранит обучающую программу DPL и данные D_rm карты выгоды. Кроме того, запоминающее устройство 46 не хранит данные DMS карты управления переключением передач, а вместо этого сохраняет данные DR реляционного регулирования.

[0075] Фиг. 10 иллюстрирует процедуру обработки, выполняемую устройством 40 управления согласно настоящему варианту осуществления. Обработка, показанная на фиг. 10, реализуется, когда ЦП 42 многократно выполняет программу DPL обучения, хранящуюся в ПЗУ 44, например, в заранее определенном цикле. На фиг. 10 для процессов, соответствующих показанным на фиг. 6, для удобства присвоены те же номера этапов.

[0076] В последовательности процессов с фиг. 10, после выполнения положительного определения в процессе S20, ЦП 42 получает величину ACCP работы акселератора, переменную ΔV_sft переключения, температуру T_oil масла, фазовую переменную V_pase и частоту N_m2 вращения второго электродвигателя-генератора 24 в качестве состояния s, регулируемого данными DR реляционного регулирования, показанными на фиг. 9 (S22a). Затем ЦП 42 вычисляет значение переменной действия на основе политики π, регулируемой данными DR реляционного регулирования (S26a). Переменной действия в настоящем варианте осуществления является само значение P⃰ команды давления масла.

[0077] Затем, после выполнения процесса S30, ЦП 42 вычисляет величину ΔN_m2 разгона в дополнение к величине ΔN_out колебаний выходного вала и величине CV тепловыделения (S32a). Величина ΔN_m2 разгона представляет собой количественно выраженную величину разгона частоты вращения входного вала трансмиссии 26 во время периода переключения передач и рассчитывается как величина, в которой частота вращения N_m2 превышает вышеописанную частоту N_m2* вращения в качестве эталонного значения.

[0078] Затем, после перехода к процессу S34 и определения, что это время завершения фазы (S34: ДА), ЦП 42 обновляет данные DR реляционного регулирования (S36a). После завершения процесса S36a или принятия отрицательного решения в процессе S20 ЦП 42 временно завершает последовательность процессов, проиллюстрированных на фиг. 10.

[0079] Фиг. 11 иллюстрирует подробную процедуру S36a. На фиг. 11, для тех же процессов, что проиллюстрированные на фиг. 8, для удобства присвоены те же номера этапов. В серии процессов, показанных на фиг. 11, после выполнения положительного определения в процессе S60, ЦП 42 выполняет процесс для ввода максимального значения величины ΔN_m2 разгона в максимальную величину ΔN_m2max (S80) разгона в дополнение к процессам S62-S66.

[0080] Затем ЦП 42 назначает выгоду r за значение переменной действия, используемой процессом S26a, в соответствии со временем T_sft переключения передач, величиной InCV тепловыделения, максимальным значением ΔN_outmax колебаний выходного вала и максимальной величиной ΔN_m2max разгона (S68a). В частности, ЦП 42 вычисляет на основе карты выгоду r, используя данные D_rm карты выгоды, которые имеют время T_sft переключения передач, количество InCV тепловыделения, максимальное значение ΔN_outmax колебаний выходного вала и максимальную величину ΔN_m2max разгонов как входные переменные и выгоду r как выходную переменную, которая сохраняется в ПЗУ 44, показанном на фиг. 9.

[0081] Данные D_rm карты выгоды устанавливают выгоду r таким образом, чтобы иметь возможность удовлетворить, хорошо сбалансированным образом, требуемый элемент для времени T_sft переключения передач, требуемый элемент для количества InCV тепловыделения, требуемый элемент для величины удара во время переключения передач и требуемый элемент для величины, на которую частота N_m2 вращения входного вала превышает частоту вращения N_m2* в качестве эталонного значения.

[0082] Кроме того, в настоящем варианте осуществления, даже в комбинации, в которой значения вышеуказанных четырех переменных одинаковы, значение выгоды r изменяется в зависимости от величины ACCP работы акселератора и переменной ΔV_sft переключения. Это реализуется путем включения величины ACCP работы акселератора и переменной ΔV_sft переключения в дополнение к указанным выше четырем переменным во входные переменные данных D_rm карты выгоды.

[0083] Здесь выгода r назначается в соответствии с величиной ACCP работы акселератора или типом переключения передач по следующим причинам. Во-первых, это настройка для изучения затратного действия ag, так что приоритеты вышеупомянутых четырех требуемых элементов меняются в зависимости от величины ACCP работы акселератора и переменной ΔV_sft переключения.

[0084] Другими словами, например, в случае, когда приоритет реакции акселератора выше при переключении со второй передачи на первую передачу, чем при переключении с первой передачи на вторую передачу, абсолютное значение выгоды r для того же времени T_sft переключения передач устанавливается большим при переключении со второй передачи на первую, чем при переключении с первой передачи на вторую передачу. В этом случае, например, путем увеличения приоритета количества InCV тепловыделения, абсолютное значение выгоды r для того же количества InCV тепловыделения устанавливается большим при переключении с первой передачи на вторую, чем при переключении со второй передачи на первую.

[0085] Во-вторых, поскольку крутящий момент или частота вращения, применяемые к трансмиссии 26, варьируются в зависимости от величины ACCP работы акселератора или типа переключения передач, значения максимального значения ΔN_outmax колебаний выходного вала, максимальной величины ΔN_m2max разгона, времени T_sft переключения передач и величины InCV тепловыделения, которая может быть принята, варьируются в зависимости от величины ACCP работы акселератора и типа переключения передач. По этой причине, когда одна и та же выгода r равномерно назначается для времени T_sft переключения передач или т.п., независимо от величины ACCP работы акселератора или типа переключения передач, обучение может стать затрудненным.

[0086] Как описано выше, в настоящем варианте осуществления не только величина ACCP работы акселератора и переменная ΔV_sft переключения включены в состояние s, но также выгода r установлена как переменная в зависимости от величины ACCP работы акселератора и переменной ΔV_sft переключения. В результате можно выполнить обучение, отражающее то, что приоритеты времени T_sft переключения передач, величины ΔN_m2 разгона и количества InCV тепловыделения изменяются в зависимости от величины ACCP работы акселератора или типа переключения передач. Кроме того, можно назначить выгоду r с учетом того факта, что значения максимальной величины ΔN_m2maxразгона, времени T_sft переключения передач и количества InCV тепловыделения, которое может быть принято, варьируются в зависимости от величины ACCP работы акселератора или типа переключения передач, а также плавно перейти к обучению.

[0087] По завершении процесса S68a ЦП 42 переходит к процессу S72. Здесь предполагается, что данные DR реляционного регулирования, хранящиеся в запоминающем устройстве 46, когда транспортное средство VC отправлено, являются изученными данными, которые были изучены путем выполнения тех же процессов, что и на фиг. 10, системой, показанной на фиг. 5. Другими словами, процесс с фиг. 10 является процессом обновления данных DR реляционного регулирования, полученных до того, как транспортное средство VC движется по дороге, до оптимальных данных, когда транспортное средство VC фактически движется по дороге.

Третий вариант

[0088] Далее будет описан третий вариант осуществления со ссылкой на чертежи с акцентом на отличия от первого варианта осуществления изобретения.

[0089] Фиг. 12 иллюстрирует конфигурацию системы согласно третьему варианту осуществления. На фиг. 12 части, соответствующие показанным на фиг. 9, для удобства обозначены теми же ссылочными позициями, и их описание будет опущено. Как показано на фиг. 12, устройство 40 управления транспортного средства VC(1) включает в себя устройство 47 связи и может связываться с центром 110 анализа данных через внешнюю сеть 100 с помощью устройства 47 связи.

[0090] Центр 110 анализа данных анализирует данные, переданные от множества транспортных средств VC(1), VC(2), …. Центр 110 анализа данных включает в себя ЦП 112, ПЗУ 114, запоминающее устройство 116 и устройство 117 связи. Они могут общаться друг с другом через локальную сеть 119. Запоминающее устройство 116 является энергонезависимым устройством с электрической перезаписью и хранит данные DR реляционного регулирования.

[0091] Фиг. 13 иллюстрирует процедуру обработки обучения с подкреплением согласно настоящему варианту осуществления. Процессы, проиллюстрированные в A с фиг. 13, реализуются, когда ЦП 42 выполняет подпрограмму DPLa обучения, хранящуюся в ПЗУ 44, показанном на фиг. 12. Кроме того, процессы, проиллюстрированные в B на фиг. 13, реализуются, когда ЦП 112 выполняет обучающую основную программу DPLb, хранящуюся в ПЗУ 114. На фиг. 13, для процессов, соответствующих тем, которые проиллюстрированы на фиг. 10, для удобства присвоены те же номера этапов. Далее будет описана обработка, проиллюстрированная на фиг. 13, во временной последовательности обучения с подкреплением.

[0092] В серии процессов, показанных в A на фиг. 13, ЦП 42 устройства 40 управления сначала выполняет процессы S20, S22a, S26a, S30, S32a и S34. После положительного определения в процессе S34 ЦП 42 определяет, завершено ли переключение передач (S90). После определения того, что переключение передач еще не завершено (S90: НЕТ), ЦП 42 возвращается к процессу S22a.

[0093] С другой стороны, после определения того, что переключение передач завершено (S90: ДА), ЦП 42 управляет устройством 47 связи для передачи данных, используемых для обновления данных DR реляционного регулирования посредством обучения с подкреплением, вместе с идентификационным кодом транспортного средства VC(1) (S92). Эти данные включают в себя состояние s, работу a, величину ΔN_out колебаний выходного вала, величину CV тепловыделения, величину ΔN_m2 разгона и т.п.

[0094] Между тем, как проиллюстрировано в B на фиг. 13, ЦП 112 центра 110 анализа данных принимает данные для обновления данных DR реляционного регулирования (S100). Затем ЦП 112 выполняет процесс S36a на основе принятых данных. Затем, управляя устройством 117 связи, ЦП 112 передает данные для обновления данных DR реляционного регулирования в источник, из которого передаются данные, принятые процессом S100 (S102). После завершения процесса S102 ЦП 112 временно завершает серию процессов, проиллюстрированных в B на фиг. 13.

[0095] С другой стороны, как проиллюстрировано в A на фиг. 13, ЦП 42 принимает данные обновления (S94). Затем ЦП 42 обновляет данные DR реляционного регулирования, используемые в процессе S26a, на основе принятых данных (S96). После завершения процесса S96 или принятия отрицательного решения в процессе S20 ЦП 42 временно завершает серию процессов, проиллюстрированных в A на фиг. 13.

[0096] Как описано выше, в настоящем варианте осуществления, поскольку обработка обновления данных DR реляционного регулирования выполняется вне транспортного средства VC(1), может быть уменьшена вычислительная нагрузка на устройство 40 управления. Кроме того, например, в процессе S100, когда принимаются данные от транспортных средств VC(1), VC(2), … и выполняется процесс S36a, может быть легко увеличено количество фрагментов данных, используемых для обучения.

Отношение соответствия

[0097] Отношение соответствия между элементами в вариантах осуществления и элементами, описанными в «СУЩНОСТИ ИЗОБРЕТЕНИЯ», является следующим. Ниже показано соответствие для каждого номера, описанного в «СУЩНОСТИ ИЗОБРЕТЕНИЯ». В абзаце [0006] исполнительное устройство и запоминающее устройство соответствуют ЦП 82 и ПЗУ 84 и запоминающему устройству 86, соответственно, на фиг. 5; ЦП 42 и ПЗУ 44 и запоминающему устройству 46, соответственно, на фиг. 9; ЦП 42, 112 и ПЗУ 44, 114 и запоминающим устройствам 46, 116, соответственно, на фиг. 12. Процесс сбора данных соответствует процессам S22, S62, S64 и S66 с фиг. 6 и 8, или к процессам S22a, S62, S64, S66 и S80 с фиг. 10, 11 и 13. Рабочий процесс соответствует процессам S26 и S30 или процессам S26a и S30. Процесс вычисления выгоды соответствует процессу S68 с фиг. 8 или процессу S68a с фиг. 11. Процесс обновления соответствует процессу S72. Отображение обновления соответствует отображению, назначенному командой для выполнения процесса S72 в обучающей программе DPL или обучающей основной программе DPLb. Другими словами, отображение обновления соответствует отображению, обозначенному вышеприведенным уравнением (c1). Первая и вторая переменные соответствуют любым двум переменным из трех переменных: времени T_sft переключения передач, количеству InCV тепловыделения и максимальному значению ΔN_outmax колебаний выходного вала с фиг. 8, и к любым двум переменным из четырех переменных: времени T_sft переключения передач, количеству InCV тепловыделения, максимальному значению ΔN_outmax колебаний выходного вала и максимальной величине ΔN_m2max разгона с фиг. 11. В абзаце [0009] первая, вторая и третья переменные соответствуют времени T_sft переключения передач, величине InCV тепловыделения и максимальному значению ΔN_outmax колебаний выходного вала с фиг. 8, и любым трем переменным из четырех переменных: времени T_sft переключения передач, количеству InCV тепловыделения, максимальному значению ΔN_outmax колебаний выходного вала и максимальной величине ΔN_m2max разгона с фиг. 11. Пункт, описанный в абзаце [0011], соответствует процессу S68a. В абзаце [0013] данные карты соответствуют данным D_rm карты выгоды. Пункт, описанный в абзаце [0015], соответствует тому факту, что фазовая переменная V_pase включена в состояние. Пункт, описанный в абзаце [0017], соответствует Фазе 2. В абзаце [0019] переменная крутящего момента соответствует величине ACCP работы акселератора. В абзаце [0021] переменная, представляющая состояние вращения входного вала, соответствует частоте N_m2 вращения. В абзаце [0023] данные отображения переключения передач соответствуют данным DMS карты управления переключением передач. В абзаце [0025] исполнительное устройство и запоминающее устройство соответствуют ЦП 42 и ПЗУ 44 и запоминающему устройству 46, соответственно, с фиг. 9. В абзаце [0027] первое исполнительное устройство соответствует ЦП 42 и ПЗУ 44, а второе исполнительное устройство соответствует ЦП 112 и ПЗУ 114.

Другие варианты осуществления изобретения

[0098] Настоящий вариант осуществления может быть изменен и реализован следующим образом. Настоящий вариант осуществления и следующие модифицированные примеры могут быть реализованы в комбинации друг с другом в диапазоне, в котором нет технических несоответствий.

О состоянии, используемом для выбора значения переменной действия на основе данных реляционного регулирования

[0099] Состояние, используемое для выбора значения переменной действия на основе данных реляционного регулирования, не ограничивается теми, которые проиллюстрированы в приведенных выше вариантах осуществления. Например, в процессе S22a переменные состояния, которые зависят от значений переменных действия перед фазой 2 и фазой 3, не должны включать частоту N_m2 вращения и могут включать, например, величину ΔN_m2 разгона. Кроме того, например, они могут включать в себя величину CV тепловыделения. Однако, например, когда используется алгоритм распределения отдачи, описанный в абзаце «О карте обновлений», переменные состояния, которые зависят от значений переменных действия до Фазы 2 и Фазы 3, не должны быть включены в состояние, используемое для выбора значений переменных действия.

[0100] Нет необходимости включать величину ACCP работы акселератора в переменную состояния.

Нет необходимости включать температуру T_oil масла в переменную состояния.

Нет необходимости включать фазовую переменную V_pase в переменную состояния. Например, время от начала переключения передач, частота вращения входного вала или переменная ΔV_sft переключения могут быть включены в переменную состояния, чтобы составить функцию Q значения действия, которая обозначает каждое действие, и обучение с подкреплением может выполняться с использованием той же функции Q значения действия. В этом случае период переключения передач заранее не указывается как три фазы.

О переменной действия

[0101] При обработке с фиг. 6, величина коррекции командного значения давления масла или величина коррекции скорости повышения давления используется в качестве переменной действия, хотя может быть использована величина коррекции командного значения тока включения или величина коррекции скорости изменения скорости тока включения. Кроме того, в качестве переменной действия могут использоваться, например, значение команды давления или скорость повышения давления. Кроме того, в качестве переменной действия может использоваться, например, значение команды тока включения или скорость изменения значения команды.

[0102] При обработке с фиг. 10, в качестве переменной действия фазы 3 используется скорость повышения давления, хотя настоящее изобретение не ограничивается этим, и, например, может использоваться значение команды давления на каждом из состояний, на которые дополнительно подразделяется фаза 3.

[0103] При обработке с фиг. 10, значение команды давления или скорость повышения давления используется в качестве переменной действия, хотя настоящее изобретение не ограничивается этим, и, например, может использоваться значение команды подачи питания на электромагнитный клапан 28a или скорость изменения значения команды. Кроме того, могут быть использованы, например, величина коррекции командного значения давления масла, величина коррекции скорости повышения давления, величина коррекции командного значения тока включения или величина коррекции скорости изменения скорости тока включения.

О данных реляционного регулирования

[0104] В настоящем варианте осуществления функция Q значения действия установлена как функция табличного типа, хотя настоящее изобретение не ограничивается этим, и, например, может использоваться устройство аппроксимации функции.

[0105] Например, вместо использования функции Q значения действия, политика π может быть выражена устройством аппроксимации функции, которая имеет состояние s и действие a как независимые переменные и вероятность выполнения действия a как зависимого переменной, и параметр, определяющий устройство аппроксимации функции, может обновляться в соответствии с выгодой r.

Об эталонном методе информации о фазе в данных реляционного регулирования

[0106] Как описано в абзаце «О данных реляционного регулирования», когда устройство аппроксимации функции используется в качестве функции Q значения действия, например, фазовая переменная V_pase упоминается путем подготовки отдельного устройства аппроксимации функции для каждой фазовой переменной V_pase. Кроме того, например, фазовая переменная V_pase может упоминаться путем включения фазовой переменной V_pase в независимую переменную функции Q значения действия.

[0107] Как описано в абзаце «О данных реляционного регулирования», когда политика π выражается устройством аппроксимации функции, которое имеет состояние s и действие a как независимые переменные и вероятность выполнения действия a как зависимую переменную, например, фазовая переменная V_pase упоминается путем подготовки отдельного устройства аппроксимации функции для каждой фазовой переменной V_pase. Кроме того, например, фазовая переменная V_pase упоминается путем включения фазовой переменной V_pase в независимую переменную устройства аппроксимации функции.

О процессе работы

[0108] Как описано в абзаце «О данных реляционного регулирования», когда устройство аппроксимации функции используется в качестве функции Q значения действия, путем ввода действия a в функцию Q значения действия вместе с состоянием s для каждого из дискретные значения для действия, которое является независимой переменной функции табличного типа в вариантах осуществления, выбирается действие a, которое максимизирует функцию Q значения действия.

[0109] Как описано в абзаце «О данных реляционного регулирования», когда политика π выражается устройством аппроксимации функции, которое имеет состояние s и действие a как независимые переменные и вероятность выполнения действия a как зависимую переменную, действие a выбирается на основе вероятности, представленной политикой π.

Об обновлении сопоставления

[0110] В процессе S72, было проиллюстрировано так называемое Q-обучение, которое представляет собой метод TD с отключенной политикой, хотя настоящее изобретение не ограничивается этим, и, например, может использоваться так называемый метод SARSA, который является методом TD с политикой. Однако настоящее изобретение не ограничивается методом TD, и, например, можно использовать метод Монте-Карло или метод отслеживания правомочности.

[0111] В качестве отображения обновления данных реляционного регулирования на основе выгоды, например, может использоваться отображение согласно алгоритму распределения отдачи. В частности, когда пример, использующий отображение согласно алгоритму распределения отдачи, используется в качестве модифицированного примера процесса, проиллюстрированного на фиг. 6 или фиг. 10, выполняется следующее. Другими словами, выгода рассчитывается на этапе, когда переключение передач завершено. Затем вычисленная выгода назначается правилу, которое определяет пару каждого состояния и действия, связанного с переключением передач, в соответствии с функцией подкрепления. Здесь в качестве функции усиления, например, может использоваться хорошо известная функция геометрического убывания. В частности, поскольку время T_sft переключения передач имеет сильную корреляцию со значением переменной действия в Фазе 3, эффективно использовать функцию геометрического уменьшения в качестве функции подкрепления при распределении выгоды в соответствии со временем T_sft переключения передач. Однако функция усиления не ограничивается функцией геометрического убывания. Например, когда выгода назначается на основе количества CV тепловыделения, распределение выгоды согласно количеству CV тепловыделения для фазы 1 может быть максимизировано с учетом того факта, что количество CV тепловыделения имеет сильную корреляцию со значением переменной действия в фазе 1.

[0112] Например, как описано в абзаце «О данных реляционного регулирования», когда политика π выражается устройством аппроксимации функций и напрямую обновляется на основе выгоды r, отображение обновлений настраивается с использованием политики градиентного метода и т.п.

[0113] Цель, которая должна быть обновлена непосредственно выгодой r, не ограничивается только одной из функции Q значения действия и политики π. Например, функция Q значения действия и политика π могут быть обновлены, соответственно, как в методе «субъект-критик». Кроме того, в методе «субъект-критик», например, функция значения V может стать целью для обновления вместо функции Q значения действия.

О критерии назначения выгоды

[0114] Способ определения критерия для комбинации части множества требуемых элементов, необходимых для переключения передаточного числа, не ограничивается методом, использующим данные карты, которые имеют значение переменной, представляющей каждый из требуемых элементов в качестве входной переменной. Например, критерий может быть определен путем установки переменной, представляющей каждый требуемый элемент, как переменной, имеющей значение, которое равно или больше нуля, и более желательно, поскольку оно больше нуля, установив декартову систему координат, имеющую столько же размеров как количество переменных, и задание в качестве выгоды объема многоугольника, имеющего значение каждой переменной с началом координат как вершины. Другими словами, в этом случае, даже когда часть переменных имеет чрезмерно большое значение, в случае, когда значение одной переменной равно нулю, объем становится равным нулю. Таким образом, когда часть требуемых элементов удовлетворяется, в то время как другие элементы не удовлетворяются, можно считать, что не выполняется критерий для назначения высокого выгоды. Другими словами, сбалансированное удовлетворение требуемых элементов может использоваться как критерий для назначения высокой выгоды.

О процессе вычисления выгоды

[0115] В вышеупомянутых вариантах осуществления выгода r установлена равной нулю на фазе 1 и фазе 2, хотя настоящее изобретение этим не ограничивается. Например, на фазе 1 может быть назначена более высокая выгода, когда количество CV тепловыделения на фазе 1 мало, чем когда оно велико. Кроме того, например, на фазе 2 может быть назначена более высокая выгода, когда величина CV тепловыделения на фазе 2 мала, чем когда она большая. Кроме того, например, на фазе 2 может быть назначена более высокая выгода, когда величина ΔN_m2 разгона на фазе 2 мала, чем когда она большая.

[0116] Процесс назначения более высокой выгоды, когда количество тепловыделения мало, чем когда оно велико, не ограничивается процессом назначения более высокой выгоды, когда количество InCV тепловыделения меньше, чем когда оно велико. Например, может быть назначена более высокая выгода, когда максимальное значение количества CV тепловыделения в единицу времени в течение периода переключения передач меньше, чем когда оно велико.

[0117] Переменная, представляющая величину, на которую частота вращения входного вала трансмиссии превышает эталонную частоту вращения, не ограничивается максимальной величиной ΔN_m2max разгона и может быть, например, средним значением величины ΔН_m2 разгона в период переключения передач. Кроме того, например, это может быть переменной, в которой количественно определяется величина, в которой частота вращения входного вала, когда выводится команда переключения передач, превышает опорную частоту вращения.

[0118] Величина удара, генерируемая при переключении передаточного числа, не ограничивается величиной, количественно определяемой максимальным значением ΔN_outmax колебаний выходного вала, то есть максимальным значением величины ΔN_out колебаний выходного вала, которое является величиной колебаний частоты вращения выходного вала трансмиссии 26. Например, это может быть определено количественно по среднему значению величины ΔN_out колебаний выходного вала. Кроме того, он не ограничен величиной, определяемой количественно с использованием величины ΔN_out колебания выходного вала, и может быть определен количественно, например, посредством ускорения транспортного средства, обнаруженного датчиком ускорения.

[0119] В процессе S68, процесс назначения более высокой выгоды, когда время T_sft переключения передач меньше, чем когда оно длинное, процесс назначения более высокой выгоды, когда величина удара, генерируемая при переключении передаточного отношения, равна меньше, чем когда оно большое, и процесс назначения более высокой выгоды, когда количество InCV тепловыделения меньше, чем когда оно велико, выполняются, хотя настоящее изобретение этим не ограничивается. Например, могут выполняться только два из этих трех процессов. Кроме того, например, может выполняться по меньшей мере один из этих трех процессов и процесс назначения более высокой выгоды, когда величина, на которую частота вращения входного вала трансмиссии превышает эталонную частоту вращения, мала, чем когда она большая.

[0120] В процессе S68a, даже в комбинации, где значения четырех переменных времени T_sft переключения передач, величины удара, генерируемого при переключении передаточного числа, величины CV тепловыделения и величины, в которой частота вращения входного вала трансмиссии превышает контрольную частоту вращения, величины выгоды варьируется в зависимости от величины ACCP работы акселератора или типа переключения передач, хотя настоящее изобретение этим не ограничивается. Например, величина выгоды может изменяться в зависимости от величины ACCP работы акселератора, хотя не обязательно должна изменяться в зависимости от типа переключения передач. Кроме того, например, величина выгоды может изменяться в зависимости от типа переключения передач, хотя не обязательно должна изменяться в зависимости от величины ACCP работы акселератора. Кроме того, например, значение выгоды может быть установлено постоянным для комбинации, в которой значения четырех переменных одинаковы, независимо от величины нажатия педали акселератора и типа переключения передач.

[0121] В процессе S68a выгода назначается за комбинацию значений четырех переменных времени T_sft переключения передач, величины удара, генерируемой при переключении передаточного числа, величины CV тепловыделения и величины, в которой частота вращения входного вала трансмиссии превышает эталонную частота вращения, хотя настоящее изобретение этим не ограничивается. Например, выгода может быть назначена за комбинацию значений только трех из четырех переменных. Далее, например, выгода может быть назначена за комбинацию значений только двух из четырех переменных. В этих случаях необязательно, чтобы величина выгоды изменялась в зависимости от величины ACCP работы акселератора или типа переключения передач. Например, величина выгоды может изменяться в зависимости от величины ACCP работы акселератора, хотя не обязательно должна изменяться в зависимости от типа переключения передач. Кроме того, например, величина выгоды может изменяться в зависимости от типа переключения передач, хотя не обязательно должна изменяться в зависимости от величины ACCP работы акселератора. Кроме того, например, значение выгоды может быть установлено постоянным для комбинации, в которой значения по меньшей мере двух переменных из четырех являются одинаковыми.

[0122] Процесс вычисления выгоды не ограничивается установкой критерия для комбинации всех значений переменных, представляющих каждый из требуемых элементов для выгоды. Например, при определении критерия для назначения выгоды за комбинацию значений трех переменных времени T_sft переключения передач, величины удара, генерируемого при переключении передаточного числа, и величины CV тепловыделения, независимо от определенного критерия может быть выполнен процесс назначения более высокой выгоды, когда величина, на которую частота вращения входного вала трансмиссии превышает опорную частоту вращения, мала, чем когда она большая.

О методе генерирования данных управления транспортным средством

[0123] В процессе S26 с фиг. 6, действие определяется на основе функции Q значения действия, хотя настоящее изобретение не ограничивается этим, и все действия, которые могут быть предприняты, могут быть выбраны с равной вероятностью.

О данных сопоставления переключения передач

[0124] Данные сопоставления переключения передач, которые принимают состояние транспортного средства в качестве входных данных и выводят значение переменной действия, которая максимизирует ожидаемую отдачу, связывая состояние транспортного средства со значением переменной действия, которая максимизирует ожидаемую отдачу на индивидуальной основе, не ограничивается данными карты. Например, это может быть устройство аппроксимации функций. Например, как описано в абзаце «О сопоставлении обновлений», это может быть реализовано, когда используется метод градиента политики или т.п., выражая политику распределением Гаусса, представляющим вероятность, с которой значение действия переменной может быть взята, выражая ее среднее значение устройством аппроксимации функции, обновляя параметр устройства аппроксимации функции, который выражает среднее значение, и используя среднее значение после обучения в качестве данных карты переключения передач. Другими словами, здесь среднее значение, выдаваемое устройством аппроксимации функции, рассматривается как значение переменной действия, которая максимизирует ожидаемую отдачу.

О системе управления переключением передач

[0125] В примере, показанном на фиг. 13, процесс определения действия на основе политики π (процесс S26a) выполняется на стороне транспортного средства, хотя настоящее изобретение этим не ограничивается. Например, данные, полученные в процессе S22a, могут быть переданы из транспортного средства VC(1), действие a может быть определено с использованием переданных данных в центре 110 анализа данных, и определенное действие может быть передано на транспортное средство VC(1).

[0126] Система управления переключением передач не ограничивается системой, состоящей из устройства 40 управления и центра 110 анализа данных. Например, вместо центра 110 анализа данных может использоваться мобильный терминал пользователя. Кроме того, система управления переключением передач может состоять из устройства 40 управления, центра 110 анализа данных и мобильного терминала. Это может быть реализовано, например, посредством выполнения процесса S26a мобильным терминалом.

О исполнительном устройстве

[0127] Исполнительное устройство не ограничивается включением ЦП 42 (112) и ПЗУ 44 (114) и выполнением обработки программного обеспечения. Например, может быть предоставлена выделенная аппаратная схема, такая как ASIC, которая обрабатывает, по меньшей мере, часть процессов программно, в вышеупомянутых вариантах осуществления посредством аппаратного обеспечения. Другими словами, исполнительное устройство может иметь любую из следующих конфигураций (а)-(с):

(a) Предоставляется устройство обработки, которое выполняет всю вышеуказанную обработку в соответствии с программой, и устройство хранения программ, такое как ПЗУ, в котором хранится программа.

(b) Предоставляются устройство обработки, которое выполняет часть вышеуказанной обработки в соответствии с программой, устройство хранения программ и выделенная аппаратная схема, которая выполняет оставшуюся обработку.

(c) Предоставляется выделенная аппаратная схема, которая выполняет всю вышеуказанную обработку. Здесь может использоваться множество устройств исполнения программного обеспечения, включая устройство обработки и устройство хранения программ, а также множество специализированных аппаратных схем.

О запоминающем устройстве

[0128] В вышеупомянутом варианте осуществления запоминающее устройство, которое хранит данные DR реляционного регулирования, и запоминающее устройство (ПЗУ 44, 114), которое хранит обучающую программу DPL, обучающую подпрограмму DPL_a или обучающую основную программу DPL_b, используются как отдельные устройства хранения. Однако, изобретение этим не ограничивается.

О транспортном средстве

[0129] Транспортное средство не ограничивается гибридным транспортным средством с последовательным и параллельным подключением. Например, это может быть гибридным транспортным средством с последовательным подключением или гибридным транспортным средством с параллельным подключением. В качестве вращающейся машины транспортного средства транспортное средство не ограничивается включением в него двигателя внутреннего сгорания и электродвигателя-генератора. Например, транспортное средство может иметь двигатель внутреннего сгорания, а не электродвигатель-генератор, или транспортное средство может иметь электродвигатель-генератор, а не двигатель внутреннего сгорания.

Другие

[0130] Трансмиссия не ограничивается трансмиссией 26, проиллюстрированной на фиг. 1 и аналогичной.

Claims

1. Способ генерирования данных управления переключением передач, выполняемый исполнительным устройством в состоянии, в котором данные реляционного регулирования, используемые для регулирования взаимосвязи между состоянием транспортного средства и переменной действия, хранятся в запоминающем устройстве, причем переменная действия является переменной, связанной с работой трансмиссии, установленной на транспортном средстве, при этом способ генерирования данных управления переключением передач включает:

процесс сбора данных для сбора данных о состоянии транспортного средства на основе значения обнаружения датчика;

рабочий процесс для приведения в действие трансмиссии для переключения передаточного числа;

процесс вычисления выгоды для назначения, на основе состояния транспортного средства, полученного в процессе сбора данных, более высокой выгоды тогда, когда характеристика транспортного средства удовлетворяет критерию, чем когда характеристика не удовлетворяет указанному критерию; и

процесс обновления для обновления данных реляционного регулирования путем ввода в заранее определенное отображение обновления состояния транспортного средства, полученного с помощью процесса сбора данных, значения переменной действия, используемой для работы трансмиссии, и выгоды, соответствующей работе, при этом:

отображение обновления выводит данные реляционного регулирования, которые обновляются для увеличения ожидаемой отдачи для выгоды, когда трансмиссия задействуется в соответствии с данными реляционного регулирования; и

критерий, когда в процессе вычисления выгоды назначается выгода, определяется для комбинации значений первой переменной и второй переменной, которые являются двумя из четырех переменных времени переключения передач, необходимого для переключения передаточного числа, величины тепловыделения трансмиссии в течение периода переключения передаточного числа, величины, на которую частота вращения входного вала во время периода переключения передаточного числа превышает опорную частоту вращения, и величины удара, генерируемой при переключении передаточного числа.

2. Способ генерирования данных управления переключением передач по п.1, при котором критерий, когда в процессе вычисления выгоды назначается выгода, определяют для комбинации значений первой переменной, второй переменной и третьей переменной, которые являются тремя из указанных четырех переменных.

3. Способ генерирования данных управления переключением передач по п.1 или 2, при котором даже в комбинации, в которой значения соответствующих переменных являются одинаковыми, процесс вычисления выгоды включает процесс изменения значения выгоды согласно по меньшей мере одной из двух переменных, которые представляют собой переменную крутящего момента, представляющую крутящий момент, прикладываемый к трансмиссии, и переменную переключения, представляющую вид переключения передаточного числа.

4. Способ генерирования данных управления переключением передач по п.1 или 2, при котором:

запоминающее устройство хранит данные карты, которые имеют значения по меньшей мере первой и второй переменных в качестве входных переменных и имеют значение выгоды в качестве выходной переменной; и

процесс вычисления выгоды включает процесс вычисления на основе карты выгоды на основе значений первой и второй переменных.

5. Способ генерирования данных управления переключением передач по п.1 или 2, при котором информация о множестве фаз, на которые делится период переключения передаточного числа, получается из данных реляционного регулирования, когда значение переменной действия определяется по данным реляционного регулирования.

6. Способ генерирования данных управления переключением передач по п. 5, при котором фазы включают в себя фазу, которая заканчивается, когда завершается передача крутящего момента посредством элемента фрикционного зацепления, причем элемент фрикционного зацепления переключается из состояния зацепления в состояние отпускания путем переключения передаточного числа трансмиссии.

7. Способ генерирования данных управления переключением передач по п.1 или 2, при котором переменная, представляющая состояние транспортного средства, взаимосвязь которого со значением переменной действия регулируется данными реляционного регулирования, включает в себя переменную крутящего момента, представляющую крутящий момент, приложенный к трансмиссии, переменную переключения, представляющую вид переключения передаточного числа, и переменную температуру, представляющую температуру гидравлического масла трансмиссии.

8. Способ генерирования данных управления переключением передач по п.1 или 2, при котором переменная, представляющая состояние транспортного средства, взаимосвязь которого со значением переменной действия регулируется данными реляционного регулирования, включает в себя переменную, представляющую состояние вращения входного вала трансмиссии.

9. Способ генерирования данных управления переключением передач по п.1 или 2, дополнительно включающий:

процесс генерирования данных отображения переключения передач, который принимает состояние транспортного средства в качестве входных данных и выводит величину работы трансмиссии, которая максимизирует ожидаемую отдачу, путем связывания состояния транспортного средства со значением переменной действия, которая максимизирует ожидаемую отдачу на основе данных реляционного регулирования, которые обновляются в процессе обновления.

10. Устройство управления переключением передач, содержащее:

исполнительное устройство и запоминающее устройство, используемые в способе генерирования данных управления переключением передач по п.1 или 2,

при этом рабочий процесс представляет собой процесс управления трансмиссией для переключения передаточного числа на основе значения переменной действия, которая определяется данными реляционного регулирования, и состояния транспортного средства, которое определяется с помощью процесса сбора данных.

11. Система управления переключением передач, содержащая:

исполнительное устройство и запоминающее устройство, используемые в способе генерирования данных управления переключением передач по п.1 или 2, при этом:

исполнительное устройство включает в себя первое исполнительное устройство, установленное на транспортном средстве, и второе исполнительное устройство, отдельное от устройства транспортного средства;

первое исполнительное устройство выполняет, по меньшей мере, процесс сбора данных и рабочий процесс; а

второе исполнительное устройство выполняет, по меньшей мере, процесс обновления.