ai-safety

PromptInject is a framework that assembles prompts in a modular fashion to provide a quantitative analysis of the robustness of LLMs to adversarial prompt attacks. 🏆 Best Paper Awards @ NeurIPS ML Safety Workshop 2022

machine-learning agi language-models ai-safety adversarial-attacks ai-alignment ml-safety gpt-3 large-language-models prompt-engineering chain-of-thought agi-alignment

Updated Feb 26, 2024
Python

ShengranHu / Thought-Cloning

Star

[NeurIPS '23 Spotlight] Thought Cloning: Learning to Think while Acting by Imitating Human Thinking

reinforcement-learning deep-learning pytorch artificial-intelligence imitation-learning ai-safety

Updated Jun 28, 2024
Python

hendrycks / ethics

Star

Aligning AI With Shared Human Values (ICLR 2021)

ai-safety machine-ethics ml-safety ethical-ai gpt-3

Updated Apr 21, 2023
Python

normster / llm_rules

Star

RuLES: a benchmark for evaluating rule-following in language models

ai-safety ai-security gpt-4

Updated Sep 30, 2024
Python

tomekkorbak / pretraining-with-human-feedback

Star

Code accompanying the paper Pretraining Language Models with Human Preferences

reinforcement-learning gpt language-models ai-safety ai-alignment pretraining decision-transformers rlhf

Updated Feb 13, 2024
Python

lets-make-safe-ai / make-safe-ai

Star

How to Make Safe AI? Let's Discuss! 💡|💬|🙌|📚

ai agi artificial-intelligence artificial-general-intelligence ai-safety ai-alignment

Updated Mar 29, 2023

Giskard-AI / awesome-ai-safety

Sponsor

Star

📚 A curated list of papers & technical articles on AI Quality & Safety

Updated Oct 13, 2023

WindVChen / DiffAttack

Star

An unrestricted attack based on diffusion models that can achieve both good transferability and imperceptibility.

ai-safety diffusion-models unrestricted-attacks adverarial-attacks transferable-attacks diffusion-adversarial-attack imperceptible-attacks

Updated Sep 4, 2024
Python

ryoungj / ToolEmu

Star

[ICLR'24 Spotlight] A language model (LM)-based emulation framework for identifying the risks of LM agents with tool use

agent language-model ai-safety large-language-models prompt-engineering language-agent

Updated Mar 22, 2024
Python

PKU-Alignment / beavertails

Star

BeaverTails is a collection of datasets designed to facilitate research on safety alignment in large language models (LLMs).

safety llama gpt datasets language-model beaver ai-safety human-feedback-data llm llms human-feedback rlhf large-language-model safe-rlhf

Updated Oct 27, 2023
Makefile

PKU-YuanGroup / Hallucination-Attack

Star

Attack to induce LLMs within hallucinations

nlp machine-learning deep-learning ai-safety adversarial-attacks hallucinations llm llm-safety

Updated May 17, 2024
Python

microsoft / SafeNLP

Star

Safety Score for Pre-Trained Language Models

nlp ai-safety fairness-ai

Updated Oct 18, 2023
Python

EzgiKorkmaz / adversarial-reinforcement-learning

Star

Reading list for adversarial perspective and robustness in deep reinforcement learning.

deep-reinforcement-learning ai-safety adversarial-machine-learning multiagent-reinforcement-learning robust-machine-learning ai-alignment safe-reinforcement-learning robust-reinforcement-learning responsible-ai adversarial-reinforcement-learning meta-reinforcement-learning explainable-machine-learning adversarial-policies safe-rlhf machine-learning-safety reinforcement-learning-safety artificial-intelligence-alignment reinforcement-learning-alignment robust-deep-reinforcement-learning

Updated Jun 18, 2024

megvii-research / FSSD_OoD_Detection

Star

[SafeAI'21] Feature Space Singularity for Out-of-Distribution Detection.

anomaly ai-safety anomaly-detection out-of-distribution-detection ood-detection

Updated Feb 15, 2021
Python

SafeAILab / RAIN

Star

[ICLR'24] RAIN: Your Language Models Can Align Themselves without Finetuning

alignment ai-safety large-language-models

Updated May 23, 2024
Python

Improve this page

Add a description, image, and links to the ai-safety topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the ai-safety topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ai-safety

Here are 108 public repositories matching this topic...

Giskard-AI / giskard

jphall663 / awesome-machine-learning-interpretability

PKU-Alignment / safe-rlhf

JohnSnowLabs / langtest

tigerlab-ai / tiger

agencyenterprise / PromptInject

ShengranHu / Thought-Cloning

hendrycks / ethics

normster / llm_rules

tomekkorbak / pretraining-with-human-feedback

lets-make-safe-ai / make-safe-ai

Giskard-AI / awesome-ai-safety

WindVChen / DiffAttack

ryoungj / ToolEmu

PKU-Alignment / beavertails

PKU-YuanGroup / Hallucination-Attack

microsoft / SafeNLP

EzgiKorkmaz / adversarial-reinforcement-learning

megvii-research / FSSD_OoD_Detection

SafeAILab / RAIN

Improve this page

Add this topic to your repo