Введение в чат-ботов
В эпоху умных помощников и автоматизированной поддержки клиентов чат-боты стали неотъемлемой частью нашей цифровой жизни. Эти диалоговые агенты на базе искусственного интеллекта могут имитировать человеческое общение, что делает их чрезвычайно полезными для различных приложений — от обслуживания клиентов до личных помощников. В этой статье мы рассмотрим разработку чат-бота с использованием Python и Natural Language Toolkit (NLTK), мощной библиотеки для обработки естественного языка (NLP).
Почему использовать Python и NLTK?
Python — это универсальный и широко используемый язык программирования, особенно в области искусственного интеллекта и машинного обучения. NLTK, с другой стороны, представляет собой всеобъемлющую библиотеку, предоставляющую инструменты и ресурсы для задач NLP, что делает его идеальным выбором для создания чат-ботов. Вот почему:
- Простота использования: Python известен своей простотой и удобочитаемостью, что делает его отличным языком как для начинающих, так и для опытных разработчиков.
- Обширные библиотеки: NLTK вместе с другими библиотеками, такими как Scikit-Learn и TensorFlow, обеспечивает надёжную структуру для обработки текста и машинного обучения.
- Поддержка сообщества: как Python, так и NLTK имеют большие и активные сообщества, обеспечивая множество ресурсов для поиска и изучения информации.
Настройка среды Перед тем как приступить к написанию кода, убедитесь, что у вас установлены необходимые библиотеки. Вот как это можно сделать:
pip install nltk
pip install regex
pip install random
pip install string
pip install tensorflow
pip install tflearn
Вам также необходимо загрузить пакеты данных NLTK:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
Простой чат-бот с жёстко заданными правилами Давайте начнём с простого чат-бота, чтобы понять основы.
Импорт библиотек
import nltk
from nltk.stem.lancaster import LancasterStemmer
import random
import string
from string import punctuation
Предварительная обработка данных Предварительная обработка является важным этапом в NLP. Здесь мы токенизируем текст и удаляем стоп-слова.
def word_tokenizer(text):
words = nltk.word_tokenize(text)
return words
def remove_noise(word_tokens, stop_words):
cleaned_tokens = []
for token in word_tokens:
if token not in stop_words and token not in punctuation:
cleaned_tokens.append(token)
return cleaned_tokens
stop_words = set(nltk.corpus.stopwords.words('english'))
Создание чат-бота Вот базовая структура нашего чат-бота:
patterns = [
('hello', ['hi', 'hey', 'hello']),
('goodbye', ['bye', 'goodbye', 'see you later']),
# Add more patterns here
]
responses = {
'hello': ['Hello How can I assist you?', 'Hi there!', 'Hey What’s up?'],
'goodbye': ['Goodbye!', 'See you later!', 'Have a great day'],
# Add more responses here
}
def generate_response(user_input):
user_input_tokenized = word_tokenizer(user_input)
user_input_nostops = remove_noise(user_input_tokenized, stop_words)
for pattern, response_list in patterns:
if any(word in user_input_nostops for word in response_list):
return random.choice(responses[pattern])
return "I didn't understand that."
while True:
user_input = input("You: ")
if user_input.lower() in ['bye', 'goodbye']:
print('Chatbot: Goodbye!')
break
chatbot_response = generate_response(user_input)
print('Chatbot:', chatbot_response)
Блок-схема для простого чат-бота
Продвинутый чат-бот с глубоким обучением Для более продвинутого чат-бота мы можем использовать модели глубокого обучения для генерации ответов.
Загрузка и предварительная обработка данных Мы будем использовать файл JSON для хранения наших намерений, шаблонов и ответов.
import json
import pickle
import numpy as np
import tflearn
import tensorflow as tf
from nltk.stem.lancaster import LancasterStemmer
stemmer = LancasterStemmer()
with open("intents.json") as file:
data = json.load(file)
try:
with open("data.pickle", "rb") as f:
words, labels, training, output = pickle.load(f)
except:
words = []
labels = []
docs_x = []
docs_y = []
for intent in data["intents"]:
for pattern in intent["patterns"]:
wrds = nltk.word_tokenize(pattern)
words.extend(wrds)
docs_x.append(wrds)
docs_y.append(intent["tag"])
words = [stemmer.stem(w.lower()) for w in words if w != "?"]
words = sorted(list(set(words)))
labels = sorted(list(set(docs_y)))
training = []
output = []
out_empty = [0 for _ in range(len(labels))]
for x, doc in enumerate(docs_x):
bag = []
wrds = [stemmer.stem(w.lower()) for w in doc]
for w in words:
if w in wrds:
bag.append(1)
else:
bag.append(0)
output_row = out_empty[:]
output_row[labels.index(docs_y[x])] = 1
training.append(bag)
output.append(output_row)
training = np.array(training)
output = np.array(output)
with open("data.pickle", "wb") as f:
pickle.dump((words, labels, training, output), f)
Построение модели глубокого обучения Здесь мы создадим и обучим нашу модель глубокого обучения с использованием TensorFlow и TFlearn:
tensorflow.reset_default_graph()
net = tflearn.input_data(shape=[None, len(training[0])])
net = tflearn.fully_connected(net, 8)
net = tflearn.fully_connected(net, 8)
net = tflearn.fully_connected(net, len(output[0]), activation="softmax")
net = tflearn.regression(net)
model = tflearn.DNN(net)
try:
model.load("model.tflearn")
except:
model.fit(training, output, n_epoch=1000, batch_size=8, show_metric=True)
model.save("model.tflearn")
Генерация ответов Чтобы генерировать ответы, нам нужно преобразовать пользовательский ввод в мешок слов и получить предсказание от нашей модели.
def bag_of_words(s, words):
bag = [0 for _ in range(len(words))]
s_words = nltk.word_tokenize(s)
s_words = [stemmer.stem(word.lower()) for word in s_words]
for se in s_words:
for i, w in enumerate(words):
if w == se:
bag[i] = 1
return np.array(bag)
def chat():
print("Start talking with the bot (type quit to stop)!")
while True:
inp = input("You: ")
if inp.lower() == "quit":
break
results = model.predict([bag_of_words(inp, words)])
results_index = np.argmax(results)
tag = labels[results_index]
for tg in data["intents"]:
if tg['tag'] == tag:
responses = tg['responses']
print(random.choice(responses))
chat()
Диаграмма последовательности для продвинутого чат-бота