A visão computacional tem sido um problema fundamental com o qual a comunidade de IA lutou desde o início da era da IA ​​a partir de meados da década de 1950 e através de décadas de verões e invernos. Embora existam muitas tarefas na visão, como reconhecimento, análise de movimento, reconstrução de cena e restauração de imagem , o reconhecimento é o mais fundamental.

Do final da década de 1960 até relativamente pouco tempo, embora a teoria fosse sólida e os usos abundantes, os principais locais em que isso era perceptível eram os laboratórios e a difícil implementação de sistemas de OCR. O trabalho inicial feito por Hubel e Weisel sobre os córtices visuais animais e processamento, fez o seu caminho em sistemas de IA inspirando várias gerações no reconhecimento de imagem e metodologias de classificação, principalmente em torno de redes neurais convolucionais (CNN – enquanto há novos e antigos concorrentes para tentar deslocar CNN como Deep Forest, classificadores em cascata, etc., nenhum deles deslocou a CNN até a data). Estes, por sua vez, foram utilizados para várias sub-tarefas de reconhecimento, tais como recuperação baseada em conteúdo, OCR, reconhecimento facial e reconhecimento de formas.

O avanço para o reconhecimento de imagens veio em 2011-12. A CNN usada para classificação de imagens de um banco de dados da MNSIT mostrou taxas de erro tão baixas quanto 0,23% e foi muito rápida. Desde então, equipes de todo o mundo têm participado de um projeto de reconhecimento visual Imagenet Large Scale (ILSVRC) para competir em tarefas de reconhecimento visual cada vez mais difíceis, e elas vêm melhorando a cada ano. O estado atual é tão avançado que existe um hardware específico chamado VPUs (Vision Processing Units – Unidades de processamento de visão) para ajudar a executar algoritmos como CNN e SIFT (transformação de recurso de escala variável)

A principal razão para esta explosão em Reconhecimento Visual que cai sob uma categorização chamada AI restrita, tem sido

  1. Conjuntos de dados abertos massivos que podem servir como entradas de treinamento,
  2. Estruturas de código aberto e colaboração mundial maciça
  3. Serviços de API, até então desconhecidos, para impulsionar criadores de soluções para cenários de usuários finais

Essa indústria em sua totalidade está preparada para mudar a visão de mundo da humanidade com casos de uso que vão desde insumos para veículos autônomos, sistemas de visão para robôs domésticos e industriais, reconhecimento facial para aplicação da lei e identificação automatizada de metadados multiplataforma entre outros. Um lugar onde encontrou um lar natural tem sido no ecossistema social de escuta e análise. É um ajuste quase perfeito devido a:

  1. A natureza cada vez mais visual das redes sociais e disseminação de informações (~ 3,2 bilhões de imagens são compartilhadas on-line todos os dias – Meeker)
  2. Subnotificação de fontes não baseadas em texto no espaço de insights
  3. Necessidade de entender visualmente os logotipos, a colocação de produtos e como os produtos são realmente usados ​​na vida real

Desde 2017, alguns provedores tradicionais de insights sociais já se aventuraram no espaço – sim, impulsionado pela CNN. Se você é um profissional de marketing de marca, que está procurando entrar neste espaço, algumas das áreas que você poderia começar a explorar imediatamente são:

  1. Inspiração de pontos de consumo de produtos
  2. ROI de patrocínio com reconhecimento de logotipos (os logotipos offline capturados na grande quantidade de imagens agora podem ser analisados ​​e analisados)
  3. Integre imagens visuais orientadas por dados na narrativa da marca
  4. Incluindo imagens visuais para avaliar a viralidade (ajudará a prever eventos com uma fonte de dados completamente utilizada e rica)

As principais coisas que você precisa ter em mente são

  1. Se o sistema de reconhecimento visual pode se integrar perfeitamente às ofertas de análise de texto em vigor ( visualizações integradas )
  2. Quão eficiente é o sistema. Normalmente, os sistemas treinados para cenários específicos tendem a se sair melhor do que os sistemas genéricos. Então, testes e pilotos, especialmente nos contextos não-primeiro mundo são importantes
  3. Quão profunda é a compreensão do conteúdo visual – idealmente deve englobar logotipos, objetos, cenas, características faciais e ações
  4. Com que rapidez e facilidade o sistema de pesquisa visual pode ser configurado?
  5. Mais importante ainda, como você identifica e integra as implicações de novas fontes de dados e seus insights na esfera da analítica social, que é um processo mais definido na maioria das grandes empresas.

Fontes

https://www.allaboutcircuits.com/news/3-applications-for-ai-image-recognition/

https://www.wired.com/story/researcher-fooled-a-google-ai-into-thinking-a-rifle-was-a-helicopter/

http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6248110

http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture5.pdf

https://news.ycombinator.com/item?id=13773127

https://d3v6gwebjc7bm7.cloudfront.net/event/15/98/94/9/rt/1/documents /resourceList1519239358183/imageanalyticswebinar1519239372747.pdf

https://en.wikipedia.org/wiki/ImageNet#ImageNet_Challenge