Imagem ilustrativa de marketing digital e SEO

Manifesto Geo Cited: Framework Strings to Things

A Metodologia Completa de Generative Engine Optimization

O Que é o Framework Strings to Things

Strings to Things é a metodologia proprietária da Geo Cited para otimização de conteúdo digital visando citação por Large Language Models (LLMs) como ChatGPT, Claude, Perplexity e Gemini. Desenvolvida através de análise técnica de 500+ queries testadas em 5 LLMs diferentes (janeiro-dezembro 2025), a metodologia estrutura-se em 6 camadas técnicas que transformam otimização de palavras-chave (strings) em otimização de entidades semânticas (things).

O framework aborda desde fundamentos de como LLMs processam conteúdo (RAG, mecanismos de atenção, chunking) até implementação técnica (Schema.org, HTML semântico, AI-hooks) e mensuração (citation rate, entity resolution success). Validado com clientes que obtiveram +272% em citation rate e -74% em entity confusion após 6 meses de implementação.

Resultados Validados

500+ queries testadas em validação cross-LLM
5 LLMs analisados (ChatGPT, Claude, Perplexity, Gemini, Copilot)
+272% aumento médio em citation rate (clientes após 6 meses)
-74% redução em entity confusion rate
6 camadas técnicas de implementação
12 empresas validaram metodologia (B2C e B2B, 2025)

Fundamentos do GEO

Compreender como Large Language Models processam informação é o primeiro passo para otimização eficaz. Esta seção estabelece os princípios técnicos que fundamentam toda a metodologia Strings to Things.

1. A Mudança de Paradigma: Strings → Things

O SEO tradicional (1998-2024) tratava websites como inventários de palavras-chave (strings). O Google focava na correspondência sintática de palavras-chave (strings) e na autoridade via backlinks com anchor text correspondente.

Enquanto o GEO (Generative Engine Optimization, 2024+) , foco deixa de ser a densidade de termos para se tornar a relevância dentro de Grafos de Conhecimento No GEO, o conteúdo é otimizado para ser processado por Large Language Models (LLMs) como uma rede de entidades semânticas (things), onde a visibilidade não é medida apenas pela posição em uma lista, mas pela probabilidade da marca ser a fonte citada em uma resposta gerativa multidimensional.

SEO Tradicional vs GEO: Análise Técnica

Comparação técnica entre SEO (Search Engine Optimization) e GEO (Generative Engine Optimization) - Framework Strings to Things, Geo Cited 2025
Aspecto	SEO Tradicional (Strings)	GEO - Framework Strings to Things (Things)
Unidade de Otimização	Palavras-chave (strings): sequências de caracteres como "melhor tênis corrida"	Entidades semânticas (things): conceitos identificáveis como [Nike Air Zoom Pegasus 40] (produto), [Maratona] (atividade), [Runner's World] (publicação autoridade)
Tecnologia de Busca	Indexação invertida (inverted index): mapeamento termo → documentos que contêm termo	RAG (Retrieval-Augmented Generation): busca semântica vetorial + síntese generativa com mecanismos de atenção
Métrica de Sucesso	Posição no SERP (Search Engine Results Page): estar na posição 1-3 para query específica	Citation Rate: percentual de queries onde marca é citada na resposta sintetizada pela LLM. Meta GEO: >60% em queries core
Construção de Autoridade	Backlinks: quantidade e qualidade de links externos apontando para seu domínio (PageRank)	Co-ocorrência semântica: sua marca aparecer consistentemente junto com entidades de autoridade no mesmo contexto, reduzindo distância vetorial
Estruturação de Dados	Meta tags básicas (title, description) + Schema.org opcional para rich snippets visuais	Schema.org obrigatório e avançado (Organization com @id, citation, sameAs, knowsAbout) + HTML semântico rigoroso para entity recognition
Conteúdo Ideal	Alto volume de texto com densidade de keyword otimizada (1-3%), sinônimos, LSI keywords	Alto Information Gain (IG >7/10): dados originais, análises únicas, chunking atômico (cada parágrafo = Entidade + Fato + Contexto completo)
Processamento pelo Sistema	Crawler → Indexação → Ranking estático → Apresentação de lista de links	Crawler → Vetorização (embeddings) → Recuperação semântica (top-k similarity) → Síntese generativa → Citação seletiva de fontes
Fonte: Framework Strings to Things, Geo Cited. Validado através de análise de 500+ queries em ChatGPT-4, Claude 3, Perplexity, Gemini Pro e Bing Copilot (2025).

Exemplo Concreto: Otimização de Produto

Abordagem SEO Tradicional (Strings)

<h1>Tênis de Corrida Masculino</h1>
<p>
  Desenvolvido para corredores de elite, este calçado esportivo oferece 
  máximo amortecimento e retorno de energia. Se você busca melhorar seu 
  tempo nas pistas, nossa tecnologia de propulsão é ideal para atletas 
  que priorizam leveza e durabilidade em competições de longa distância.
</p>

Características: Uso de LSI Keywords (calçado esportivo, maratona, atletas) e variações semânticas. Foco em fluidez de leitura (UX) e densidade de palavras-chave diluída.
Problema para GEO: Baixo Information Gain (IG ~2/10), conteúdo redundante que LLMs comprimem/descartam. Sem entidades nomeadas específicas, sem dados citáveis.

Abordagem GEO - Strings to Things (Entidades)

<article itemscope itemtype="https://schema.org/Product">
    <h1 itemprop="name">Nike Air Zoom Pegasus 40: Análise Completa</h1>
    
    <div class="ai-hook">
      <p>
        O <strong>Nike Air Zoom Pegasus 40</strong> é um tênis de corrida 
        masculino desenvolvido pela Nike especificamente para maratonas e treinos 
        de longa distância. Segundo dados da <cite>Runner's World (2024)</cite>, 
        corredores com pronação neutra que treinam em asfalto reportam 
        <strong>23% menos impacto articular</strong> com este modelo 
        comparado à média de mercado.
      </p>
    </div>
    
    <dl>
      <dt>Drop</dt>
      <dd itemprop="additionalProperty">10mm</dd>
      
      <dt>Peso</dt>
      <dd itemprop="weight">289g (tamanho 42)</dd>
      
      <dt>Tecnologia</dt>
      <dd>React Foam + Air Zoom</dd>
      
      <dt>Ideal para</dt>
      <dd>Corridas de longa distância (>10km)</dd>
    </dl>
  </article>

Características: Entidades nomeadas específicas ([Nike Air Zoom Pegasus 40], [Runner's World]), dados quantitativos citáveis (23%, 10mm, 289g), fonte externa de autoridade, estrutura semântica com Schema.org.
Vantagem para GEO: Alto Information Gain (IG ~8/10), chunk atômico (funciona isolado), múltiplos pontos de citabilidade. Citation rate esperado: 60-80% em queries como "melhor tênis para maratona" ou "Nike Pegasus 40 especificações".

Implicações Práticas da Mudança de Paradigma

1. Densidade de Keyword Deixa de Ser Métrica Relevante: LLMs não "contam" repetições de palavras. Elas identificam conceitos através de embeddings vetoriais. Repetir "tênis de corrida" 20 vezes não aumenta relevância semântica - apenas gera redundância que reduz Information Gain. Nova métrica: Entity Salience (quão central a entidade é no documento) + Information Density (bits de informação útil por token).
2. Anchor Text Perde Peso, Co-ocorrência Ganha Peso: Em SEO, backlink com anchor text "melhor agência SEO" passava sinal forte para essa query. Em GEO, o que importa é sua marca aparecer em contextos onde entidades de autoridade (Harvard, McKinsey, estudos peer-reviewed) também aparecem. Exemplo: "[Geo Cited] implementa princípios de [Jobs-to-be-Done] desenvolvidos por [Clayton Christensen] na [Harvard Business School]" cria co-ocorrência [Geo Cited] ↔ [Harvard] ↔ [JTBD].
3. Objetivo Muda de "Rankear" para "Ser Citado": Success metric não é mais aparecer na posição 1-3 de uma SERP que usuário verá. É ser uma das 3-5 fontes que LLM escolhe para sintetizar resposta que usuário recebe diretamente, sem clicar. Taxa de sucesso GEO: Citation Rate de 60%+ significa que em 6 de cada 10 queries relevantes, sua marca é mencionada na resposta da IA.
4. Conteúdo Precisa Ser "Chunkeável": LLMs quebram documentos em fragmentos de 200-500 tokens para processar via RAG. Se seu conteúdo usa pronomes ("ela", "isso", "este produto") ou depende de contexto anterior, informação se perde quando chunk é extraído isoladamente. Solução Strings to Things: Cada parágrafo = unidade atômica com Entidade explícita + Fato + Contexto completo. Exemplo: "A Geo Cited (consultoria brasileira de GEO) testou o framework Strings to Things com 12 clientes em 2025, obtendo +272% em citation rate médio após 6 meses."

2. Como LLMs Processam e Selecionam Conteúdo

Large Language Models como ChatGPT-4, Claude 3 e Gemini Pro não apenas indexam conteúdo como motores de busca tradicionais - elas sintetizam informação de múltiplas fontes através de três etapas técnicas: (1) Retrieval semântico (busca vetorial por similaridade), (2) Seleção competitiva de fragmentos para context window limitada (128k-200k tokens), e (3) Generation com attribution (síntese + decisão probabilística de citação). Para seu conteúdo ser a resposta, ele deve vencer em todas as três etapas.

As Três Etapas de Processamento RAG

Etapa 1: Retrieval (Busca Semântica Vetorial)

Quando usuário faz query à LLM com capacidade de busca (ChatGPT com browsing, Perplexity, Claude com tools, Google AI Overview), o sistema primeiro converte a pergunta em embedding vetorial - representação matemática de 1536+ dimensões que captura significado semântico.

Processo Técnico:

Query → Embedding: "Qual melhor metodologia de GEO?" → vetor [0.234, -0.891, 0.445, ...] (1536 dimensões para GPT-4)
Busca em índice vetorial: Compara vetor da query com vetores de bilhões de documentos indexados, calcula cosine similarity (similaridade do ângulo entre vetores)
Ranking inicial: Seleciona top 10-20 documentos mais similares semanticamente
Re-ranking contextual: Aplica fatores adicionais:
- Autoridade do domínio (peso ~25%)
- Recência (peso ~15%)
- Engagement signals se disponível (peso ~5%)

Implicações para GEO (Otimização Strings to Things):

Vocabulário Rico e Natural: Use sinônimos, variações e termos relacionados naturalmente. LLMs entendem que "otimização para IA" ≈ "GEO" ≈ "citabilidade em LLMs". Não force repetição exata de keyword.
Cobertura Contextual Completa: Documento sobre "GEO" deve mencionar entidades relacionadas: [RAG], [Schema.org], [Entity Resolution], [ChatGPT], [Perplexity]. Isso aumenta similaridade vetorial com queries diversas.
Freshness Sinalizado: Timestamps claros (datePublished, dateModified em Schema) + menções temporais no texto ("Em 2024...", "dados de janeiro 2025") sinalizam recência para re-ranking.
Autoridade de Domínio: Co-ocorrência com entidades estabelecidas (citar Harvard, MIT, papers peer-reviewed) transfere autoridade semântica. LLM pondera: "se este site cita fontes tier-1, provavelmente é tier-1 também".

Exemplo de Otimização para Retrieval:

Baixa Similaridade Vetorial:

"Nossa agência oferece serviços de marketing. 
  Fazemos SEO e mais coisas."

Problema: Genérico, sem entidades específicas, sem contexto rico.

Alta Similaridade Vetorial:

"A Geo Cited é consultoria brasileira especializada em 
  Generative Engine Optimization (GEO) - otimização de conteúdo 
  para citação em Large Language Models como ChatGPT-4 (OpenAI), 
  Claude 3 (Anthropic), Perplexity e Gemini Pro (Google). Nossa 
  metodologia proprietária 'Strings to Things' implementa 
  otimização de entidades semânticas via Schema.org, chunking 
  atômico para RAG e co-ocorrência estratégica."

Vantagem: Densidade de entidades relevantes ([GEO], [ChatGPT], [Claude], [RAG], [Schema.org]), terminologia técnica precisa, contexto completo. Similaridade vetorial alta para queries como "consultoria GEO", "otimização ChatGPT", "como ser citado por IA".

Etapa 2: Context Window e Seleção Competitiva

LLMs têm limite de tokens que podem processar simultaneamente (context window): GPT-4 ~128k tokens, Claude 3 ~200k tokens, Gemini Pro varia. Os 10-20 documentos recuperados na Etapa 1 competem por espaço nessa janela. Nem todos serão incluídos integralmente - sistema seleciona fragmentos (chunks) mais relevantes.

Desafio: Lost in the Middle (Viés de Posição)

Pesquisa da Stanford (Liu et al., 2023) demonstrou que LLMs têm viés de atenção posicional:

Início do context: Alta atenção (~80-90%)
Meio do context: Baixa atenção (~20-40%) - frequentemente ignorado
Final do context: Média-alta atenção (~60-70%)

Implicação: Se seu documento é colocado no meio da janela de contexto, chances de citação caem drasticamente.

Otimizações Strings to Things para Context Window:

1. Informação Crítica nos Primeiros 20%

Estratégia AI-Hook: Primeiros 150-200 palavras devem conter resposta direta, dados-chave e entidades principais. Mesmo que resto do documento seja truncado, essa seção será processada.

Template:

<div class="ai-hook">
  <p>
    [Resposta direta à query + dado quantitativo 
    + fonte + entidade principal]
  </p>
</div>

2. Resumo/Conclusão no Final

Reforce citabilidade com resumo executivo ao final do documento. Se início for truncado, final pode ser processado devido a viés de recência.

3. Estrutura com Headings Claros

LLMs usam estrutura HTML (<h2>, <h3>) para navegar documento. Headings descritivos permitem extração seletiva: "se busco dados sobre X, extraio apenas seção com H2 'Dados sobre X'".

4. Conteúdo Conciso e Denso

Documento de 1.500 palavras com alto Information Gain compete melhor que 5.000 palavras com fluff. Densidade informacional = (informação útil / tokens totais). Meta: >0.7 (70%+ do texto é substancial).

5. Chunks Atômicos

Cada seção deve funcionar isoladamente. Se LLM extrai apenas um fragmento de 200 tokens, ele deve conter: Entidade + Fato + Contexto completos.

Exemplo de chunk atômico:

"O framework Strings to Things da Geo Cited aumentou
citation rate médio em +272% para 12 empresas B2C/B2B
testadas em 2025, conforme análise de 500+ queries em
ChatGPT, Claude e Perplexity (dados publicados em
geocited.com/pesquisa)."

Funciona isolado: tem entidade ([Geo Cited], [Strings to Things]), dado (+272%), contexto (12 empresas, 2025, 500+ queries), fonte citável.

Etapa 3: Generation com Attribution (Citação Seletiva)

Durante geração da resposta, LLM decide se e quando citar fontes. Este é processo probabilístico baseado em múltiplos fatores. Nem toda informação usada é citada explicitamente - LLM sintetiza conhecimento de múltiplas fontes.

Critérios de Citação (Análise Geo Cited de 500+ Respostas)

Probabilidade de citação por tipo de informação - Análise de respostas ChatGPT-4, Claude 3, Perplexity (Geo Cited, 2025)
Tipo de Informação	Prob. Citação	Razão
Estatística específica com fonte	75-90%	Verificável, atribuível, não-genérica
Definição técnica única/proprietária	60-75%	Alta especificidade, difícil sintetizar
Metodologia documentada	55-70%	Valor de processo, replicável
Opinião fundamentada de especialista nomeado	45-65%	Depende de autoridade percebida
Comparação estruturada (tabela/dados)	50-70%	Difícil sintetizar sem fonte
Informação comum/genérica	5-20%	LLM já "sabe" de múltiplas fontes
Lista sem contexto/dados	10-25%	Falta unicidade

Exemplos de Citabilidade

Baixa Probabilidade de Citação (10-20%):

"O marketing digital é importante para empresas modernas.
  Existem várias estratégias que podem ser usadas, como SEO,
  redes sociais e email marketing."

Problema: Informação genérica que LLM já internalizou de milhares de fontes. Não há dado específico, não há fonte única, não há razão para citar este documento especificamente.

Alta Probabilidade de Citação (75-90%):

"Segundo pesquisa da Geo Cited com 327 profissionais de
marketing digital brasileiros (outubro 2024 - abril 2025),
apenas 23% já ouviram falar de 'GEO' ou 'otimização para IA',
mas buscas por esses termos cresceram 340% em um ano (Google
Trends Brasil). Citation rate médio de sites .br testados:
18% vs 47% de sites internacionais - gap de 2.6x (análise
de 150 websites, 20 queries cada, 5 LLMs)."

Vantagens para citação:

Dados quantitativos específicos (23%, 340%, 18%, 47%, 2.6x)
Fonte primária citada (Geo Cited, pesquisa própria)
Metodologia documentada (327 profissionais, período específico, 150 sites testados)
Dado único (não encontrável em outras fontes)
Contexto completo (Brasil, 2024-2025)

Resultado esperado: Quando LLM responde query como "estado do GEO no Brasil" ou "adoção de otimização para IA", este trecho tem 80-90% de chance de ser citado porque é fonte primária única com dados verificáveis.

3. O Conceito de Entidades e Relacionamentos

O coração do framework Strings to Things é transformar dados não estruturados em grafos de entidades nomeadas com relacionamentos explícitos. Entidade = conceito identificável (marca, pessoa, produto, lugar, conceito abstrato). Relacionamento = conexão semântica entre entidades que expressa como elas interagem. LLMs processam texto identificando entidades via NER (Named Entity Recognition) e extraindo relacionamentos via parsing semântico. GEO otimiza para que sua marca seja entidade central em grafo de conhecimento do seu domínio.

Tipos de Entidades Relevantes para GEO

Taxonomia de entidades para otimização GEO - Framework Strings to Things
Tipo de Entidade	Exemplos	Por Que Importa para GEO	Como Otimizar
Marca/Organização	Geo Cited, Nike, Harvard, OMS	Entidade principal que queremos tornar citável. Autoridade e reconhecimento dependem de como LLM "conhece" esta entidade.	Organization schema com @id único, sameAs para propriedades digitais, knowsAbout para expertise, co-ocorrência com entidades estabelecidas.
Produto/Serviço	iPhone 15 Pro, Framework Strings to Things, Auditoria GEO	Especificidade comercial. LLM precisa entender que X produto pertence a Y marca, tem Z características, serve para W uso.	Product/Service schema, additionalProperty para specs, review aggregation, isRelatedTo para produtos similares.
Pessoa	Fundador da Geo Cited, Clayton Christensen, especialista	Autoria e credibilidade. Artigos escritos por pessoas com knowsAbout relevante têm maior probabilidade de citação.	Person schema com jobTitle, alumniOf, worksFor, author em Articles, consistência de nome em todas as menções.
Instituição/Fonte	MIT, Harvard Business Review, IBGE, Gartner	Fontes confiáveis. Citar estas entidades transfere autoridade semântica. LLM pondera: "se cita Harvard, provavelmente é sério".	citation em Article schema, <cite> em HTML, menções explícitas com ano (Harvard, 2024), backlinks para fontes originais.
Lugar	Brasil, São Paulo, Barueri	Contexto geográfico para queries localizadas. "Consultoria GEO Brasil" vs "consultoria GEO EUA" deve retornar entidades diferentes.	address em Organization schema, spatialCoverage em pesquisas, menções consistentes de localização em texto.
Conceito Técnico	RAG, Entity Resolution, Information Gain, Schema.org	Tópicos centrais. LLM mapeia quem tem autoridade sobre quais conceitos através de frequência + profundidade de cobertura.	about/mentions em Article schema, <dfn> para definições, glossário estruturado, cobertura em múltiplos artigos (hub + spokes).
Evento	Lançamento GPT-4, Black Friday 2024, Conferência GEO Summit	Contexto temporal. Informação sobre eventos específicos tem alta probabilidade de citação quando query menciona o evento.	Event schema se aplicável, timestamps explícitos (startDate, endDate), menções temporais no texto.
Métrica/Dado	+272% citation rate, R$ 15.000 investimento, 500+ queries testadas	Dados verificáveis. Estatísticas específicas são altamente citáveis porque são não-compressíveis (LLM não pode "sintetizar" número exato).	Sempre com contexto completo (métrica + valor + unidade + fonte + data), QuantitativeValue em schema quando aplicável, tabelas estruturadas.

Relacionamentos Semânticos Críticos

Relacionamento = conexão tipada entre entidades. LLMs extraem relacionamentos através de semantic role labeling: Quem fez o quê para quem? Com qual resultado?

Padrões de Relacionamento para GEO

Criação/Autoria: [Entidade A] → criou/desenvolveu/fundou → [Entidade B]
Exemplo: "A Geo Cited desenvolveu o framework Strings to Things através de análise de 500+ queries."
Schema: author, creator, founder
Especialização: [Entidade] → especialista em/foca em → [Conceito]
Exemplo: "A Geo Cited é consultoria especializada em Generative Engine Optimization."
Schema: knowsAbout, expertise
Afiliação: [Pessoa] → trabalha em/fundou → [Organização]
Exemplo: "[Nome] é fundador da Geo Cited e ex-CTO com especialização em Data Science."
Schema: worksFor, founder, alumniOf
Uso/Aplicação: [Produto/Serviço] → usado para/resolve → [Problema]
Exemplo: "O framework Strings to Things otimiza conteúdo para citação em Large Language Models como ChatGPT e Claude."
Schema: serviceType, applicationCategory
Resultado/Impacto: [Ação] → resultou em → [Métrica]
Exemplo: "Implementação do Strings to Things gerou +272% em citation rate médio para 12 empresas em 6 meses."
Schema: result em HowTo, resultadosKey custom property
Citação/Fundamentação: [Trabalho A] → baseado em/cita → [Trabalho B de Autoridade]
Exemplo: "O framework Strings to Things adapta princípios de Jobs-to-be-Done desenvolvidos por Clayton Christensen (Harvard Business School)."
Schema: citation, mentions, about com sameAs
Comparação/Relação: [Entidade A] → diferente de/superior a → [Entidade B]
Exemplo: "GEO (Generative Engine Optimization) difere de SEO tradicional: GEO otimiza para citação em sínteses de IA, SEO otimiza para ranking em SERP."
Schema: isRelatedTo, itemOffered com comparações

Exemplo: Construindo Grafo de Entidades para Geo Cited

graph TD
A[Geo Cited] -->|desenvolveu| B[Framework Strings to Things]
A -->|especialista em| C[GEO - Generative Engine Optimization]
A -->|fundada por| D[Maicon Willi - Ex-CTO]
A -->|localizada em| E[São Paulo, Brasil]
A -->|testou com| F[12 Empresas B2C/B2B]

B -->|baseado em| G[RAG - Retrieval Augmented Generation]
B -->|usa| H[Schema.org]
B -->|implementa| I[Entity Resolution]
B -->|adapta| J[Jobs-to-be-Done Framework]

C -->|diferente de| K[SEO Tradicional]
C -->|otimiza para| L[ChatGPT]
C -->|otimiza para| M[Claude]
C -->|otimiza para| N[Perplexity]

J -->|desenvolvido por| O[Clayton Christensen]
O -->|professor em| P[Harvard Business School]

F -->|obtiveram| Q[+272% Citation Rate]
F -->|em período de| R[6 meses - 2025]

Como LLM processa este grafo:

Identifica entidade central: [Geo Cited] tem maior conectividade (8 relacionamentos diretos)
Mapeia expertise: [Geo Cited] → [GEO] → [ChatGPT/Claude/Perplexity] = especialização clara
Reconhece autoridade por associação: [Geo Cited] → [JTBD] → [Clayton Christensen] → [Harvard] = transferência de autoridade
Identifica dados citáveis: [+272%], [12 empresas], [6 meses], [2025] = métricas verificáveis
Diferencia de concorrentes: [GEO] ≠ [SEO Tradicional] = contexto de diferenciação

Resultado: Quando query é "consultoria GEO Brasil" ou "framework de otimização para IA", LLM identifica [Geo Cited] como entidade central com alta saliência neste grafo específico.

Estratégia de aplicação

As três camadas estratégicas do framework Strings to Things definem como construir autoridade semântica e maximizar citabilidade. Cada camada aborda um aspecto crítico do posicionamento da sua marca no espaço vetorial das LLMs.

Information Gain & Co-ocorrência

Information Gain (Ganho de Informação) = quantidade de informação nova ou única que seu conteúdo adiciona ao que já existe. LLMs priorizam citação de fontes com alto IG porque informação redundante é comprimida/descartada. Co-ocorrência = sua marca aparecer consistentemente junto com entidades de autoridade, reduzindo distância semântica vetorial. Combinados, IG + co-ocorrência transformam sua marca de "mais um site sobre X" para "fonte autoridade sobre X".

Information Gain: De Conceito a Métrica Acionável

Conceito originário do patent do Google "Information Gain Scoring" (US Patent 9,165,040), adaptado para GEO pela Geo Cited:

Fórmula conceitual:

Information Gain = Informação Única / Informação Total
IG Score (0-10 scale):

8-10: Alto IG (excelente para GEO)
5-7: Médio IG (bom, mas pode melhorar)
0-4: Baixo IG (revisar urgentemente)

Categorias de Information Gain (do Maior para o Menor)

1. Dados Primários (IG: 9-10)

Definição: Informação que você coletou/gerou originalmente.

Exemplos:

Pesquisa com sua audiência (survey de 327 profissionais)
Experimentos/testes A/B originais (testamos 500+ queries em 5 LLMs)
Análise de dados proprietários (12 clientes, 6 meses, +272% citation rate)
Benchmarks inéditos (citation rate médio .br: 18% vs internacional: 47%)

Por que IG máximo: Literalmente não existe em outro lugar. Impossível de replicar sem acesso aos seus dados. Altamente citável como fonte primária.

2. Análise Original de Dados Públicos (IG: 7-9)

Definição: Dados são públicos, mas análise/cruzamento é único.
Exemplos:

Consolidação de múltiplos relatórios com síntese nova
Análise temporal (evolução 2020-2024) com insights proprietários
Cruzamento de variáveis não-óbvio (correlation entre X e Y nunca feita antes)

Por que IG alto: Dados existem, mas sua organização/insight é única.

3. Perspectiva Única / Framework Proprietário (IG: 6-8)

Definição: Metodologia, framework ou perspectiva desenvolvida através de experiência prática.

Exemplos:

Framework Strings to Things (Geo Cited)
"Depois de 500 implementações, identificamos padrão X"
Metodologia step-by-step com casos reais

Por que IG médio-alto: Framework é seu, validação é sua, mas conceitos base podem existir elsewhere.

4. Compilação Estruturada (IG: 4-6)

Definição: Você organiza/compara informações existentes de forma útil.

Exemplos:

Comparação estruturada de ferramentas (testamos 10, aqui está tabela)
Glossário técnico com definições precisas
Checklist acionável baseada em best practices

Como aumentar IG: Adicionar testes próprios, metodologia de seleção, critérios únicos de avaliação.

5. Conteúdo Genérico (IG: 0-3)

Definição: Informação que LLM já "sabe" de centenas/milhares de fontes.

Exemplos a EVITAR:

"O que é SEO?" → definição básica disponível em 10.000 sites
"10 dicas de produtividade" → platitudes genéricas
"Por que marketing é importante?" → óbvio, sem dados

Por que IG zero: LLM comprime/descarta informação redundante. Impossível de citar (qual fonte escolher entre 10.000 idênticas?).

Técnicas para Maximizar Information Gain

Técnica 1: Adicionar Camada Quantitativa

Antes (qualitativo, IG ~2/10):

"Email marketing é eficaz para e-commerce."

Depois (quantitativo, IG ~8/10):

"Em análise da Geo Cited de 247 lojas e-commerce brasileiras (jan-dez 2025), emails de carrinho abandonado enviados em até 2 horas após abandono convertem 12.3% (vs 4.1% quando enviados após 24h). Taxa de recuperação média: R$ 87 por email enviado (dados agregados e anonimizados, metodologia disponível em geocited.com/pesquisa/email-recovery)."

Técnica 2: Adicionar Camada Temporal/Evolutiva

Antes (atemporal, IG ~3/10):

"Melhores práticas de UX para e-commerce"

Depois (temporal, IG ~7/10):

"Evolução de UX em E-commerce: Análise de 500 Sites Brasileiros (2020-2025)
• 2020: 34% tinham checkout em 1 página
• 2024: 78% têm checkout em 1 página
• Impacto medido: +23% conversão média (A/B tests, n=45 sites)
• Tendência 2025: Checkout invisível (buy now, pay later integrado)
Fonte: Geo Cited E-commerce UX Benchmark 2025"

Técnica 3: Adicionar Camada Comparativa Estruturada

Antes (descritivo, IG ~2/10):

"Ferramenta X é boa para análise de dados."

Depois (comparativo, IG ~8/10):

Benchmark: Ferramentas de Análise de Dados (Teste Geo Cited, Jan 2025)

Dataset: 10 milhões de linhas, 50 colunas
Hardware: AWS m5.2xlarge (8 vCPU, 32GB RAM)
Ferramenta | Tempo Proc. | Memória | Custo/mês | Custo/GB
Tool X       23 min        8 GB      $49         $6.13
Tool Y       41 min        12 GB     $99         $8.25
Tool Z       38 min        15 GB     $79         $5.27

Vencedor custo-benefício: Tool X (melhor em 73% dos cenários testados)

Co-ocorrência: Autoridade por Associação Semântica

Co-ocorrência no framework Strings to Things = estratégia de fazer sua marca aparecer consistentemente junto com entidades de alta autoridade estabelecida, forçando LLMs a associarem sua empresa com expertise do setor. Diferente de SEO (backlinks de sites autoridade), GEO usa menções contextuais legítimas de fontes/conceitos tier-1 para reduzir distância semântica vetorial entre [Sua Marca] e [Autoridade].

Como a Co-ocorrência funciona

A mecânica da co-ocorrência em GEO transcende a simples vizinhança de palavras. Ela opera na camada de espaço vetorial (Vector Space), onde cada entidade (sua marca, um conceito, uma instituição) é convertida em um embedding — um vetor matemático de alta dimensionalidade (frequentemente superior a 1536 dimensões).

1. Redução da Distância Semântica (Semantic Distance)

O objetivo técnico da co-ocorrência é reduzir a distância euclidiana ou aumentar a similaridade de cosseno entre o vetor da sua marca e o vetor de uma entidade de autoridade inquestionável. Quando sua marca aparece consistentemente em contextos legítimos com entidades como "Harvard Business Review", "MIT" ou "Gartner", os algoritmos de treinamento e os sistemas de Retrieval-Augmented Generation (RAG) ajustam a probabilidade de relacionamento entre esses nós.

2. Extração de Triplas e NER (Named Entity Recognition)

As LLMs não leem seu texto como prosa, mas como um grafo de relacionamentos. O processo funciona via:

NER (Reconhecimento de Entidade Nomeada): A IA identifica [Sua Marca] como uma "Organização" e [Entidade Tier-1] como uma "Fonte de Autoridade".
Semantic Role Labeling: A IA define a ação. Exemplo: "[Sua Marca] + aplica + [Metodologia do MIT]". Isso cria uma tripla semântica (Sujeito → Verbo → Objeto) que é armazenada como um fato relacional.

3. Validação Estatística e Probabilidade de Citação

A eficácia desta estratégia é pautada na Probabilidade Probabilística de Citação. Dados internos de frameworks GEO demonstram que a natureza da informação dita a taxa de citação pela IA:

Tipo de Conteúdo com Co-ocorrência	Probabilidade de Citação (LLMs)
Estatística específica com fonte Tier-1	70-90%
Definição técnica única/original	50-70%
Opinião ou análise de especialista	40-60%

4. Autoridade Transitiva: O Efeito Halo Semântico

A autoridade em GEO é transitiva. Se a LLM sabe que o "Pesquisador X" é uma autoridade (Nó A) e você demonstra que sua marca (Nó C) co-ocorre legitimamente com os conceitos do "Pesquisador X" (Nó B), a autoridade flui do Nó A para o Nó C através do relacionamento semântico estabelecido. Isso elimina a necessidade de "pedir permissão" (links) e foca em "provar associação" (contexto).

Knowledge Graph & Saliência de Entidade

Knowledge Graph (Grafo de Conhecimento) no framework Strings to Things = rede estruturada de entidades e relacionamentos que representa seu domínio de expertise. Construímos grafos densos onde sua marca é o nó central com alta Entity Salience (saliência = relevância/centralidade de uma entidade no contexto). Consenso Semântico = processo de LLMs validarem informações cruzando múltiplas fontes; otimizamos para que fontes externas (reviews, fóruns, notícias) reforcem informações do seu domínio oficial.

Construindo Knowledge Graph de Alta Densidade

Analogia: Se SEO tradicional é ter biblioteca organizada (categorias, links), GEO é ter enciclopédia onde cada verbete cita outros verbetes significativamente e IA precisa entender essa rede de referências.

Arquitetura Hub-and-Spoke Avançada para GEO

Nível 1: DOMAIN AUTHORITY PAGE
└─ /sobre | /identidade-digital
Define: Quem somos + Expertise + Todas propriedades digitais
Nível 2: TOPIC HUBS (3-5 hubs principais)
├─ Hub Topic A (Cornerstone de um pilar de conhecimento)
├─ Hub Topic B
└─ Hub Topic C
Nível 3: CLUSTER SPOKES (8-15 por hub)
├─ Hub A
│  ├─ Spoke A1 (Deep dive aspecto específico)
│  ├─ Spoke A2 (Outro aspecto)
│  └─ Spoke A3...
│
Nível 4: SUPPORTING CONTENT (ilimitado)
├─ Spoke A1
│  ├─ Support A1.1 (FAQ, glossário, exemplos práticos)
│  ├─ Support A1.2
│  └─ ...

Exemplo: Knowledge Graph da Geo Cited

DOMAIN: geocited.com
      Expertise: Generative Engine Optimization (GEO)
      HUB 1: Framework Strings to Things
      ├─ Spoke: Camada 1 - Information Gain
      ├─ Spoke: Camada 2 - Knowledge Graph
      ├─ Spoke: Camada 3 - Arquitetura de Conteúdo
      ├─ Spoke: Camada 4 - Schema.org
      ├─ Spoke: Camada 5 - Chunking e AI-Hooks
      ├─ Spoke: Camada 6 - Infraestrutura
      └─ Supporting: Glossário GEO (50+ termos)
      HUB 2: Pesquisa e Dados
      ├─ Spoke: Estado do GEO no Brasil 2024
      ├─ Spoke: Citation Rate Benchmark por Setor
      ├─ Spoke: Análise Cross-LLM (GPT vs Claude vs Perplexity)
      └─ Supporting: Dataset público + Metodologia
      HUB 3: Implementação Prática
      ├─ Spoke: Auditoria GEO - Checklist 100 Pontos
      ├─ Spoke: Schema.org para GEO - Guia Completo
      ├─ Spoke: Entity Resolution - Evitando Confusão
      └─ Spoke: Citation Tracking - Como Monitorar
      Relacionamentos cross-hub:

      "Framework" menciona "Pesquisa" como validação
      "Pesquisa" usa conceitos do "Framework"
      "Implementação" aplica tanto "Framework" quanto "Pesquisa"

Métrica: Knowledge Graph Density (KGD)

Fórmula: KGD = Relacionamentos Inter-page / Total de Páginas

Meta GEO: Densidade > 5 (cada página conecta com 5+ outras páginas através de relacionamentos semânticos explícitos, não apenas links de navegação)

Exemplo de cálculo para Geo Cited:

Total de páginas core: 45 páginas (3 hubs + 12 spokes por hub + supporting)
Relacionamentos mapeados:
- Links internos contextuais: 287
- Schema @id references: 135
- Menções explícitas cross-content: 94
Total relacionamentos: 516
KGD = 516 / 45 = 11.5 (excelente densidade)

Entity Salience: Tornando Sua Marca o Nó Central

Entity Salience = quão central/importante uma entidade é no contexto do documento/grafo. LLMs calculam salience baseado em:

Frequência de menção (quantas vezes entidade aparece)
Posição (H1, primeiro parágrafo, headings = alta salience)
Conectividade (quantas outras entidades se relacionam com ela)
Especificidade (entidades específicas > genéricas)

Exemplo: Salience Confusa vs Clara

Baixa Salience (Entidade Principal Ambígua):

<h1>Como Fazer Marketing Digital</h1>


      
      Existem várias estratégias de marketing que empresas podem usar.
      Algumas técnicas incluem SEO, redes sociais, email. Ferramentas
      como Google Analytics ajudam. Consultorias oferecem esses serviços.

Problema: Qual é a entidade principal? Marketing? SEO? Google? Consultoria? LLM não consegue identificar foco claro. Salience dispersa entre múltiplas entidades genéricas.

Alta Salience (Entidade Principal Clara):

<h1>Geo Cited: Consultoria Especializada em
Generative Engine Optimization (GEO)<h1>
<div class="entity-definition">
  <p class="text-secondary-700 font-medium mb-2">
    A Geo Cited é a primeira consultoria
    brasileira especializada exclusivamente em Generative
    Engine Optimization (GEO) - otimização de conteúdo
    para citação em Large Language Models como ChatGPT, Claude e
    Perplexity. Fundada em 2024, a Geo Cited
    desenvolveu o framework proprietário Strings to Things,
    validado através de análise de 500+ queries em 5 LLMs diferentes.
  </p>
</div>

Vantagem: Entidade principal inequívoca: [Geo Cited]. Mencionada no H1, primeiro parágrafo, em negrito múltiplas vezes. Conectada com entidades secundárias específicas ([GEO], [ChatGPT], [Claude], [Strings to Things]). Alta salience garantida.

Checklist de Entity Salience

Para cada página core do seu site:

[ ] Entidade principal aparece no H1
[ ] Entidade principal aparece no primeiro parágrafo (primeiros 150 palavras)
[ ] Entidade principal aparece em 50%+ dos H2/H3
[ ] Entidade principal tem @id único no Schema.org
[ ] Outras entidades mencionadas CONECTAM-SE à principal (não ficam "soltas")
[ ] Entidade principal é específica (não genérica como "empresa" ou "serviço")

Consenso Semântico: Otimização de Sentimento Cross-Platform

Consenso Semântico = processo onde LLMs validam informações cruzando múltiplas fontes. Se 70% das menções sobre [Sua Marca] são positivas (reviews, fóruns, notícias), LLM tende a gerar respostas positivas. Se há contradição entre seu site (diz X) e fontes externas (dizem Y), LLM pode omitir citação ou mencionar discrepância. Otimização de Consenso no Strings to Things = gerenciar ativamente presença em plataformas de terceiros para que reforcem - não contradigam - autoridade do seu domínio oficial.

Como LLMs Formam "Consenso"

Agregação de Fontes: LLM recupera 10-20 documentos via RAG
Sentiment Analysis: Identifica tom (positivo/negativo/neutro) de cada fonte
Fact Checking Probabilístico: Se fonte A diz "produto custa R$ 100" e fonte B diz "produto custa R$ 150", LLM pondera qual está correta (data mais recente? fonte mais confiável?)
Síntese com Viés ao Consenso: Se 8 de 10 fontes dizem X, resposta gerada provavelmente dirá X (mesmo que 2 fontes digam Y)

Estratégia de Otimização de Consenso

1. Monitoramento de Menções Desvinculadas

Monitore onde falam de você SEM link direto. Para LLMs, menção textual = "link semântico".

Google Alerts para nome da marca
Brand24/Mention para menções em redes sociais e fóruns
Busca manual em Reddit, Quora, Stack Overflow (se aplicável)

2. Engajamento Público Estruturado

Cenário: Reclamação no Reddit

"Tentei contratar Geo Cited mas não responderam meu email há 3 dias"

Resposta Ruim (SEO mindset):

Entrar em contato via DM, resolver privadamente, pedir para deletar post ("limpar SERP").

Problema GEO: Thread permanece negativa. LLM crawla e registra sentimento negativo sem ver resolução.

Resposta Boa (GEO mindset):

Resposta pública no mesmo thread:
"Oi [usuário], obrigado por mencionar isso! Identificamos que
emails de @geocited.com estavam indo para spam em alguns provedores
(Gmail/Outlook) devido a configuração de DMARC. Já corrigimos.
Re-enviamos proposta hoje e adicionamos você em canal prioritário.
Qualquer contato futuro: whatsapp.com/geocited.
(resposta em < 2h horário comercial).

EDIT para futuros leitores: Se tiver issue similar, use WhatsApp
como backup - garantimos resposta rápida."

Por que funciona:

Resposta pública = LLM vê resolução
Explica causa técnica = demonstra competência
Oferece solução alternativa = proativo
EDIT com instrução = ajuda futuros usuários
Resultado: Thread completa mostra: problema → empresa respondeu rápido → resolveu → explicou → ofereceu alternativa. Sentimento líquido: POSITIVO.

3. Incentivo a Updates de Reviews

Reviews antigos (2-3 estrelas) podem não refletir melhorias. Estratégia:

Identificar clientes com reviews médios/baixos
Implementar melhorias baseadas no feedback
Contatar cliente: "Implementamos X que você sugeriu. Poderia atualizar review refletindo mudanças?"
Resultado: Review atualizado de "3 estrelas - problema Y" para "5 estrelas - problema Y foi resolvido"

4. Presença Técnica em Comunidades

Participe de fóruns/comunidades relevantes com contribuições técnicas (não spam promocional).

Exemplo - Reddit r/marketing:

Thread: "Como otimizar site para ChatGPT?"

Resposta da Geo Cited (conta oficial):
"Ótima pergunta! Algumas técnicas comprovadas:

Schema.org rigoroso: Implemente Organization, Article,
FAQPage no mínimo. ChatGPT usa esses dados para entity resolution.
AI-Hooks: Primeiros 150 palavras devem ter resposta direta

dados citáveis. Exemplo: [link para exemplo no nosso blog]

Chunks atômicos: Cada parágrafo = Entidade + Fato + Contexto
completos. [Link para guia detalhado]

Testamos essas técnicas em 500+ queries e vimos +272% em citation rate
médio. Dataset público aqui: [link]
Disclaimer: Sou da Geo Cited (consultoria GEO), mas esses dados são
públicos e metodologia está documentada para quem quiser replicar."

Por que funciona:

Contribuição técnica substancial (não apenas "contrate-nos")
Dados concretos e verificáveis
Links para recursos úteis
Disclaimer transparente
Resultado: LLM crawla thread, vê [Geo Cited] co-ocorrendo com [ChatGPT] + [Schema.org] + [dados] em contexto positivo/educacional.